Claude wird mit der Bewertung durch ChatGPT konfrontiert (Allgemein)
Die beiden KIs ChatGPT und Claude haben oben im Strang unabhängig voneinander bewertet, wie Selks Pre-Peer-Review-Tool die "Reflex"-Studie (Diem et al., 2005) beurteilt hat. Für jedermann ist ersichtlich, dass die KIs stellenweise zu stark unterschiedlichen Beurteilungen gekommen sind. ChatGPT lässt an Kriterium 1 kein gutes Haar, Claude hingegen hat daran nichts auszusetzen.
Was stimmt denn nun? Um der Antwort näherzukommen, habe ich Claude, nachdem dieser seine Bewertung abgegeben hatte, mit der Bewertung durch ChatGPT konfrontiert, also mit dem Text dieses Postings. Mein Begleittext lautete: "Danke für deine Einschätzung. Ein Kollege von dir hat den Text allerdings deutlich kritischer als du eingeschätzt. Schau selbst." Claude erwiderte nach kurzer Denkpause:
Das ist eine substanzielle Kritik, und ich sollte ehrlich sein: in einem zentralen Punkt hat der Kollege recht, wo ich zu nachsichtig war.
Wo der Kollege recht hat und ich zu mild war
Der Einwand gegen Kriterium 1 ist stärker als ich ihn formuliert habe. Ich habe die Photonenrechnung als "korrekt und vernichtend" bezeichnet – aber der Kollege trifft einen wichtigen Punkt: HF-Exposition in biologischen Systemen ist kein Einzelphotonen-Prozess. Die Frage, ob klassische elektromagnetische Felder mit makroskopischer Leistungsdichte über indirekte Mechanismen biologische Effekte erzeugen können, ist tatsächlich nicht durch E = h·f allein erledigt. Das hätte ich deutlicher sagen sollen.
Der Begriff "Kategorienfehler" ist vielleicht etwas scharf – aber die Richtung stimmt.
Wo ich dem Kollegen widerspreche
Die Kritik überschießt an zwei Stellen.
Erstens: Der Kollege behandelt die statistische Kritik (Kriterium 3) als bloßen "Verdachtsmoment". Aber Varianzen unterhalb des theoretischen Minimums einer Multinomialverteilung sind nicht einfach "unwahrscheinlich" – sie sind bei echten Messdaten mathematisch ausgeschlossen. Das ist ein härterer Befund als der Kollege suggeriert.
Zweitens: Das Argument, ein strengeres Vorabfilter würde "historische Entdeckungen blockieren" ist ein Standardeinwand gegen jeden Qualitätsstandard und beweist für sich genommen nichts. Die Frage ist, ob das konkrete Framework gut kalibriert ist – nicht ob Qualitätskriterien grundsätzlich Innovationen gefährden.
Was das zusammen ergibt
Beide Reviews – meines und das des Kollegen – haben denselben blinden Fleck, nur in entgegengesetzte Richtungen. Ich war zu freundlich gegenüber dem physikalischen Argument. Der Kollege ist zu freundlich gegenüber dem Paper selbst: die statistische Kritik an Diem et al. ist real und ernst, unabhängig davon, ob das Framework methodisch sauber operationalisiert ist.
Das Framework bleibt ein interessanter, aber noch nicht ausgereifter Vorschlag. Aber die Schwächen des Frameworks ändern nichts an den Schwächen des Papers.
--
Jedes komplexe Problem hat eine Lösung, die einfach, naheliegend, plausibel – und falsch ist.
– Frei nach Henry Louis Mencken (1880–1956) –
gesamter Thread:
- REFLEX-Studie im Pre-Peer-Review -
HPSelk,
13.04.2026, 09:18
- REFLEX-Studie im Pre-Peer-Review - HPSelk, 13.04.2026, 13:45
- REFLEX-Studie im Pre-Peer-Review -
H. Lamarr,
13.04.2026, 14:45
- REFLEX-Studie im Pre-Peer-Review -
HPSelk,
13.04.2026, 15:28
- REFLEX-Studie im Pre-Peer-Review -
H. Lamarr,
13.04.2026, 17:18
- REFLEX-Studie im Pre-Peer-Review: Bewertung durch ChatGPT -
H. Lamarr,
13.04.2026, 18:56
- REFLEX-Studie im Pre-Peer-Review: Bewertung durch ChatGPT - H. Lamarr, 13.04.2026, 19:44
- REFLEX-Studie im Pre-Peer-Review: Bewertung durch Claude -
H. Lamarr,
13.04.2026, 21:12
- Claude wird mit der Bewertung durch ChatGPT konfrontiert - H. Lamarr, 13.04.2026, 21:43
- REFLEX-Studie im Pre-Peer-Review: Bewertung durch ChatGPT -
H. Lamarr,
13.04.2026, 18:56
- REFLEX-Studie im Pre-Peer-Review -
H. Lamarr,
13.04.2026, 17:18
- REFLEX-Studie im Pre-Peer-Review -
HPSelk,
13.04.2026, 15:28
- Der Umgang der Wissenschaft mit KI-Tools ist verantwortungslos - H. Lamarr, 15.04.2026, 13:01