REFLEX-Studie im Pre-Peer-Review: Bewertung durch ChatGPT (Allgemein)
Von Herrn Selk habe ich inzwischen den Prüfbericht bekommen, den seine Pre-Peer-Review für Diem et al., 2005, ausgeworfen hat. Diesen Bericht werde ich von ChatGPT bewerten lassen und die Bewertung von einer zweiten KI (Claude) verifizieren lassen.
Den Prüfbericht (reiner Text) habe ich unverändert ChatGPT übergeben und die KI um eine fachliche Bewertung gebeten. Lesen Sie hier und jetzt, wie die KI die Pre-Peer-Review bewertet:
Der Text ist rhetorisch stark, aber methodisch an mehreren entscheidenden Stellen unpräzise bis unhaltbar. Er wirkt weniger wie ein Pre-Peer-Review-Werkzeug als wie ein normatives Ausschlussinstrument mit vorab feststehendem Ergebnis.
Grundproblem: Verwechslung von Plausibilitätsprüfung und Falsifikation
Der zentrale Hebel des Frameworks ist Kriterium 1 („physikalische Unmöglichkeit“). Hier liegt der gravierendste Fehler. Die Argumentation basiert implizit auf dem Ein-Photonen-Modell („E = h·f“) und setzt daraus direkt die Unmöglichkeit biologischer Effekte ab. Das ist in dieser Allgemeinheit jedoch nicht haltbar. Die Berechnung ist formal korrekt – aber die Schlussfolgerung ist es nicht. Denn:
- HF-Exposition in biologischen Systemen ist kein Ein-Photon-Prozess, sondern ein klassisches elektromagnetisches Feld mit makroskopischer Leistungsdichte (SAR).
- Biologische Effekte (sofern vorhanden) wären nicht über direkte Bindungsbruch-Photonik, sondern über indirekte, kollektive oder sekundäre Mechanismen zu diskutieren (z.B. oxidative Prozesse, Signaltransduktion, thermische Mikrogradienten etc.).
- Die wissenschaftliche Debatte um HF-EMF dreht sich genau um diese Frage: gibt es nicht-thermische Effekte trotz fehlender Ionisationsenergie? – sie ist nicht trivial durch eine Energieabschätzung „erledigt“.
Kurz: Der Schritt „Photonenergie zu klein → Effekt unmöglich → Auto-Reject“ ist ein Kategorienfehler.
Das allein disqualifiziert das Framework in seiner jetzigen Form als allgemeines Prüfwerkzeug.
Kriterium 1: zu stark, falsch operationalisiert
Das Kriterium „physikalische Plausibilität“ ist sinnvoll – aber: Es wird hier als harte Ausschlussregel verwendet („automatic rejection“) und basiert auf einer zu simplifizierten Modellannahme. Das führt zu einem systematischen Bias: Alles, was nicht in ein etabliertes mechanistisches Raster passt, wird eliminiert. Eben solche Arbeiten sind aber oft der Ausgangspunkt wissenschaftlicher Klärung.
In der Praxis würde das Framework:
- historische Entdeckungen mit unklarer Mechanistik blockieren
- interdisziplinäre Forschung systematisch benachteiligen
Kriterium 2 („biological window“) – teilweise valide, aber überzogen
Die Kritik an „Fenstereffekten“ ist nicht aus der Luft gegriffen:
- Solche Effekte sind schwer reproduzierbar
- oft ein Hinweis auf experimentelle Artefakte
Aber:
- Sie sind nicht per se unmöglich
- die Ableitung („müsste binäre Zellpopulation erzeugen → daher unmöglich“) ist eine Modellannahme, keine zwingende Konsequenz
Das Argument ist also heuristisch, nicht falsifizierend.
Kriterium 3: statistische Forensik – der stärkste Teil
Hier wird es interessant: Die genannten Punkte entsprechen tatsächlich der Kritik, die u.a. von Alexander Lerchl vorgebracht wurde.
Wichtige Aspekte:
- ungewöhnlich geringe Varianz
- auffällige Ziffernverteilungen
- Inkonsistenzen zwischen Publikationen
Das sind legitime Red Flags. Aber auch hier gilt:
- „statistisch extrem unwahrscheinlich“ ≠ „unmöglich“
- solche Tests liefern Verdachtsmomente, keine automatischen Schuldsprüche
Die Umdeutung zu „Auto-Reject“ ist methodisch zu hart.
Kriterium 4: COI / Tabakindustrie – relevant, aber rhetorisch übersteuert
Die Verbindungen rund um Franz Adlkofer und die REFLEX-Strukturen sind dokumentiert und wissenschaftshistorisch relevant.
Aber im Text passiert Folgendes:
- COI wird nicht nur als Kontext, sondern als quasi-deterministischer Beweis für Unzuverlässigkeit verwendet
- Formulierungen wie „tobacco industry vehicle“ sind wertend, nicht analytisch
Sauber wäre:
- COI als Bias-Risiko
- nicht als automatische Disqualifikation
„Trust Index“ – Scheingenauigkeit
Die numerische Bewertung (3/100) suggeriert Objektivität, ist aber:
- nicht kalibriert
- nicht validiert
- nicht intersubjektiv reproduzierbar
Das ist ein klassischer Fall von Quantifizierung ohne Messmodell.
Systemischer Einwand: Gefahr eines Gatekeeping-Algorithmus
Das Framework hätte – konsequent angewendet – folgende Effekte:
- starke Konservierung des Status quo
- Ausschluss von Hypothesen außerhalb etablierter Modelle
- mögliche algorithmische Verstärkung bestehender Paradigmen
Das steht im Spannungsfeld zu wissenschaftlicher Praxis, die gerade auch von Anomalien lebt.
Was daran dennoch brauchbar ist
Trotz der Kritik enthält der Ansatz verwertbare Elemente:
- strukturierte Vorprüfung (Checklistenlogik)
- automatisierte Statistik-Forensik
- systematische COI-Recherche
- Reviewer-Entlastung
Das ist im Kern sinnvoll – aber als Assistenzsystem, nicht als Entscheidungsautomat
Einordnung speziell zur REFLEX-/Diem-Arbeit
Ohne hier ins Detail der gesamten Kontroverse zu gehen:
- Die Studie ist tatsächlich stark umstritten
- es gibt Replikationsprobleme
- es existiert methodische Kritik
Aber: Die Diskussion wurde wissenschaftlich geführt (Kommentare, Replikationen etc.), genau dafür ist Peer Review + Post-Publication-Debatte da. Das Framework ersetzt diesen Prozess durch eine Vorab-Eliminierung.
Fazit
Die Arbeit ist ein interessantes Gedankenexperiment, aber kein belastbares Werkzeug.
Hauptprobleme:
- falsche physikalische Grundannahme (Photonmodell)
- unzulässige Umwandlung von Plausibilität in Ausschluss
- Übergewicht normativer Kriterien (COI)
- Scheinquantifizierung durch „Trust Index“
Wenn man es zuspitzt: Das Papier kritisiert die Schwächen des Peer Reviews – und führt gleichzeitig ein System ein, das noch weniger fehlertolerant und noch stärker voreingenommen wäre.
--
Jedes komplexe Problem hat eine Lösung, die einfach, naheliegend, plausibel – und falsch ist.
– Frei nach Henry Louis Mencken (1880–1956) –
gesamter Thread:
- REFLEX-Studie im Pre-Peer-Review -
HPSelk,
13.04.2026, 09:18
- REFLEX-Studie im Pre-Peer-Review - HPSelk, 13.04.2026, 13:45
- REFLEX-Studie im Pre-Peer-Review -
H. Lamarr,
13.04.2026, 14:45
- REFLEX-Studie im Pre-Peer-Review -
HPSelk,
13.04.2026, 15:28
- REFLEX-Studie im Pre-Peer-Review -
H. Lamarr,
13.04.2026, 17:18
- REFLEX-Studie im Pre-Peer-Review: Bewertung durch ChatGPT -
H. Lamarr,
13.04.2026, 18:56
- REFLEX-Studie im Pre-Peer-Review: Bewertung durch ChatGPT - H. Lamarr, 13.04.2026, 19:44
- REFLEX-Studie im Pre-Peer-Review: Bewertung durch Claude -
H. Lamarr,
13.04.2026, 21:12
- Claude wird mit der Bewertung durch ChatGPT konfrontiert - H. Lamarr, 13.04.2026, 21:43
- REFLEX-Studie im Pre-Peer-Review: Bewertung durch ChatGPT -
H. Lamarr,
13.04.2026, 18:56
- REFLEX-Studie im Pre-Peer-Review -
H. Lamarr,
13.04.2026, 17:18
- REFLEX-Studie im Pre-Peer-Review -
HPSelk,
13.04.2026, 15:28
- Der Umgang der Wissenschaft mit KI-Tools ist verantwortungslos - H. Lamarr, 15.04.2026, 13:01