Folge 1: "Wie gut ist die biomedizinische Forschung?"

Interviewpartner: Professor Ulrich Dirnagl

Sie hören den BIH-Podcast "Aus Forschung wird Gesundheit" aus dem Berlin Institute of Health. Mein Name ist Stefanie Seltmann.

Heute stellen wir die Frage: Wie gut ist die biomedizinische Forschung? Stimmt es, was John Ioannidis von der amerikanischen Universität Stanford behauptet hat, dass die Hälfte aller wissenschaftlichen Artikel falsch sind? Beantworten kann mir diese Frage Professor Ulrich Dirnagl. Er leitet am Berlin Institute of Health das BIH Quest Center, das die Qualität und Ethik in der Wissenschaft erforscht. Er hat John Ioannidis ans BIH eingeladen, um als Einstein BIH Visiting Fellow mit ihm zusammen zu arbeiten.

Herr Dirnagl, wie kamen Sie auf die Idee, Professor Ioannidis einzuladen?

Dirnagl: Das ist eine Idee von Herrn Zöllner. Herr Zöllner von der Stiftung Charité hat ihn gehört, er hat nämlich die BIH Inaugural Lecture gehalten, der Herr Ioannidis, dieser jährlichen Vorlesungsreihe des BIH. Und Herr Zöllner war total angetan, begeistert und hat mich mal zu sich gebeten und hat gesagt: "Wollen wir nicht versuchen, den zu holen?" Und da habe ich erst mal schallend aufgelacht und habe zu ihm gesagt: "Das ist ein Rockstar. Das ist so, wie wenn man die Stones in die Waldbühne holt. So einfach ist das nicht." Er hat mich aber überzeugt, dass es sich lohnt, es zu probieren. Und ein Anruf bei John hat innerhalb von 30 Sekunden ein Ja produziert. … Also der eigentliche Stimulus kam von Herrn Zöllner. Aber es ist naheliegend, ihn einzuladen, weil er einfach auf dem Gebiet, auf dem wir arbeiten, sicherlich einer der führenden Leute ist.

John Ioannidis hat den meistgelesenen wissenschaftlichen Artikel aller Zeiten veröffentlicht, so heißt es jedenfalls bei Wikipedia, mit dem Titel: Why Most Published Research Findings Are False. Zu Deutsch: Warum die meisten veröffentlichten Forschungsergebnisse falsch sind. Zunächst mal die Frage: Stimmt das? Sind die meisten Forschungsergebnisse falsch?

Dirnagl: Man kann eigentlich sagen, dass er Recht hat. Wir wissen heute auf geradezu gruselige Weise, dass das möglicherweise eine sehr gute Schätzung war, die er dort angestellt hat. … ein Hinweis, ein relativ starker, dass er Recht hatte, ist der, dass heutzutage immer mehr systematische Wiederholungsversuche gemacht werden, Replikationen von spektakulären Befunden. Man hat angefangen, das in der Psychologie zu machen. Das macht man jetzt systematisch auch in der Medizin. Und da kommt bei diesen sehr gut gemachten und mit höheren Fallzahlen und auch in häufig in Zusammenarbeit mit den Originalgruppen gemeinsam gemachten Experimenten heraus, dass eben deutlich weniger als die Hälfte dieser Befunde sich noch mal wieder zeigen lassen. … Ich glaube, er hat mit diesem 2005er-Artikel eine Sache in die Welt gesetzt, von der wir heute sagen müssen: Ja, im Wesentlichen ist das leider so.

Woran liegt das, dass die Forschungsergebnisse oft nicht stimmen? Ist das absichtliche Fälschung oder ist das Schlampigkeit?

Dirnagl: Also es gibt natürlich Fälschungen, und es gibt auch schon richtige Schlampigkeit. Aber das ist weder etwas, was Ioannidis damals gemeint hat … sondern es liegt an methodischen Problemen letztlich. Also eines … ist, dass sehr häufig aufgrund von sehr geringen Fallzahlen, also einer geringen Beobachtungsstichprobe, sehr weitreichende Schlussfolgerungen gezogen werden und dass in diesen Studien dann auch noch, … nicht nach allen Regeln der Statistik, nicht nach allen Regeln der Versuchsplanung, die man eigentlich ansetzen müsste, vorgegangen wird. … dass zum Beispiel nicht verblindet vorgegangen wird, dass also die Wissenschaftler wissen, in welchen Gruppen sich welche Zellkulturen, Tiere oder manchmal auch Patienten befinden, dass nicht randomisiert wird, dass es also nicht zu einer zufälligen Zuordnung innerhalb der der Behandlungs- und Nichtbehandlungsgruppen kommt, dass es häufiger zu relativ, was wir selektive Datenauswahl nennen, kommt, dass man also mal hier, mal da ein Tier, eine Zellkultur, einen Menschen aus einer Analyse am Schluss raus lässt, und dann wird der Effekt erst so richtig sichtbar. Nicht, weil man so lange rumspielen wollte und gesagt hat: Jetzt nehmen wir den, sondern man sucht im Nachhinein dann tatsächlich vielleicht sogar stichhaltige Gründe und sagt: Das war ein schlechter Tag, da haben wir alle einen schlechten Tag gehabt, und deshalb müssen wir das Experiment rausnehmen. Aber erstens, man berichtet nicht darüber, dass man es so gemacht hat, und zweitens passiert das halt überzufällig häufig bei den Experimenten, die man da rausnimmt, die einem vom Resultat her nicht gepasst haben. Das sind nur Beispiele. Und da stecken viele Gründe dahinter. Ein anderer ganz wesentlicher ist vielleicht auch der, dass wir sehr häufig nicht unterscheiden, obwohl wir es machen sollten, zwischen Exploration, also einer Erkundung von Dingen, die wir überhaupt nicht kennen, die wir letztlich dazu benutzen, Hypothesen aufzustellen, und den Belegen dieser Hypothesen, was wir Konfirmation nennen. Viele Studien, die wir lesen, tun so, als hätten sie etwas konfirmiert, also etwas bestätigt, aber in Wirklichkeit haben sie nur eine Hypothese aufgestellt. Und diese Unterscheidung, dass man also, und das das ja das Spannende an der Wissenschaft, dass man also ins Unbekannte geht, dass man irgendwelche Befunde erhebt, dass man daraus Hypothesen ableitet, das ist alles wunderbar, man darf nur dann nicht den Schritt zu weit gehen und sagen: Jetzt haben wir gezeigt, das ist ein neuer Mechanismus für oder das ist die neue Therapie von. Sondern jetzt müsste eigentlich eine zweite Welle der Untersuchung ansetzen, nämlich diese Hypothese oder diese Theorie, diese Therapie in einem in der Regel dann noch größeren und anders strukturierten Experiment zu konfirmieren, zu bestätigen. Und dieser Schritt fehlt in den meisten Fällen. Und dort, wo er gemacht wird, kommt dann halt raus häufig, dass sich die Hypothese dann doch nicht bestätigen lässt. Und dann sind wir wieder bei Ioannidis, beim Ausgangspunkt: Why Most Published Research Findings Are False.

Jetzt ist es ja aber häufig nicht so leicht bei zum Beispiel einer klinischen Studie noch mehr Patienten einzuschließen. Vielleicht ist es auch nicht so leicht bei einer präklinischen Studie noch mehr Mäuse zu beantragen für einen klinischen Versuch. Wie wollen Sie denn diese Schwierigkeit angehen?

Dirnagl: Da sprechen Sie natürlich ein zentrales Problem an: Vieles von dem, was ich gesagt habe, führt am Ende auch in gewisser Weise zu einem Mehraufwand. Das kann in den Gruppengrößen dann zu mehr Tieren oder zu mehr Menschen in der Studie. Das kann auf Seite der Experimentatoren oder der Kliniker zu längeren Projektdauern führen. Das kann dazu führen, dass eine Doktorarbeit länger wird oder vielleicht so lang, dass man sie gar nicht mehr als Doktorarbeit machen kann. Das ist grundsätzlich natürlich hochproblematisch. Zum einen würde ich mal ganz allgemein sagen: Das kann natürlich jetzt erst mal rein theoretisch kein Argument sein, weil die Wissenschaft muss gut sein. Und wenn sie sich in der Form dann so in unserem System nicht machen lässt, dann müssen wir das System ändern. Aber ich glaube, das ist lösbar. Zum einen ist insofern das Problem erkannt und es ist auch bei den Fördergebern mittlerweile angekommen. Ich kann als Beispiel nennen, dass das Bundesministerium für Forschung jetzt in Deutschland gerade eine Ausschreibung laufen hat für konfirmatorische präklinische Studien. Die haben erkannt, sie wollen robuste Forschung fördern, und sie haben auch erkannt, dass das schwierig ist für die Forscher, weil sie dafür eigentlich gar kein Geld normalerweise bekommen. Und deshalb gibt es jetzt auch ganz dedizierte Ausschreibungen und Förderungen für sowas. In anderen Ländern macht man sowas schon länger. Der Welcome Trust in England macht es schon länger. Das NIH in den USA macht es schon länger. Zum anderen ist natürlich ehrlich zu sagen, dass es nur auf den ersten Blick möglicherweise so erscheint, dass wir mehr Patienten und mehr Tiere brauchen, weil wir uns auf der anderen Seite nämlich vieles von dem, was wir vorher gemacht haben, sparen können, weil es, ich formuliere es mal sehr salopp, eh nichts gebracht hat, also in der Form nicht wirklich aussagekräftig war. Ob das am Ende dazu führt, dass man mehr braucht, dass es ungefähr wieder aufs Gleiche rauskommt oder sogar weniger, das werden die nächsten Jahre zeigen.

Die Währung in der Wissenschaft sind die Publikationen. Je höher gerankt ein Journal ist, desto besser wird der Wissenschaftler bewertet, der in solchen Journalen seine Arbeiten veröffentlicht. Jetzt könnte ich mir vorstellen, dass ein Wissenschaftler, der Daten reproduziert, die ein anderer gemacht hat, das nicht in Cell und Nature oder Science publizieren kann. Wie wollen Sie denn Anreize schaffen, diese jetzt vom BMBF geförderte Forschung überhaupt durchzuführen?

Dirnagl: Ja, das ist eine naheliegende Frage, die aber auch, würde ich sagen, auf dem Weg zur Lösung ist. Zum einen ist es so, dass diese Journale, diese ganz tollen Journale also Nature, Cell, Science, in unterschiedlicher Weise, … selber das Problem sehr stark erkannt haben. Nature hat zum Beispiel vor zwei Jahren eine Untersuchung unter Wissenschaftlern durchgeführt, ob sie glauben, dass es eine Reproduzierbarkeitskrise gibt. Den Begriff haben sie damit sogar salonfähig gemacht in dem Journal. Und da kam raus, dass 90 Prozent aller Wissenschaftler selber der Überzeugung sind, dass das so ist. Und Nature hat, um das Beispiel zu nehmen, selber schon seine ganze Praxis in dem Sinn, was Wissenschaftler einreichen müssen und was sie fordern von denen, umgestellt, weil sie selber das Gefühl hatten, dass sie da einer Entwicklung Vorschub geleistet haben, die zu nicht sehr robusten Ergebnissen führt. … was man festhalten kann, ist, dass es nicht so ist, dass sich solche konfirmatorischen Studien von relevanten Befunden nicht ordentlich veröffentlichen lassen. Ich habe selber mit einer Gruppe von Kollegen in einem Science-Magazin, Science Translational Medicine, so eine Studie veröffentlicht. Wenn die gut gemacht ist und einen relevanten Befund hat, ist die auch in einem sehr, sehr ordentlichen Journal zu veröffentlichen. Und der letzte Punkt, den ich erwähnen wollte, ist der, dass man natürlich, wenn es jetzt um Konfirmation von wichtigen Befunden geht, wir sowieso nicht von einzelnen Gruppen sprechen, sondern von einer Kollaboration in der Regel. Dadurch wird ja auch die Konfirmation robuster. … Haben wir schon gemacht, haben auch mehrere schon gemacht. Das waren immer ganz, ganz positive Erfahrungen, die nicht übrigens immer dazu geführt haben, dass wir das konfirmieren konnten. Aber a) wir konnten es immer gut publizieren, b) die Zusammenarbeit mit anderen Laboren in einer ähnlichen oder identischen Fragestellung hat massiv die Kollaboration auch auf anderen Gebieten zwischen diesen Gruppen erhöht. Aus diesen Projekten sind in der Regel andere nicht konfirmatorische, sondern explorative gemeinsame Anträge entstanden. Also der schöne Nebeneffekt der ganzen Sache scheint mir zu sein, dass es dazu führt, dass noch mehr kollaboriert wird. Was übrigens dann auch das Problem der Fallzahlen wiederum … Ein einzelnes Labor kann dann tatsächlich nicht 60 Tiere machen und sollte das auch nicht machen. Aber fünf Labore können es dann schon. Und die lernen sehr viel miteinander und machen dann auch andere Sachen gemeinsam. Also insgesamt, glaube ich, eine sehr, sehr positive Entwicklung in jeder Hinsicht.

Das BIH, das Berlin Institute of Health hat sich ja die Translation auf die Fahnen geschrieben, also die Übertragung von Ergebnissen aus der Grundlagenforschung in die Klinik, in die Anwendung zum Patienten. Was bedeutet denn das jetzt für dieses Ansinnen, wenn wir wissen, dass 50 Prozent sämtlicher Forschungsergebnisse gar nicht haltbar sind?

Dirnagl: Ich denke, da haben wir einen wichtigen Ansatzpunkt, es besser zu machen. … wenn ich schon in dieser vorklinischen Phase nicht in der Lage bin, einen Befund zu wiederholen, ist es eigentlich auch unwahrscheinlich zu erwarten, dass ich ihn auf den Menschen übertragen kann. Deshalb ist die Lösung des Problems Replizierbarkeit hin zu robusteren Ergebnissen, die tatsächlich dann nicht nur funktionieren in Berlin, sondern auch funktionieren in München und vielleicht auch in Boston, ein ganz wesentlicher Schritt, um ein solides Fundament für eine Übertragung zum Menschen zu bekommen. … das müssen wir jetzt beweisen, dass das tatsächlich so ist, wenn die Ergebnisse präklinisch robuster werden, dass sie dann auch übertragbarer werden.: Ja, das ist der Auftrag des BIH. Und wenn das BIH eine herausragende Rolle darin spielen kann, seine eigenen – und man guckt ja auch bisschen, was wir tun, und macht es mit uns zusammen – Befunde robuster zu machen und sie dann in die Klinik zu bringen, ist das ein wesentliches Element dieses Auftrags. Und nach allem, was wir wissen, sollte das die Erfolgsquote in diesem Wunsch, zu effektiveren Therapien aus präklinischen Entwicklungen heraus zu kommen, befördern. Deshalb glaube ich auch, dass das schon eine zentrale Funktion innerhalb des Auftrags des BIH hat.

Und was planen Sie denn jetzt gemeinsam mit Herrn Ioannidis? Haben Sie gemeinsame Forschungsprojekte? Oder forschen Sie nebeneinanderher? Ergänzen Sie sich?

Dirnagl: Beides. Also es gibt eine Reihe von Projekten, die wir gemeinsam schon haben, die jetzt natürlich über den Gang schneller und besser gehen. jetzt haben wir gerade ein Paper gemeinsam durchgebracht. Und solche Dinge können wir weitermachen.

Worum geht es in dem Papier?

Dirnagl: In dem Paper geht es, nicht ganz so überraschend, auch um die Übertragbarkeit von Befunden. Wir zeigen einen überraschenden, für viele, am Anfang auch für uns überraschenden Befund, dass man, wenn man das Gleiche noch mal macht im gleichen Labor und das Ergebnis war gerade ebenso ein bisschen signifikant, dass, wenn man es im gleichen Labor noch mal macht, dass, selbst, wenn der Effekt real war, die Wahrscheinlichkeit, dass man ihn noch mal findet, so groß ist wie ein Münzwurf, die Vorhersage eines Münzwurfs. Dass man es sich also auch sparen kann. … Also das ist jetzt gerade durch.

Wenn Sie Ihre Ergebnisse oder auch die Erkenntnisse von Ioannidis mit Forschern besprechen, begegnen die Ihnen dann mit offenen Türen oder eher mit Zurückhaltung, weil Sie ja doch viele von ihnen in erster Linie mal kritisieren?

Dirnagl: Also ich habe nur positive Erfahrungen. … Ich glaube, als Wissenschaftler muss man immer skeptisch sein und man muss auch immer mit sich so weit ins Gericht gehen können, dass man sagt: Gibt es nicht etwas, was wir noch besser tun können? Die meisten, wenn nicht alle Forscher, die ich kenne, haben so eine Philosophie. Insofern ist das jetzt für einen Wissenschaftler auch nicht so schockierend, dass er sich noch mal besinnt, was er da eigentlich macht und ob er es nicht vielleicht an mancher Stelle modifizieren kann. Dass das im Wesentlichen den Zuspruch findet, kann ich eigentlich nur daraus auch ableiten, dass ich nicht mehr nachkomme, zu allen Veranstaltungen zu gehen, wo ich von Wissenschaftlern eingeladen werde, zu diesen Dingen zu reden. Und in den Diskussionen, die ich dort führe, sind noch nie Tomaten oder faule Eier auf mich geworfen worden, sondern die Diskussionen sind immer sehr konstruktiv und laufen immer darauf hinaus, gemeinsam zu überlegen, was man besser machen kann.

Da BIH engagiert sich auch in der Ausbildung der nächsten Wissenschaftlergeneration. Wir haben das Clinician Scientist Program. Ist es denn auch wichtig und sinnvoll, diesen jungen Leuten, der nächsten Generation von Wissenschaftlern dieses Wissen, das hier im Quest Center erarbeitet wird, mit auf den Weg zu geben?

Dirnagl: Ja klar, das ist auch eine unserer Hauptstoßrichtungen und ein ganz wesentlicher Auftrag. Aus der Praxis kann ich berichten, dass gerade die Jüngeren diesen Themen unglaublich aufgeschlossen gegenüber sind, häufig selber damit kommen und fragen: Was können wir da tun? Können wir das noch besser machen? Also das ist eine Freude.

Wagen Sie eine Prognose: Wann erscheint das Paper "Most Research Findings Are Real"?

Dirnagl: Ich glaube, das ist ein durchaus realistisches Ziel in einer absehbaren Zeit. Wenn das in der Geschwindigkeit weitergeht, und solche Sachen tendieren häufig dazu, eher exponentiell zu sein, könnte das in ein paar Jahren der Fall sein. Also ich glaube nicht, dass das ein verblasenes Zukunftsziel für die nächsten zwanzig Jahre ist, sondern das ist erreichbar. Und das werden wir hier noch feiern.

Na, das ist doch ein schönes Ziel, vielen Dank, Herr Professor Dirnagl.

Und das war BIH-Podcast "Aus Forschung wird Gesundheit" aus dem Berlin Institute of Health. Professor Ulrich Dirnagl antwortete auf die Frage "Wie gut ist die biomedizinische Forschung?" Am Mikrofon war Stefanie Seltmann.