Genetik/Genomik
Computational Genome Biology
Martin Kircher
Seit 2017 leitet Martin Kircher die "Computational Genome Biology" Arbeitsgruppe am BIH. Mit Berufung zum Professor für regulatorische Genomik an der Universität zu Lübeck und dem Universitätsklinikum Schleswig-Holstein in 2022, blieb Prof. Kircher dem BIH als Fellow erhalten und setzt seine Forschung über zwei Standorte fort. Bei der Leitung des Berliner Standorts wird er von Dr. Max Schubach unterstützt. Der Schwerpunkt der Forschungsgruppe sind computerbasierte Methoden für die Identifikation von funktionell relevanten genomischen Sequenzen und Sequenzvarianten. Die Gruppe entwickelt weitläufig benutzte Varianteneffekt-Scoringtools (CADD, CADD-SV, und ReMM), Methoden für die Sequenzierdatenanalyse (u.a. im Bereich Targeted Sequencing und Liquid Biopsies/zell-freie DNA), analysiert experimentelle Messungen der Effekte nicht-kodierender Sequenzveränderungen (z.B. mittels MPRAs und CRISPRa/i) und nutzt diese Daten für die Entwicklung von Modellen regulatorischer Sequenzeffekte.
Forschung
Die Forschung der AG "Computational Genome Biology" konzentriert sich auf computergestützte Ansätze zur Identifizierung funktionsrelevanter genetischer Veränderungen bei Krankheit und phänotypischen Veränderungen sowie auf die Entwicklung empfindlicherer Methoden in der Diagnostik (insbesondere Exom-, Genom- und zellfreie DNA-Sequenzierung). Im Allgemeinen umfasst unsere bioinformatische Forschung die Bereiche Sequenzanalyse, Data Mining, maschinelles Lernen und funktionelle Genomik.
Genomweite Bewertung von Varianteneffekten
Wir entwickeln und pflegen ein weit verbreitetes Tool zur Bewertung von Varianteneffekten (Combined Annotation Dependent Depletion, CADD), das maschinelles Lernen nutzt, um an die 100 verschiedene genbasierte und genomweite Annotationen zu integrieren. CADD war das erste Tool, dass die Schädlichkeit von Varianten für alle möglichen Einzelbasenpaarveränderungen im gesamten Genom vorhersagte und gleichzeitig die Bewertung von Multibasen- und Insertions-/Deletionsänderungen ermöglichte. Zwar gibt es viele Annotations- und Bewertungstools für Varianten, die meisten Annotationen nutzen jedoch tendenziell einen einzigen Informationstyp (z. B. Sequenzkonservierung) und/oder sind in ihrem Umfang eingeschränkt (z. B. auf Missense-Änderungen). Daher wird eine breit anwendbare Metrik benötigt, die vielfältige Informationen objektiv gewichtet und integriert. Combined Annotation Dependent Depletion (CADD) ist ein Framework, das mehrere Annotationen in einer Metrik integriert, indem es Varianten, die natürliche Selektion überstanden haben, mit simulierten Mutationen vergleicht. CADD-Scores korrelieren mit Pathogenität and Allele-Frequenz sowohl kodierender als auch nicht kodierender Varianten. In 2020 erweiterten wir die Grundidee von CADD in einem neuen Projekt, um auch Strukturvarianten (SVs) umfassend zu bewerten (CADD-SV). Die Interpretation von SVs ist aufgrund der jüngsten technologischen Fortschritte bei der SV-Erkennung von großer Relevanz. CADD und CADD-SV können krankheitskausale und funktionelle genetische Varianten über ein breites Spektrum an Funktionskategorien, Effektgrößen und genetischen Architekturen hinweg quantitativ priorisieren und können zur Variantenpriorisierung sowohl in der Forschung als auch im klinischen Umfeld eingesetzt werden.
Funktionelle Genomische Sequenzen und ihre Organisation
An der Steuerung der Genexpression sind regulatorische Sequenzen (z.B. Promotoren und Enhancer) beteiligt. Sequenzveränderungen erhöhen oder verringern die Bindung verschiedener Proteine (z.B. Transkriptionsfaktoren) an die DNA-Sequenz und verändern dadurch die Menge an abgelesener RNA, was sich auf bestimmte Phänotypen auswirken kann. Wir arbeiten mit den Laboren von Nadav Ahituv und Jay Shendure zusammen, um experimentelle Messungen der nichtkodierenden Sequenzaktivität zu erhalten und zu analysieren, insbesondere aus Massively Parallel Reporter Assays (MPRA) und CRISPR/Cas9 Aktivierungs-/Hemmungsassays (CRISPRi/a). Obwohl die Mehrzahl aller genetischen Veränderungen nicht-kodierende Sequenzen betrifft und es immer mehr Hinweise auf erhebliche phänotypische Auswirkungen sowie klinische Relevanz gibt, sind Veränderungen in diesen Sequenzen nach wie vor weniger gut verstanden als Veränderungen in kodierenden Regionen. In diesem Bereich entwickeln und unterstützen wir den Regulatory Mendelian Mutation (ReMM) score. Darüber hinaus nutzen wir experimentelle Daten, um computergestützte Modelle (z.B. gapped-kmers, CNNs und Deep Learning) regulatorischer Sequenzeffekte abzuleiten, mit dem Ziel, zu einem besseren Verständnis der Funktion regulatorischer Sequenzen beizutragen und diese in die genomweite Variantenbewertung zu integrieren.
Unterstützung der Entwicklung molekularer Assays und der Diagnostik
Darüber hinaus entwickeln wir Pipelines zur Unterstützung der Analyse, Dateninterpretation und Visualisierung von DNA-Sequenzierungsanwendungen. Dazu gehören Entwicklungen in der primären Datenverarbeitung (z. B. Base Calling, Read Merging/Adapter Trimming, Auszählung), aber auch die Unterstützung der Entwicklung neuer experimenteller Protokolle. Zum Beispiel untersuchten wir die Kreuzkontamination von Proben in Illumina-Multiplex-Experimenten und schlugen ein Protokoll vor, das Indizes in beide Sequenzierbibliotheksadapter einführt (heute bekannt als Doppel- oder Dual-Indexing). Wir entwickelten auch Analysen (z.B. HemoMIPs) für die zielgerichtete Untersuchung bestimmter DNA-Regionen (Sequence Enrichment/Targeted Sequencing). In anderen Studien befassen wir uns mit zellfreier DNA (cfDNA) und zeigen, dass Nukleosomen- und Transkriptionsfaktorbindung auf die DNA-Fragmentierung einwirken, und damit Rückschlüsse auf den Zelltyp und pathologische Zustände zulassen.