Zum Seiteninhalt springen

Prof. Martin Kircher

Gruppenleiter 'Computational Genome Biology'

Kontaktinformationen
E-Mail:martin.kircher@bih-charite.de

Forschung

Die Forschung der AG "Computational Genome Biology" konzentriert sich auf computergestützte Ansätze zur Identifizierung funktionsrelevanter genetischer Veränderungen bei Krankheit und phänotypischen Veränderungen sowie auf die Entwicklung empfindlicherer Methoden in der Diagnostik (insbesondere Exom-, Genom- und zellfreie DNA-Sequenzierung). Im Allgemeinen umfasst unsere bioinformatische Forschung die Bereiche Sequenzanalyse, Data Mining, maschinelles Lernen und funktionelle Genomik.

Genomweite Bewertung von Varianteneffekten

Wir entwickeln und pflegen ein weit verbreitetes Tool zur Bewertung von Varianteneffekten (Combined Annotation Dependent Depletion, CADD), das maschinelles Lernen nutzt, um an die 100 verschiedene genbasierte und genomweite Annotationen zu integrieren. CADD war das erste Tool, dass die Schädlichkeit von Varianten für alle möglichen Einzelbasenpaarveränderungen im gesamten Genom vorhersagte und gleichzeitig die Bewertung von Multibasen- und Insertions-/Deletionsänderungen ermöglichte. Zwar gibt es viele Annotations- und Bewertungstools für Varianten, die meisten Annotationen nutzen jedoch tendenziell einen einzigen Informationstyp (z. B. Sequenzkonservierung) und/oder sind in ihrem Umfang eingeschränkt (z. B. auf Missense-Änderungen). Daher wird eine breit anwendbare Metrik benötigt, die vielfältige Informationen objektiv gewichtet und integriert. Combined Annotation Dependent Depletion (CADD) ist ein Framework, das mehrere Annotationen in einer Metrik integriert, indem es Varianten, die natürliche Selektion überstanden haben, mit simulierten Mutationen vergleicht. CADD-Scores korrelieren mit Pathogenität and Allele-Frequenz sowohl kodierender als auch nicht kodierender Varianten. In 2020 erweiterten wir die Grundidee von CADD in einem neuen Projekt, um auch Strukturvarianten (SVs) umfassend zu bewerten (CADD-SV). Die Interpretation von SVs ist aufgrund der jüngsten technologischen Fortschritte bei der SV-Erkennung von großer Relevanz. CADD und CADD-SV können krankheitskausale und funktionelle genetische Varianten über ein breites Spektrum an Funktionskategorien, Effektgrößen und genetischen Architekturen hinweg quantitativ priorisieren und können zur Variantenpriorisierung sowohl in der Forschung als auch im klinischen Umfeld eingesetzt werden.

Funktionelle Genomische Sequenzen und ihre Organisation

An der Steuerung der Genexpression sind regulatorische Sequenzen (z.B. Promotoren und Enhancer) beteiligt. Sequenzveränderungen erhöhen oder verringern die Bindung verschiedener Proteine ​​(z.B. Transkriptionsfaktoren) an die DNA-Sequenz und verändern dadurch die Menge an abgelesener RNA, was sich auf bestimmte Phänotypen auswirken kann. Wir arbeiten mit den Laboren von Nadav Ahituv und Jay Shendure zusammen, um experimentelle Messungen der nichtkodierenden Sequenzaktivität zu erhalten und zu analysieren, insbesondere aus Massively Parallel Reporter Assays (MPRA) und CRISPR/Cas9 Aktivierungs-/Hemmungsassays (CRISPRi/a). Obwohl die Mehrzahl aller genetischen Veränderungen nicht-kodierende Sequenzen betrifft und es immer mehr Hinweise auf erhebliche phänotypische Auswirkungen sowie klinische Relevanz gibt, sind Veränderungen in diesen Sequenzen nach wie vor weniger gut verstanden als Veränderungen in kodierenden Regionen. In diesem Bereich entwickeln und unterstützen wir den Regulatory Mendelian Mutation (ReMM) score. Darüber hinaus nutzen wir experimentelle Daten, um computergestützte Modelle (z.B. gapped-kmers, CNNs und Deep Learning) regulatorischer Sequenzeffekte abzuleiten, mit dem Ziel, zu einem besseren Verständnis der Funktion regulatorischer Sequenzen beizutragen und diese in die genomweite Variantenbewertung zu integrieren.

Unterstützung der Entwicklung molekularer Assays und der Diagnostik

Darüber hinaus entwickeln wir Pipelines zur Unterstützung der Analyse, Dateninterpretation und Visualisierung von DNA-Sequenzierungsanwendungen. Dazu gehören Entwicklungen in der primären Datenverarbeitung (z. B. Base Calling, Read Merging/Adapter Trimming, Auszählung), aber auch die Unterstützung der Entwicklung neuer experimenteller Protokolle. Zum Beispiel untersuchten wir die Kreuzkontamination von Proben in Illumina-Multiplex-Experimenten und schlugen ein Protokoll vor, das Indizes in beide Sequenzierbibliotheksadapter einführt (heute bekannt als Doppel- oder Dual-Indexing). Wir entwickelten auch Analysen (z.B. HemoMIPs) für die zielgerichtete Untersuchung bestimmter DNA-Regionen (Sequence Enrichment/Targeted Sequencing). In anderen Studien befassen wir uns mit zellfreier DNA (cfDNA) und zeigen, dass Nukleosomen- und Transkriptionsfaktorbindung auf die DNA-Fragmentierung einwirken, und damit Rückschlüsse auf den Zelltyp und pathologische Zustände zulassen.

Team

Ausgewählte Publikationen