Genetik/Genomik

Computational Genome Biology

Martin Kircher

Seit 2017 leitet Martin Kircher die "Computational Genome Biology" Arbeitsgruppe am BIH. Mit Berufung zum Professor für regulatorische Genomik an der Universität zu Lübeck und dem Universitätsklinikum Schleswig-Holstein in 2022, blieb Prof. Kircher dem BIH als Fellow erhalten und setzt seine Forschung über zwei Standorte fort. Bei der Leitung des Berliner Standorts wird er von Dr. Max Schubach unterstützt. Der Schwerpunkt der Forschungsgruppe sind computerbasierte Methoden für die Identifikation von funktionell relevanten genomischen Sequenzen und Sequenzvarianten. Die Gruppe entwickelt weitläufig benutzte Varianteneffekt-Scoringtools (CADD, CADD-SV, und ReMM), Methoden für die Sequenzierdatenanalyse (u.a. im Bereich Targeted Sequencing und Liquid Biopsies/zell-freie DNA), analysiert experimentelle Messungen der Effekte nicht-kodierender Sequenzveränderungen (z.B. mittels MPRAs und CRISPRa/i) und nutzt diese Daten für die Entwicklung von Modellen regulatorischer Sequenzeffekte.

Kontaktinformationen
E-Mail:	martin.kircher@bih-charite.de

Forschung

Die Forschung der AG "Computational Genome Biology" konzentriert sich auf computergestützte Ansätze zur Identifizierung funktionsrelevanter genetischer Veränderungen bei Krankheit und phänotypischen Veränderungen sowie auf die Entwicklung empfindlicherer Methoden in der Diagnostik (insbesondere Exom-, Genom- und zellfreie DNA-Sequenzierung). Im Allgemeinen umfasst unsere bioinformatische Forschung die Bereiche Sequenzanalyse, Data Mining, maschinelles Lernen und funktionelle Genomik.

Genomweite Bewertung von Varianteneffekten

Wir entwickeln und pflegen ein weit verbreitetes Tool zur Bewertung von Varianteneffekten (Combined Annotation Dependent Depletion, CADD), das maschinelles Lernen nutzt, um an die 100 verschiedene genbasierte und genomweite Annotationen zu integrieren. CADD war das erste Tool, dass die Schädlichkeit von Varianten für alle möglichen Einzelbasenpaarveränderungen im gesamten Genom vorhersagte und gleichzeitig die Bewertung von Multibasen- und Insertions-/Deletionsänderungen ermöglichte. Zwar gibt es viele Annotations- und Bewertungstools für Varianten, die meisten Annotationen nutzen jedoch tendenziell einen einzigen Informationstyp (z. B. Sequenzkonservierung) und/oder sind in ihrem Umfang eingeschränkt (z. B. auf Missense-Änderungen). Daher wird eine breit anwendbare Metrik benötigt, die vielfältige Informationen objektiv gewichtet und integriert. Combined Annotation Dependent Depletion (CADD) ist ein Framework, das mehrere Annotationen in einer Metrik integriert, indem es Varianten, die natürliche Selektion überstanden haben, mit simulierten Mutationen vergleicht. CADD-Scores korrelieren mit Pathogenität and Allele-Frequenz sowohl kodierender als auch nicht kodierender Varianten. In 2020 erweiterten wir die Grundidee von CADD in einem neuen Projekt, um auch Strukturvarianten (SVs) umfassend zu bewerten (CADD-SV). Die Interpretation von SVs ist aufgrund der jüngsten technologischen Fortschritte bei der SV-Erkennung von großer Relevanz. CADD und CADD-SV können krankheitskausale und funktionelle genetische Varianten über ein breites Spektrum an Funktionskategorien, Effektgrößen und genetischen Architekturen hinweg quantitativ priorisieren und können zur Variantenpriorisierung sowohl in der Forschung als auch im klinischen Umfeld eingesetzt werden.

Funktionelle Genomische Sequenzen und ihre Organisation

An der Steuerung der Genexpression sind regulatorische Sequenzen (z.B. Promotoren und Enhancer) beteiligt. Sequenzveränderungen erhöhen oder verringern die Bindung verschiedener Proteine (z.B. Transkriptionsfaktoren) an die DNA-Sequenz und verändern dadurch die Menge an abgelesener RNA, was sich auf bestimmte Phänotypen auswirken kann. Wir arbeiten mit den Laboren von Nadav Ahituv und Jay Shendure zusammen, um experimentelle Messungen der nichtkodierenden Sequenzaktivität zu erhalten und zu analysieren, insbesondere aus Massively Parallel Reporter Assays (MPRA) und CRISPR/Cas9 Aktivierungs-/Hemmungsassays (CRISPRi/a). Obwohl die Mehrzahl aller genetischen Veränderungen nicht-kodierende Sequenzen betrifft und es immer mehr Hinweise auf erhebliche phänotypische Auswirkungen sowie klinische Relevanz gibt, sind Veränderungen in diesen Sequenzen nach wie vor weniger gut verstanden als Veränderungen in kodierenden Regionen. In diesem Bereich entwickeln und unterstützen wir den Regulatory Mendelian Mutation (ReMM) score. Darüber hinaus nutzen wir experimentelle Daten, um computergestützte Modelle (z.B. gapped-kmers, CNNs und Deep Learning) regulatorischer Sequenzeffekte abzuleiten, mit dem Ziel, zu einem besseren Verständnis der Funktion regulatorischer Sequenzen beizutragen und diese in die genomweite Variantenbewertung zu integrieren.

Unterstützung der Entwicklung molekularer Assays und der Diagnostik

Darüber hinaus entwickeln wir Pipelines zur Unterstützung der Analyse, Dateninterpretation und Visualisierung von DNA-Sequenzierungsanwendungen. Dazu gehören Entwicklungen in der primären Datenverarbeitung (z. B. Base Calling, Read Merging/Adapter Trimming, Auszählung), aber auch die Unterstützung der Entwicklung neuer experimenteller Protokolle. Zum Beispiel untersuchten wir die Kreuzkontamination von Proben in Illumina-Multiplex-Experimenten und schlugen ein Protokoll vor, das Indizes in beide Sequenzierbibliotheksadapter einführt (heute bekannt als Doppel- oder Dual-Indexing). Wir entwickelten auch Analysen (z.B. HemoMIPs) für die zielgerichtete Untersuchung bestimmter DNA-Regionen (Sequence Enrichment/Targeted Sequencing). In anderen Studien befassen wir uns mit zellfreier DNA (cfDNA) und zeigen, dass Nukleosomen- und Transkriptionsfaktorbindung auf die DNA-Fragmentierung einwirken, und damit Rückschlüsse auf den Zelltyp und pathologische Zustände zulassen.

2023
Predicting the pathogenicity of missense variants using features derived from AlphaFold2.
A. Schmidt, S. Röner, K. Mai, H. Klinkhammer, M. Kircher, K. U. Ludwig
Bioinformatics 2023.
The Regulatory Mendelian Mutation score for GRCh38.
M. Schubach, L. Nazaretyan, M. Kircher
GigaScience 2023.
2022
A framework to score the effects of structural variants in health and disease.
P. Kleinert & M. Kircher.
Genome Research 2022.
2021
CADD-Splice - improving genome-wide variant effect prediction using deep learning-derived splice scores.
P. Rentzsch, M. Schubach, J. Shendure, M. Kircher.
Genome Medicine 2021.
2020
lentiMPRA and MPRAflow for high-throughput functional characterization of gene regulatory elements.
M.G. Gordon*, F. Inoue*, B. Martin*, M. Schubach*, V. Agarwal, S. Whalen, S. Feng, J. Zhao, T. Ashuach, R. Ziffra, A. Kreimer, I. Georgakopoulous-Soares, N. Yosef, C.J. Ye, K.S. Pollard, J. Shendure, M. Kircher, N. Ahituv.
Nature Protocols 2020.
HemoMIPs - Automated analysis and result reporting pipeline for targeted sequencing data.
P. Kleinert, B. Martin, M. Kircher.
PLOS Computational Biology 2020.
The impact of different negative training data on regulatory sequence predictions.
LM. Krützfeldt, M. Schubach, M. Kircher.
PLOS ONE 2020.
2019
Saturation mutagenesis of twenty disease-associated regulatory elements at single base-pair resolution.
M. Kircher*, C. Xiong*, B. Martin*, M. Schubach*, F. Inoue, R. JA. Bell, J. F. Costello, J. Shendure & N. Ahituv.
Nature Communications 2019.
2018
CADD: predicting the deleteriousness of variants throughout the human genome.
P. Rentzsch, D. Witten, G.M. Cooper, J. Shendure, M. Kircher.
Nucleic Acids Research 2018.

Kircherlab Website

Computational Genome Biology

Martin Kircher

Prof. Martin Kircher

Forschung

Genomweite Bewertung von Varianteneffekten

Funktionelle Genomische Sequenzen und ihre Organisation

Unterstützung der Entwicklung molekularer Assays und der Diagnostik

Team

Ausgewählte Publikationen