WirForschung

Mit Codes den Code entschlüsseln

8 min Carolin Schächterle

Wie Bioinformatik hilft Sequenzierungstechnologien zu verbessern

 

Die Menge an Daten, die im Rahmen biologischer Forschung erhoben werden, hat im Laufe der Zeit dramatisch zugenommen. Um diese Datenflut adäquat auswerten, interpretieren und analysieren zu können entstanden die Fachgebiete Bioinformatik und Computational Biology. Wobei die Bioinformatik den Fokus auf die biologische Interpretation von Daten legt, die Computational Biology nutzt unter anderem mathematische Modellierungen zum Verständnis biologischer Systeme und kann zur Technologieentwicklung eingesetzt werden. Ziel beider Fachbereiche ist es Forschungsergebnisse besser interpretieren zu können, um nachfolgende Experimente besser zu entwickeln und am Ende wissenschaftliche Fragestellungen schneller beantworten zu können. Zahlreiche biologische Fachbereiche wie z.B. Molekularbiologie, Strukturbiologie, Biochemie, Genomik usw. steigern mit Hilfe bioinformatischer Analysen die Qualität und Quantität der Datengenerierung, die Effizienz ihrer Arbeitsabläufe und erhöhen die Genauigkeit von Nachweismethoden.

Hier beleuchten wir den Nutzen der Bioinformatik für die genetische Sequenzierung und wie die Kooperation zwischen Molekularbiologie und Bioinformatik den Fortschritt in Forschung und Produktentwicklung beschleunigt.

Biologische Forschung und Bioinformatik: Warum enge Zusammenarbeit so wichtig ist

Um bioinformatische Erkenntnisse effektiv in die biologische Forschung einfließen zu lassen, ist es wichtig, dass Forschende beider Disziplinen eng zusammenarbeiten. Bei dieser engmaschigen Zusammenarbeit helfen ganz pragmatische Dinge, wie das Teilen des gleichen Arbeitsplatzes, so dass Forschende sich in jedem Stadium des Projektes unkompliziert austauschen können. Idealerweise erfolgen gemeinsame Absprachen regelmäßig von der experimentellen Gestaltung über die Datenerfassung bis zur Ergebnisinterpretation, um dann mit Hilfe der bioinformatischen Daten Fragestellungen und Methodiken intelligent weiterzuentwickeln.

Brad Langhorst, Entwicklungsdirektor bei New England Biolabs (NEB), konzentriert sich mit seinem Team auf die Probenaufbereitung und Erstellung von Libraries für Next Generation Sequencing (NGS)-Anwendungen. NGS ist eine Technologie zur Hochdurchsatz-Analyse von DNA, bei der viele hunderte Gene parallel sequenziert werden, um kleinste Veränderungen, wie zum Beispiel Mutationen, Insertionen oder Deletionen, sichtbar zu machen. Langhorst sagt: "Wir haben viele Computerexpertinnen und -experten, die eng mit den Labormitarbeitenden zusammenarbeiten. Sie sitzen tatsächlich gemeinsam mit den Laborleuten im Büro. Ich denke, es ist wichtig, dass alle physisch in der Nähe sind. Sie arbeiten wirklich eng zusammen, um Experimente zu designen, Ergebnisse zu analysieren und herauszufinden, was die nächste Iteration der Experimente sein wird, während wir versuchen, bessere RNA-Seq-Produkte herzustellen oder den nächsten pathogenen Virus zu bewerten, der aufkommt."

Good Practice Beispiel: Wie Bioinformatik die Diagnose von sich rasch entwickelnden viralen Genomen verbessern kann

Genetische Sequenzierung und Bioinformatik sind wie füreinander gemacht. Ein einzelner Sequenzierlauf kann Mega- bis Terabasenpaare an Daten produzieren, die alle geordnet und analysiert werden müssen, um nützlich zu sein. Die Computational Biology versucht, diese Daten zu nutzen, um uns über die zugrunde liegende Genomik zu informieren.

Während der COVID-19-Pandemie beobachteten die Bioinformatikerinnen und Bioinformatiker von NEB aufmerksam die Veröffentlichungen neuer SARS-CoV-2-Genome, als sich das Virus schnell verbreitete und mutierte. Gleichzeitig arbeiteten sie eng mit Kolleginnen und Kollegen zusammen, die daran arbeiteten, Labormethoden zu perfektionieren, um SARS-CoV-2-Infektionen zu identifizieren. Sie fragten sich, wie sie helfen könnten. Langhorst beobachtete: "Wir haben qPCR-Assays, LAMP-Assays und Sequenzierungsmethoden, die alle von Primern abhängen, die an bestimmten Stellen des SARS-CoV-2-Genoms sitzen sollen. Aber SARS-CoV-2 hat sich im Laufe der Zeit schnell verändert, und wir haben uns gefragt, ob die Primerstellen, die wir verwenden wollen, um das Virus zu erkennen, tatsächlich noch im viralen Sequenzmaterial vorhanden sind oder nicht. Wenn sich das Virus ändert und der Primer nicht binden kann, wissen wir nicht, ob kein Virus vorhanden ist oder ob wir das Virus einfach nicht sehen können."

Langhorst und sein Team waren überrascht zu sehen, dass kein Werkzeug verfügbar war, das bestätigen konnte, dass die für die Detektion verwendeten Primer in den aktuellen Stämmen des SARS-CoV-2-Virus vorhanden waren. Also machten sie sich daran, eins zu entwickeln. Sie begannen damit, veröffentlichte SARS-CoV-2-Genomsequenzen zu sammeln, sie zu kompilieren und Visualisierungsmethoden und Benachrichtigungen für Benutzende zu entwickeln. Die Gruppe veröffentlichte das Primer Monitor Tool, mit dessen Hilfe man sicherstellen kann, dass die Primer, die zur Detektion verwendet werden, Varianten des Virus erkennen können, während es sich weiterhin verändert und anpasst.

Die Grundlagen dieser Analysemethode sind nicht nur auf COVID anwendbar. Langhorst erklärt: "Wir haben etwas entworfen, das in der Lage sein würde, Sequenzen aufzunehmen und zu vergleichen, ob sich diese Sequenzen ändern und welche Art von Unterschieden wir sehen. Wir wollen es erweitern, um es künftig auch für andere virale Sequenzen verwenden zu können."

Geplant ist, den Nutzen des Primer-Monitor Tools noch zu erweitern. Die Hauptmotivation des NEB-Bioinformatik Teams ist es aber das gesamte Unternehmen von der Forschungs-, der Produktentwicklungs- bis hin zur Produktionsabteilung bioinformatisch zu vernetzen. Sie arbeiten an zahlreichen Projekten mit NEB-Forschungsteams zusammen, formulieren anfängliche Analysemethoden, teilen diese Informationen weltweit mit Forschenden und nutzen Feedback, das ihnen hilft, das aufgebaute zu verbessern.

Unique Molecular Identifiers (UMIs), Indexes, und De-multiplexing

Ein weiteres Projekt nutzt die Kraft eindeutiger molekularer Identifikatoren für Hochdurchsatz-Sequenziermethoden. Neue Sequenziertechnologien produzieren immer mehr Daten, wobei häufig mehrere individuelle Proben (bakteriell, viral oder human) für effiziente kombiniert werden. Aber wie werden anschließend die einzelnen Datensätze wieder aus dem Datenmix getrennt? Dazu muss jede einzelne Probe mit einem DNA-Barcode (auch "Index" genannt) gekennzeichnet werden, der jede Probe einzigartig markiert. Komplexere Markierungsschemata, mit mehr als einem eindeutigen Identifikator, können verwendet werden, um zu gewährleisten, dass keine Vermischung zwischen Proben stattgefunden hat.

Barcode-Sequenzen ermöglichen die Dekonvolution von Proben in einem Sequenzierlauf, aber viele Wissenschaftlerinnen und Wissenschaftler möchten weiter gehen und mehrfache Kopien von Molekülen berücksichtigen, die während der PCR-Verstärkung erstellt wurden. Sequenzen mit zufälligen Basen, molekularen Indizes oder UMIs, werden seit den 1990er Jahren verwendet. Langhorst erklärt: "Wenn wir eine kleine Probe haben, wollen wir dieses Signal zuerst verstärken. Wir müssen viele Kopien machen, aber die Kopien sind nicht perfekt. Manchmal, wenn eine schnell startet, bekommt man viele Kopien davon, und wenn eine andere durch Zufall langsamer startet, bekommt man weniger. Aber wir möchten die ursprüngliche Häufigkeit der beiden Sequenzen wissen, die wir untersuchen wollen. Ein UMI ist ein netter kleiner Trick, der es uns ermöglicht, ein zufälliges Stück Sequenz an jedes dieser beiden Sequenzen, die wir untersuchen wollen, anzuhängen. Wenn wir viele Kopien dieser gleichen zufälligen Sequenz sehen, haben wir eine gute Chance, korrekt einzuschätzen, dass sie tatsächlich vom selben ursprünglichen Molekül stammen." Dies ermöglicht es die Zahlen zu korrigieren und letztendlich eine Dateninterpretation zu präzisieren.

Karriereweg Bioinformatik

Für Menschen mit biologischem Verständnis und starken Datenanalysefähigkeiten sowie einer großen wissenschaftlichen Neugier bieten die Disziplinen Bioinformatik oder die Computational Biology ausgezeichnete Karrierechancen.

Langhorst weist darauf hin: "Selbst Schülerinnen und Schüler der Ober- und Mittelstufe verfügen bereits über Datenanalysefähigkeiten, dennoch sehen sie sich nicht als Bioinformatiker*innen. Dabei verfügen Sie bereits über ein gutes Toolkit, das sie verwenden können, um Fragen zu beantworten und Probleme zu lösen." Die Förderung von Datenanalysefähigkeiten in der frühen Bildung hilft Schülerinnen und Schülern diese Werkzeuge bei zukünftigen Fragestellungen oder Studien einzusetzen. Je nach dem persönlichen Interesse an einem Fachgebiet können sich junge Menschen spezialisieren und den Herausforderungen stellen, die der Umgang mit großen Datenmengen mit sich bringt.

Der Autor

Fabian Freiberg ist Mitarbeiter im LSR-Mitgliedsunternehmen New England Biolabs GmbH.

Neuveröffentlichung des Artikels von Lydia Morrison, M.Sc., basierend auf einem Interview mit Brad Langhorst, Ph.D. Mit freundlicher Genehmigung der New England Biolabs GmbH.