Genomische Datenwissenschaft

Genetik

Medizin Doc Redaktion, aktualisiert am 29. Januar 2023, Lesezeit: 8 Minuten

Die Analyse und Interpretation der gesammelten Genomdaten trägt zu einem besseren Verständnis der menschlichen Gesundheit und Krankheit bei, wirft aber auch Fragen des Datenschutzes und der Ethik auf.

Das große Bild

  • Genomische Datenwissenschaft ist ein Studienbereich, der es Forschern ermöglicht, leistungsstarke rechnerische und statistische Methoden einzusetzen, um die in DNA-Sequenzen verborgenen funktionellen Informationen zu entschlüsseln.
  •  Schätzungen zufolge wird die Genomforschung im nächsten Jahrzehnt zwischen 2 und 40 Exabyte an Daten erzeugen.
  • Unsere Fähigkeit, die DNA zu sequenzieren, hat unsere Fähigkeit, die darin enthaltenen Informationen zu entschlüsseln, bei weitem übertroffen, so dass die Genomdatenwissenschaft noch viele Jahre lang ein dynamisches Forschungsgebiet sein wird.
  • Die Durchführung von Genomdatenforschung bringt eine Reihe von ethischen Verpflichtungen mit sich, da die Sequenzdaten jeder Person mit Fragen des Datenschutzes und der Identität verbunden sind.

Wie es Sie betrifft

In dem Maße, wie biomedizinische Forschungsprojekte und groß angelegte Kooperationen rasant zunehmen, steigt auch die Menge der erzeugten genomischen Daten: Derzeit werden jedes Jahr etwa 2 bis 40 Milliarden Gigabyte an Daten erzeugt. Die Forscher arbeiten daran, wertvolle Informationen aus diesen komplizierten und großen Datensätzen zu extrahieren, um die menschliche Gesundheit und Krankheit besser zu verstehen.

Was ist genomische Datenwissenschaft?

Genomische Datenwissenschaft ist ein Studienbereich, der es Forschern ermöglicht, leistungsstarke rechnerische und statistische Methoden einzusetzen, um die in der DNA-Sequenz verborgenen funktionellen Informationen zu entschlüsseln. Im Kontext der genomischen Medizin angewandt, helfen diese datenwissenschaftlichen Werkzeuge Forschern und Klinikern aufzudecken, wie sich Unterschiede in der DNA auf die menschliche Gesundheit und Krankheit auswirken.

Genomische Datenwissenschaft entstand in den 1990er Jahren als ein Bereich, in dem zwei Laboraktivitäten zusammengeführt wurden:

  • Experimentieren: Gewinnung genomischer Informationen durch Untersuchung der Genome lebender Organismen.
  • Datenanalyse: Verwendung von statistischen und computergestützten Werkzeugen zur Analyse und Visualisierung genomischer Daten, einschließlich der Verarbeitung und Speicherung von Daten und der Verwendung von Algorithmen und Software zur Erstellung von Vorhersagen auf der Grundlage der verfügbaren genomischen Daten.

Beide Tätigkeiten helfen den Forschern, die riesigen Mengen an Genomdaten zu erfassen und Erkenntnisse daraus zu gewinnen.

Warum umfasst die Genomik so viele Daten?

Die menschliche Genomik erlangte Anfang der 2000er Jahre allgemeine Aufmerksamkeit, als das Humangenomprojekt erfolgreich die erste Sequenz der chemischen Basen („Buchstaben“) – As, Cs, Gs und Ts – im menschlichen Genom erstellte. Jede der Billionen von Zellen im menschlichen Körper enthält eine vollständige Kopie des Genoms, d. h. unseres DNA-Bauplans.) Die meisten Zellen haben sogar zwei Kopien des Genoms, die zusammen etwa 6 Milliarden DNA-Buchstaben enthalten.

Forschende generieren heute mehr Genomdaten als je zuvor, um zu verstehen, wie das Genom funktioniert und sich auf die menschliche Gesundheit und Krankheit auswirkt. Diese Daten stammen von Millionen von Menschen in verschiedenen Populationen auf der ganzen Welt. Allein die Daten über eine einzige menschliche Genomsequenz würden 200 Gigabyte oder den Platz von etwa 200 Kopien von Jaws einnehmen. Wir werden schätzungsweise 40 Exabyte benötigen, um die bis 2025 weltweit anfallenden Genomsequenzdaten zu speichern. Zum Vergleich: Fünf Exabyte könnten alle jemals von Menschen gesprochenen Wörter speichern.

Aufgrund der großen Menge an komplexen Daten, die mit menschlichen Genomen verbunden sind, gilt die Genomik heute als ein „Big Data“-Bereich.

Wie untersuchen und nutzen Wissenschaftler genomische Daten?

Wissenschaftlerinnen und Wissenschaftler benötigen spezielle Rechen- und Analysewerkzeuge, um die in der DNA eines jeden Menschen verborgenen biologischen Informationen zu finden und zu interpretieren und um die großen Datenmengen zu verwalten, die bei genomischen Forschungsprojekten anfallen.

  • Forscher verwenden Software-Tools, so genannte Aligner, um zu bestimmen, wo einzelne DNA-Sequenzstücke auf jedem Teil einer Referenzgenomsequenz liegen.

Als Nächstes ermitteln „Variantenrufer“ die Stellen, an denen sich eine bestimmte menschliche Genomsequenz von anderen menschlichen Genomsequenzen unterscheidet. Diese genomischen Unterschiede gibt es in vielen Größen. Der Unterschied kann so klein sein wie ein DNA-Buchstabe (ein so genannter Ein-Nukleotid-Polymorphismus), viele Buchstaben lang (so genannte strukturelle Varianten) wie Einfügungen oder Streichungen oder wesentlich größere Chromosomenanomalien. Diese genomischen Unterschiede stellen möglicherweise kein Gesundheitsrisiko dar, können aber auch direkt zu seltenen Erbkrankheiten, Krebs oder anderen häufigeren Krankheiten führen.

Wie verwalten und speichern Forscher solche großen Mengen an genomischen Daten?

Experten für Computertechnologie und Genomik verwalten und speichern Genomdaten mit Hilfe verschiedener Computersysteme und Software. Immer mehr Datenanalyse- und Koordinierungszentren sind Teil von Forschungsnetzwerken und bieten diese Dienstleistungen an.

Die Generierung von Genomdaten erfordert erhebliche finanzielle Unterstützung durch Institutionen wie das National Human Genome Research Institute (NHGRI), das jährlich mehr als 125 Mio. USD für verschiedene Genomdaten-Forschungsprojekte bereitstellt.

Die generierten Datenressourcen werden häufig der breiteren wissenschaftlichen Gemeinschaft zur Verfügung gestellt, um weitere Datenanalysen zu erleichtern. Sie organisieren und liefern viele Arten von Informationen über das menschliche Genom, wie beispielsweise die Positionen von Genen und Varianten in der DNA.

Viele private und kommerzielle Cloud-Plattformen arbeiten mit staatlichen und öffentlichen Einrichtungen zusammen, wie zum Beispiel mit den National Institutes of Health (NIH) im Rahmen der STRIDES-Initiative. Diese Initiativen stellen Speicher- und Recheninfrastrukturen für das Hosting von Genomdaten bereit und gewährleisten die erforderliche Sicherheit und den Schutz der Privatsphäre, insbesondere für Humangenomdaten.

Welche ethischen, rechtlichen und gesellschaftlichen Auswirkungen hat die gemeinsame Nutzung genomischer Daten?

Die Durchführung von Genomforschung bringt eine Reihe von ethischen Verpflichtungen mit sich, da Informationen über die Genomsequenz einer Person mit komplexen Fragen in Bezug auf Privatsphäre und Identität verbunden sind.

 

  • Informierte Zustimmung: Forscher bitten in der Regel um die Zustimmung der Personen, deren Genome sequenziert werden. Die Forscher müssen jedoch klare Informationen darüber geben, wie sie die resultierenden Genomsequenzdaten verwenden und weitergeben werden, wenn sie eine solche informierte Zustimmung erhalten.
  • Datenschutz: Mit Hilfe leistungsfähiger Computerprogramme können Sequenzdaten aus nicht identifizierten Genomen entnommen und unter bestimmten Umständen mit der Person, deren DNA sequenziert wurde, in Verbindung gebracht werden. Ermittler können solche Werkzeuge für nützliche Zwecke einsetzen, z. B. zur Identifizierung von Kriminellen, die an einem Tatort DNA hinterlassen haben. Der gesellschaftliche Nutzen muss jedoch die potenziellen Risiken einer solchen Nutzung genomischer Daten überwiegen.
  • Künstliche Intelligenz (KI): KI-Tools helfen Forschern zunehmend bei der Verarbeitung großer Mengen von Genomsequenzdaten, um nach verborgenen Mustern in der DNA zu suchen. Da KI-Algorithmen jedoch oft nicht transparent sind, können sich bei der Anwendung solcher Algorithmen auf DNA-Daten unbemerkt Verzerrungen einschleichen. Dieser Bereich der genomischen Datenwissenschaft erfordert eine umfassende ethische Forschung, um die einzigartigen Unterschiede zwischen den derzeitigen Methoden der genomischen Datenwissenschaft (die sich bei der Interpretation der Ergebnisse auf menschliche Intelligenz stützen) und den neueren KI-Methoden zu bewältigen. Während KI-Methoden viele vielversprechende Vorteile bieten, ziehen sie auch Schlussfolgerungen auf völlig andere Weise als Menschen und müssen daher einer sorgfältigen ethischen Aufsicht unterliegen.

Angesichts all dieser Überlegungen müssen Datenwissenschaftler und Genomforscher über die Auswirkungen ihrer Studien aufgeklärt werden und eng mit Ethikforschern zusammenarbeiten.

Wie geben Forscher humangenomische Daten weiter?

Von Forschern wird erwartet, dass sie menschliche Genomdaten entsprechend der von den Forschungsteilnehmern erteilten Zustimmung weitergeben. Genomische Daten werden in der Regel über Datenressourcen mit der wissenschaftlichen Gemeinschaft geteilt, auf die auf drei Arten zugegriffen werden kann:

Der offene oder uneingeschränkte Zugang ist die umfassendste Form der gemeinsamen Nutzung von Daten. Die Daten stehen der Öffentlichkeit für jeden Forschungszweck zur Verfügung.

Der registrierte Zugang liegt zwischen Open Access und kontrolliertem Zugang. Forscher können die Daten zu jedem beliebigen Zweck erhalten, müssen ihre Informationen jedoch registrieren und ihre Arbeit mit den Daten muss möglicherweise überwacht werden.

Bei der gemeinsamen Nutzung von Daten mit kontrolliertem Zugang müssen Forscher ihren Forschungszweck beschreiben, damit ein spezieller Datenzugangsausschuss die Vereinbarkeit des Forschungszwecks mit der Zustimmung des Teilnehmers bewerten kann. Der Forscher kann erst dann auf die Daten zugreifen, wenn der Ausschuss seine Zustimmung gegeben hat.

Welche neuen Themen gibt es in der Genomikdatenwissenschaft?

Menschliche Genome enthalten viele genomische Varianten (DNA-Buchstaben, die sich an bestimmten Stellen von Mensch zu Mensch unterscheiden).

Gesundheitssysteme und Forschende entwickeln Instrumente, um diese DNA-Unterschiede zu erkennen und sie mit medizinisch relevanten Informationen zu verknüpfen, z. B. mit einem Krankheitsrisiko oder der Indikation für ein bestimmtes Medikament unter mehreren Optionen.

Forscher nutzen auch Systeme der künstlichen Intelligenz, um Genomdaten für klinische Zwecke zu interpretieren, zum Beispiel zur Diagnose von Krankheiten in frühen Stadien oder zur Vorhersage des Risikos für verschiedene Krankheiten auf der Grundlage genomischer Informationen.

In den letzten zehn Jahren ist Cloud Computing für die Speicherung und Analyse von Genomdaten unverzichtbar geworden. Cloud Computing verringert die Notwendigkeit, große Datensätze zu duplizieren, erhöht die Sicherheit und bietet Forschern einen besseren Zugang zu genomischen Daten. Datenwissenschaftler entwickeln Werkzeuge, um das Hochladen von Daten zu erleichtern und den Datenschutz zu gewährleisten.

Quellen

Der Beitrag basiert u.a. auf dem Beitrag Genomics von Wikipedia, 2023.


Dieser Beitrag beschäftigt sich mit einem medizinischen Thema, einem Gesundheitsthema oder einem oder mehreren Krankheitsbildern. Dieser Artikel dient nicht der Selbst-Diagnose und ersetzt auch keine Diagnose durch einen Arzt. Bitte lesen und beachten Sie hier auch den Hinweis zu Gesundheitsthemen!


ddp

Polyamore Jugendliche und depressive Symptome

Polyamore Jugendliche und depressive Symptome

Erfahren Sie mehr über Polyamorie und die Herausforderungen, mit denen jugendliche polyamore Personen konfrontiert sein können....

Seltene Genmutation bietet Anhaltspunkte zur Vorbeugung von Typ-1-Diabetes

Seltene Genmutation bietet Anhaltspunkte zur Vorbeugung von Typ-1-Diabetes

Neue Erkenntnisse zur Prävention von Typ-1-Diabetes dank seltener Genmutation. Mehr lesen über die Mutation die bei 2 Kindern gefunden wurde....

Gesunder Lebensstil kann die Lebensdauer erhöhen

Gesunder Lebensstil kann die Lebensdauer erhöhen

Wie ein gesunder Lebensstil die Auswirkungen lebensverkürzender Gene ausgleichen kann. Verbessern Sie Wohlbefinden und Lebenserwartung!...

DNA-Früherkennung von Krebs

DNA-Früherkennung von Krebs

Entdecken Sie die Bedeutung der Krebsfrüherkennung mit sich wiederholender DNA und wie Alu-Elemente im Blut auf Krebs hinweisen können....

"Pandemie-Babys" eine veränderte Entwicklung des Darmmikrobioms und niedrigere Allergieraten aufweisen als Babys vor der Pandemie.

Gen-Deaktivierung senkt den Cholesterinspiegel bei Mäusen ohne Schäden

Cholesterinspiegel: Lernen Sie die Gen-Silencing-Technologie kennen, die gezielt die Gene beeinflusst, die den Cholesterinspiegel regulieren....