Die DNA-Sequenzierung hat die Biomedizin revolutioniert, doch die riesigen, mittlerweile 100 Petabyte umfassenden Datenbanken (wie SRA und ENA) waren bisher kaum effizient durchsuchbar.
“MetaGraph”: Das “Google für DNA”
Computerwissenschaftler:innen der ETH Zürich haben dieses Problem mit dem Tool “MetaGraph” gelöst. Es ermöglicht Forschenden erstmals eine Volltextsuche in den Rohdaten aller gespeicherten DNA- und RNA-Sequenzen, ähnlich einer Internet-Suchmaschine.
Anstatt mühsam ganze Datensätze herunterladen zu müssen, können Forschende nun eine Sequenz eingeben und erfahren innerhalb von Sekunden oder Minuten, wo diese bereits aufgetaucht ist. Dies wird durch eine innovative Technik erreicht: MetaGraph verknüpft Roh- und Metadaten und komprimiert die Daten um das 300-fache ohne Informationsverlust.
Vorteile und Anwendung
- Effizienz und Kosten: Das Tool ist nicht nur präzise und effizient, sondern auch vergleichsweise günstig.
- Beschleunigung der Forschung: MetaGraph kann die Genforschung beschleunigen, etwa bei der Identifizierung von Resistenzgenen oder nützlichen Viren (Bakteriophagen) im Kampf gegen Antibiotika-Resistenzen.
- Skalierbarkeit: Der Ansatz ist skalierbar, was bedeutet, dass der zusätzliche Rechenaufwand mit wachsender Datenmenge immer geringer wird.
“MetaGraph” ist Open Source verfügbar, wird stetig verbessert und könnte zukünftig sogar von Privatpersonen genutzt werden.
Quelle und ganzer Artikel:
Eidgenössische Technische Hochschule Zürich (ETH Zürich) (10/2025)