De unde provine virusul SARS-CoV-2? Analiza bioinformatică și dovezile științifice ale originii
Odată cu debutul pandemiei de COVID-19, o întrebare esențială a fost: Care este sursa virusului SARS-CoV-2? Răspunsul concis oferit de majoritatea specialiștilor este că originea sa este foarte probabil zoonotică și că virusul provine din rândul liliecilor. Dar cum au ajuns cercetătorii la această concluzie? Răspunsul se bazează pe o sinteză de analize genetice, instrumente de bioinformatică, baze de date publice și algoritmi de inteligență artificială.
Genomul SARS-CoV-2 și sursele de analiză
Genomul SARS-CoV-2 poate fi accesat public și este disponibil pentru descărcare pe site-ul U.S. National Library of Medicine, în special în secțiunea dedicată virusurilor: NCBI Virus. Aceasta permite oricărei persoane interesate să examineze codul genetic complet al virusului pentru a obține informații despre structura și originile sale.
Genomul apare în două formate: secvența de nucleotide (ADN/ARN) și secvența proteică (produse rezultate din aceste gene). În procesul de investigare a originii virusului, cercetătorii compară secvențele de nucleotide ale SARS-CoV-2 cu cele ale altor coronavirusuri izolate din diverse specii animale: păsări de curte (Gallus gallus), rațe (Anatidae), bovine (Bos taurus) și lilieci (Chiroptera).
Obținerea și pregătirea datelor
Descărcarea datelor de pe NCBI implică selectarea coronavirusurilor complete din baza de date. Se recurge la fișiere FASTA, care conțin secvențele de nucleotide. Fiecare înregistrare debutează cu simbolul „>” urmat de o descriere, urmată de liniile care conțin efectiv secvența.
După ce secvențele de la SARS-CoV-2 și de la alte specii sunt obținute, pasul următor constă în procesarea conținutului, eliminând meta-datele (liniile cu „>”) pentru a lăsa doar șirurile de nucleotide. Acestea sunt ulterior transformate într-un format numeric care poate fi utilizat de algoritmi de învățare automată.
Reprezentarea numerică a secvențelor
Pentru a compara genomuri variate, se aplică metoda de bag-of-words pe secvențele de nucleotide. Această abordare implică fragmentarea secvențelor de ADN în „n-grams”, adică grupuri de 2, 3 sau 4 caractere (ex. „AC”, „ACT”, „ACGT”). Ulterior, aceste grupuri sunt convertite într-un vector de frecvențe, ce indică de câte ori un anumit șir de caractere apare într-un genom.
Această metodă permite transformarea informației genetice în format numeric, extrem de util în instruirea modelelor de machine learning.
Construirea modelului predictiv
Prin utilizarea unor algoritmi de învățare automată, precum XGBoost, se poate crea un model care învață din genomurile provenind de la diverse specii de animale. Fiecare secvență primește o etichetă (de ex. „găină”, „rață”, „bovină”, „liliac”) și algoritmul este instructat să identifice tiparele genetice specifice fiecărei gazde.
După completarea instruirii, genomul SARS-CoV-2 este prelucrat similar cu celelalte și introdus în modelul antrenat, care elaborează o predicție asupra originii genetice.