Originea SARS-CoV-2 – metode prin care poți cerceta de acasă sursa virusului

Originea SARS-CoV-2 – metode prin care poți cerceta de acasă sursa virusului

Originea virusului SARS-CoV-2: O examinare științifică a informațiilor genetice

Începând cu debutul pandemiei COVID-19, una dintre întrebările cele mai importante a fost: Care este sursa virusului SARS-CoV-2? Până acum, mulți cercetători afirmă că rădăcinile sale sunt asociate cu liliecii, dar cum se ajunge la o asemenea concluzie? Răspunsul vine din analiza științifică a genomului virusului, comparat cu alte coronavirusuri identificate la diferite specii de animale. Aici intervine bioinformatica – un domeniu la confluența biologiei și informaticii – și, în special, instrumentele utilizate, cum ar fi BLAST și algoritmi de învățare automată.

În acest articol, vă vom arăta cum puteți analiza de acasă originea genomică a virusului SARS-CoV-2, urmând pașii efectuați de bioinformaticieni. Vom compara secvențele genetice cu cele ale altor coronavirusuri provenite de la animale precum găini, rațe, bovine și, desigur, lilieci.

Sursa de date genetice

Toate informațiile genetice ale virusului SARS-CoV-2 și ale altor virusuri sunt accesibile publicului prin intermediul NCBI Virus, un portal online al Bibliotecii Naționale de Medicină din SUA.

Pașii analizei:

  1. Descărcarea datelor – obținerea secvențelor genetice ale SARS-CoV-2 și ale coronavirusurilor la alte animale.
  2. Curățarea datelor – eliminarea liniilor cu caracter „>” (descriptori) din fișierele fasta.
  3. Tokenizarea secvențelor – divizarea datelor în porțiuni de 2-4 caractere (nucleotide).
  4. Transformarea datelor – aplicarea metodei „bag-of-words” pentru a converti datele în format numeric.
  5. Etichetarea datelor – atribuirea unei etichete fiecarei secvențe în funcție de gazda de unde provine virusul (găină, rață, bovină, liliac).
  6. Construirea unui model predictiv – utilizarea unui algoritm de învățare automată (XGBoost) pentru a descoperi similaritățile dintre virusuri.
  7. Evaluarea și predicția rezultatului – estimarea originii SARS-CoV-2 pe baza analizei setului de date.

1. Descărcarea și pregătirea datelor

Accesați NCBI Virus și alegeți secvențele complete („complete nucleotide”) ale SARS-CoV-2. Acestea sunt salvate în format FASTA, un format utilizat frecvent pentru stocarea secvențelor de ADN. Aceleași etape se aplică și pentru coronavirusurile identificate la:

  • Găini (Gallus gallus)
  • Rațe (Anatidae)
  • Bovine (Bos taurus)
  • Lilieci (Chiroptera)

Salvați fișierele cu denumiri sugestive: sequences_gaina.fasta, sequences_rata.fasta, sequences_bovina.fasta și sequences_liliac.fasta.

2. Curățarea datelor

Fișierele fasta conțin detalii suplimentare (de exemplu, „>NC_12345”) care trebuie eliminate. Utilizând Python și biblioteca nltk, eliminăm aceste l