O CLASSIX, desenvolvido por matemáticos das Universidades de Manchester e Oxford, no Reino Unido, permitirá detectar mais rapidamente grupos de genomas virais que podem representar um risco no futuro a partir de grandes volumes de dados.
O CLASSIX funciona dividindo as sequências de genes do SARS-CoV-2 em “palavras” menores, chamadas de 3-mers, que são representadas como números por meio de sua contagem.
Em seguida, ele aglutina sequências semelhantes com base em seus padrões de palavras usando técnicas de aprendizado de máquina, acomodando assim várias ordens de magnitude a mais de sequências do que os processos filogenéticos atuais.
Conforme explicado por seus criadores em um artigo publicado na revista PNAS, o método de IA poderia apoiar as técnicas tradicionais de rastreamento da evolução viral, como a análise filogenética, que atualmente exige uma extensa curadoria manual.
“Com esse novo algoritmo, os cientistas estão agora intensificando seus esforços para identificar essas novas variantes preocupantes, como alfa, delta e omicron, nos estágios iniciais de seu surgimento”, disse Roberto Cahuantzi, pesquisador da Universidade de Manchester.
Ele também disse que, com a IA, será possível ser “mais proativo” na resposta ao coronavírus, bem como desenvolver vacinas personalizadas e até mesmo eliminar variantes antes que elas se estabeleçam.
Com o CLASSIX, os pesquisadores conseguiram processar 5,7 milhões de sequências de alta cobertura em apenas dois dias em um laptop moderno padrão.
“Isso não seria possível com as ferramentas atuais, no entanto, essa nova tecnologia colocaria a identificação de cepas patogênicas de interesse nas mãos de mais pesquisadores devido à redução dos requisitos de recursos”, detalha o estudo na PNAS.
ro/cdg