Diamond, uma alternativa ao Blast

Data:

diamond_aligner

Conheça o Diamond, um programa de alta velocidade para alinhamento de sequências.  

Autor | César H Yokomizo 

 

O Diamond é um software de alinhamento de sequências de NGS que foi criado com o objetivo de resolver um gargalo importante na metagenômica: a velocidade de alinhamento das sequências contra um banco de dados - database - de proteínas usado como referência. 

 

O algoritmo foi apresentado em 2015 por pesquisadores da University of Tübingen na Alemanha e da Nanyang Technological University em Singapura, em publicação da revista Nature. O programa é open-source e está disponível no Github dos pesquisadores.

 

Mas como o Diamond funciona? 

 

O algoritmo do Diamond funciona de maneira similar ao BlastX do NCBI onde a query - uma sequência de DNA -  é transcrita e traduzida pelo programa em sequência de aminoácidos e depois é alinhada contra um database de proteínas. 

 

Assim como o Blast e o BlastX, o Diamond realiza os alinhamentos pelo paradigma seed-and-extent, sobre o qual já falamos aqui e que você pode conferir no nosso post sobre Blast

 

O processo funciona “quebrando” a sequência em pequenas palavras - seeds - que são alinhadas contra o database, e quando ocorre uma correspondência, o processo se estende - extent - repetindo o ciclo várias vezes até cobrir toda sequência pesquisada.      

 

O grande diferencial do Diamond é a utilização de um sistema de double index para realizar os alinhamentos, daí o nome do programa Double Indexing AlignMent Of NGS Data

 

Na abordagem double index, o Diamond determina uma lista contendo todas as seeds e suas localizações, tanto para a query - index 1 - quanto para a sequência de referência do database - index 2

 

Os dois index gerados, são então organizados lexicograficamente e as informações são cruzadas para determinar as correspondências - matches - entre as seeds e suas localizações.

 

Outra diferença do Diamond é que as seeds geradas são de tamanhos maiores, quando comparadas com as seeds utilizadas pelo BlastX. 

 

O uso de seeds maiores também colabora para que o Diamond realize os alinhamentos com maior velocidade.

 

No teste comparativo, o Diamond conseguiu alinhar  sequências curtas - short reads - de NGS, obtidos com equipamento IIlumina, até 20000 vezes mais rápido que o BlastX e até 40 vezes mais rápido que o RAPSearch2, outro programa de alinhamento de sequências.

 

 

Diamond v2.10.0: a versão mais rápida e potente.            

 

Em abril desse ano, os professores que criaram o Diamond, publicaram um artigo na revista Nature, apresentando melhorias de performance e adição de novas funcionalidades ao programa.

 

A versão 2.10.0 incorpora 2 novos níveis de sensibilidade de alinhamento - very-sensitive e ultra sensitive - que somados aos níveis default(fast) e sensitive de versões anteriores, totalizam 4 níveis de sensibilidade. 

 

A atualização traz ainda uma otimização para a utilização das arquiteturas computacionais mais modernas (high performance computing) e de cloud computing através de uma poderosa implementação computacional escalonável. 

 

Isso permite a customização de buscas de proteínas em larga escala, no que eles chamam de tree-of-life scale.

 

Na comparação com o BlastP, programa do NCBI usado quando o query é uma sequência proteica, os resultados obtidos com o Diamond foram muito superiores em termos de velocidade. 

 

A velocidade nos alinhamentos foi de 80-360 vezes maior, a depender do nível de sensibilidade escolhido, quando comparado com alinhamentos realizados com o BlastP. 

 

Os pesquisadores estimaram que, para rodar todo o non-redundant (nr) database (280 milhões de sequências) do NCBI contra o database UniRef 50 (40 milhões de sequências), usando o BlastP em um super computador com 20800 núcleos, seriam necessários 2 meses.

 

Para realizar o mesmo experimento, mas utilizando o Diamond v2.10.0, seriam necessárias apenas algumas horas e com o mesmo nível de sensibilidade do BlastP.

Incrível não acha? Com essas melhorias, o Diamond em breve poderá destronar o Blast e se tornar o programa mais utilizado em alinhamentos de sequências.

 

Fique ligado no nosso blog! Estamos sempre preparando as novidades mais incríveis da bioinformática para trazer até vocês!! 

  

Saiba mais: 

Fast and sensitive protein alignment using DIAMOND

Sensitive protein alignments at tree-of-life scale using DIAMOND

University of Tubingen

Última atualização: May 6, 2021, 4:19 p.m.

Posts Relacionados