Todos nossos genomas

Data:

knit

Dá pra armazenar todos os genomas humanos em um pen drive? Conheça o pangenoma humano

Autor | Jonas Weissmann Gaiarsa 

 

Quanto espaço preciso para armazenar o genoma de todos os humanos do planeta? A conta mais simples diria que são as 3GB que todos nós temos vezes 7,7B de humanos no planeta = vinte três Exabytes (18 zeros depois do byte). 

 

O maior disco rígido com bom custo benefício de hoje tem 18TB e custa US$430. Seriam cerca de 1.3M de discos a um custo total de US$550M. 

 

Parece razoável para um projeto tão ambicioso. Mas e se eu quiser analisar todos esses genomas simultaneamente? 

 

Parece um tanto quanto difícil usá-los, quanto mais gerenciar, essa quantidade de  dados de uma vez só. Mas o nosso genoma não é quase 99,5% idêntico? 

 

E se eu dissesse que na verdade você só precisaria de 4GB, um pendrive de US$5, para armazenar todo o genoma humano com as diferenças de toda a população mundial? 

Esse é o PANGENOMA HUMANO!

Adaptada de Big Data: Astronomical or Genomical?

 

Por essa razão, mas principalmente pelo fato de que sequenciar um genoma tem ficado cada vez mais barato, que vários bioinformatas têm buscado desenvolver formas de representar genomas da mesma espécie registrando apenas as diferenças. 

 

Isso é feito usando uma representação das ramificações que as diferenças trazem em cada ponto do genoma onde há aquela diferença. 

 

Por vezes são pequenas, com uma só base. Mas às vezes são longas e produzem grandes laços. A representação matemática disso é um grafo de De Bruijn, capaz de representar símbolos, no caso as bases do DNA, e sobreposições, ou as diferenças. 

 

Só alguns algoritmos que fazem isso: TwoPaCo, SplitMEM, Bifrost e Cuttlefish.

Adaptada de Read Mapping on de Bruijn graph 

 

Um dos programas de mapeamento de leituras de NGS que já usa esse tipo de representação é o HiSat2. O HiSat2 é a evolução do BowTie2, um mapeador voltado especialmente para a genômica humana. 

 

O HiSat2 é capaz de criar índices que incorporam as informações de variação do genoma, assim como os algoritmos mencionados acima. O índice nada mais é do que essa representação reduzida do genoma incorporando as variações da população. 

 

Esse tipo de capacidade de mapear olhando para variação é super importante quando fazemos sequenciamento do RNA e queremos encontrar o gene do genoma de onde aquele RNA veio. 

 

No entanto, o RNA humano não é exatamente igual ao DNA do genoma humano porque passou por splicing, ou remoção dos íntrons. 

 

O HiSat2 também sabe disso! 

 

Ele é capaz de entender que algumas das leituras do RNA humano tem que ser divididas para conseguir mapear sobre a fronteira do íntrons que estão no genoma.

 

Adaptada de Reference-based RNA-Seq data analysis 

 

Não ache que isso está tão longe de você, logo também o seu genoma vai ser parte do pangenoma!

 

Já conhecia o pangenoma humano?? Conta pra gente o que achou das novidades e acompanhe sempre nosso blog para mais conteúdos inovadores em bioinfo!!    



Saiba mais: 

Big Data: Astronomical or Genomical?

TwoPaCo: an efficient algorithm to build the compacted de Bruijn graph from many complete genomes

SplitMEM: a graphical algorithm for pan-genome analysis with suffix skips

Bifrost: highly parallel construction and indexing of colored and compacted de Bruijn graphs

Cuttlefish: fast, parallel and low-memory compaction of de Bruijn graphs from large-scale genome collections

Indexing Graphs for Path Queries with Applications in Genome Research

Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype

 

 

#ciência #bioinformática #divulgaçãocientífica #edutaugc #pangenoma

 

Última atualização: Aug. 6, 2021, 5:21 p.m.

Posts Relacionados