Repositórios de dados públicos para análises de bioinformática : GDC, ICGC e HCA

Data:

repos

Algumas opções de repositórios de dados públicos para bioinformática

Autor | Alexandre Defelicibus

 

A bioinformática é, essencialmente, uma ciência de dados e, portanto, é dependente do acesso a grandes conjuntos de dados completos e curados, abrangendo desde os dados primários, como sequência genômicas ou arquivos de alinhamento, até os dados processados por algum pipeline, como variantes e expressão gênica, além de metadados associados às amostras de estudo.

 

Várias iniciativas mundiais têm se mobilizado para que o acesso à informação seja mais amplo e fomente a ciência e o desenvolvimento de novas análises com dados públicos de boa qualidade. Já falamos de uma dessas iniciativas nesse post, e gostaríamos de trazer mais algumas opções que disponibilizam uma quantidade gigantesca e diversificada de dados públicos para análises de bioinformática.

 

Um exemplo é a plataforma Genomic Data Commons Data Portal, ou GDC. Nela estão contidos dados de vários projetos grandes, como o TCGA e o TARGET, além de dados de mais de 85 mil casos de 67 sítios primários de câncer divididos em 72 projetos. 

 

Vários tipos de arquivos, como BAM, VCF e MAF, são disponibilizados, além dos resultados de vários workflows de análises como de expressão gênica, CNV e variantes estruturais. Atualmente, são mais de 800 mil arquivos, resultando em ~2.4PB de dados.

 

Fonte : https://portal.gdc.cancer.gov/

 

No contexto de câncer, a partir desse grande volume de dados disponível no GDC, uma análise que se torna possível é conhecida como Pan analysis, que é a integração de várias camadas de dados ômicos com o objetivo de caracterizar os aspectos de uma resposta a um tratamento ou identificar subtipos moleculares, por exemplo. 

 

Um desses exemplos é o artigo The Immune Landscape of Cancer, o qual avaliou os aspectos imunogênicos de mais de 10 mil amostras e 33 tipos de câncer e identificou os 6 principais subtipos imunes em cada tipo de câncer.

 

Existem várias maneiras de acessar os dados disponíveis no GDC, como baixar diretamente do portal, com uma limitação de número de arquivos e tamanho para download, ou utilizar ferramentas como GDC Transfer Tool ou TCGABiolinks, as quais permitem o download de um grande volume de dados de forma automatizada.

 

Assim como o GDC, o International Cancer Genome Consortium - ICGC - disponibiliza dados e ferramentas de análises no contexto de câncer, contendo mais de 24 mil casos de 22 sítios primários de câncer divididos em 86 projetos, totalizando ~1.7PB de armazenamento. 

 

Os dados também estão disponíveis em vários formatos, com uma diferença que é a de possuir resultados de análises de genoma completo - WGS - enquanto o GDC disponibiliza apenas exomas - WXS ou WES.

 

 

Fonte : https://portal.gdc.cancer.gov/

 

Alguns projetos presentes do GDC, em uma versão mais antiga, também estão presentes no ICGC e até recebem um outro identificador. Isso ocorreu antes do reprocessamento de todas as amostras do TCGA de uma forma padronizada. 

 

Com os dados de genoma completo, outras possibilidades de análises se tornam viáveis, como Pan análises e GWAS, que falamos neste artigo. Atualmente, são quase 3 mil casos e ~800TB de dados disponíveis.

 

Fonte : https://dcc.icgc.org/

 

Por fim, o Human Cell Atlas - HCA - visa mapear todos os tipos celulares no corpo humano. Na plataforma, são disponibilizados dados de mais de 23 milhões de células de vários órgãos e do sistema imune de mais de 3 mil doadores divididos em 250 projetos. 

 

No exemplo abaixo, é possível visualizar, e filtrar, projetos com dados disponíveis para vários órgãos.

 

Fonte : https://www.humancellatlas.org/

 

Além disso, o Data Portal do HCA disponibiliza os metadados associados a cada projeto que depositou os dados na plataforma, pipelines e guias de análises desse tipo de informação e uma lista extensa de ferramentas disponíveis para análise de sequenciamento de células. Ademais, é disponibilizado uma API que permite o download dos dados de forma automatizada.

 

Como bónus, vale a menção ao repositório público de dados brutos - raw data - Sequence Read Archive (SRA) que, desde 2009, disponibiliza sequências genômicas geradas a partir de diversas tecnologias de sequenciamento.

 

Fonte : https://trace.ncbi.nlm.nih.gov/Traces/sra/

 

Já conhecia alguma dessas plataformas de dados públicos? Gostou do conteúdo? Não esqueça de deixar seu like, comentário, ou compartilhar o post!

 

Saiba mais: 

 

https://portal.gdc.cancer.gov/

https://dcc.icgc.org/

https://www.humancellatlas.org/

https://trace.ncbi.nlm.nih.gov/Traces/sra/

 

#ciencia #bioinformatica  #edutaugc #datasource #cancerresearch

Última atualização: June 22, 2022, 8:23 p.m.

Recomendar

6

Tags

Posts Relacionados