HOME-BIO: pipeline de análise metagenômica

Data:

homebio

Conheça a HOME-BIO, uma pipeline user-friendly para análise metagenômica

Autor | César Henrique Yokomizo

 

O uso do sequenciamento NGS - next-generation sequencing - em estudos metagenômicos permite a identificação de microrganismos em diversos ambientes e com isso a geração de grandes quantidades de dados genômicos. 

 

Em especial, a enorme quantidade de dados gerados pelo método shotgun de metagenômica necessita de pipelines de análise que sejam intuitivas e de fácil compreensão. 

 

A HOME- BIO - sHOtgun MEtagenomic analysis of BIOlogical entities - é uma pipeline para metagenômica construída com estes preceitos. 

 

A HOME-BIO é composta por 3 módulos independentes, que permitem uma análise inclusiva com grandes datasets de NGS.    

 

A pipeline pode ser executada até mesmo por pessoas que não possuem vasta expertise computacional, realizando consultas em diferentes databases e com configurações altamente customizáveis, atendendo à necessidade dos mais diferentes usuários.       

 

Os 3 módulos da pipeline são o [1]Quality Control, [2]Metagenomic Shotgun e o [3]Assembly de novo. 

 

No primeiro módulo, após o input dos dados de NGS, é realizado o controle de qualidade pela remoção de leituras com algum problema como baixa complexidade, remove-se também as sequências do organismo hospedeiro e os contaminantes. 

 

Ao final do primeiro módulo são gerados relatórios de qualidade e painéis gráficos. As sequências restantes, após o controle de qualidade, são processadas pelos outros dois módulos em sequência ou de forma independente.

 

No módulo 2 as sequências são processadas pelos algoritmos Kraken2 e Kaiju, que realizam a anotação das sequências e uma classificação taxonômica, e no módulo 3 as sequências são processadas pelo SPAdes, para montagem do genoma, e anotadas com o Kraken2.

 

Instalação da pipeline 

A HOME-BIO pode ser executada no DOCKER, um serviço do tipo Platform as a Service (PaaS), que realiza a virtualização de sistemas operacionais dentro de containers. 

 

Para rodar a HOME-BIO é necessário instalar a imagem DOCKER da pipeline, que pode ser obtido digitando o seguinte comando no console do DOCKER: 

 

docker pull biohaz/home_bio:latest

 

Depois disso é só baixar o repositório. É possivel também clonar o repositório diretamente do Github. Para isso, ainda no console do DOCKER, digite: 

 

git clone https://github.com/carlferr/HOME-BIO.git

 

Download dos databases

Para rodar uma análise metagenômica, é necessário realizar o download dos databases de referência para bactéria, protozoários e/ou vírus. 

 

É possível baixar um arquivo zipado criado pelos pesquisadores na plataforma Zenodo. 

 

O arquivo que contém os databases Kraken2 e Kaiju  está disponível para download na URL: https://zenodo.org/record/4055180#.YPDIR-hKhPY    

 

Realizando a análise

A HOME-BIO tem como input, arquivos no formato fastq ou fastq.gz. É necessário colocar todos os arquivos que serão utilizados e analisados em uma mesma pasta.

 

Depois disso, para rodar a pipeline, no console do DOCKER digite o comando: 

 

python HOME_Bio.py -c config_file.txt

 

Se o Sistema Operacional que estiver rodando no container do DOCKER for o Windows, o comando é o seguinte: 

 

python HOME_Bio_windows.py -c config_file.txt

 

Estes comandos irão: [1]chamar o container no DOCKER de forma automática, [2] ler os caminhos dos arquivos direto do config_file.txt e [3] iniciar a análise.

 

Requisitos de Sistema

Recomenda-se um minimo de 400 GB de espaço livre em disco para os databases. Com relação às capacidades de processamento da sua máquina os requisitos são:  

 

Requisitos minimos = 1 CPU, 4 GB RAM;

Requisitos recomendados: ⩾ 4 CPUs, ⩾16 GB RAM.

 

A HOME-BIO é uma novidade muito interessante para as análises metagenômicas. Uma pipeline simples e intuitiva que pode gerar resultados relevantes ao trabalharmos com grandes quantidades de dados. 

 

Conta pra gente o que achou da pipeline e acompanhe nosso blog para mais conteúdos inovadores em bioinfo!! 

 

Saiba mais: 

 

Github da HOME-BIO

HOME-BIO (sHOtgun MEtagenomic analysis of BIOlogical entities)

 

#ciencia #bioinformatica #divulgaçãocientífica #edutaugc #metagenômica

Última atualização: July 16, 2021, 1:08 a.m.

Posts Relacionados