Biopython - a biblioteca Python para bioinformática

Data:

snake

Biopython, a biblioteca Python para bioinformática

Autor|César Henrique Yokomizo

  

 

Você sabia que a linguagem de programação Python possui um conjunto de ferramentas exclusivas para bioinformática? 

 

A Biopython, uma iniciativa que faz parte da Open Bioinformatics Foundation (OBF), é uma biblioteca que disponibiliza diversos módulos para analisar dados biológicos como sequências de DNA e RNA (Bio.Sequencing e Bio.SeqUtils.Mapper), proteínas (Bio.PDB) e até para análises filogenéticas (Bio.Phylo). 

A biblioteca pode ser instalada facilmente através da sua IDLE Python (ambiente de desenvolvimento), e para isso é só digitar o comando: 

 

pip install biopython

 

Após a instalação, a biblioteca estará disponível para uso e só precisa ser importada, através do comando: 

 

import Bio

 

Para análises de DNA, temos a classe Seq dentro do módulo Bio.Seq, que pode ser importada através do comando:

 

from Bio.Seq import Seq

 

Após a importação, você estará apto a utilizar suas funções nas análises. Um bom exemplo de uso dessa classe é o seguinte: imagine que você tem uma sequência de DNA e quer encontrar a sua sequência complementar e também a sequência de aminoácidos traduzida a partir do DNA inicial. 

É possível realizar todos esses processos, através dos comandos que são listados a seguir:  

 

# cria um objeto contendo a sequência  de DNA

seq_1 = Seq("CATGTAGACTAG")

# imprime na tela os seguintes dados: tamanho da sequência, sequência complementar e a tradução para aminoácidos

print("A sequência %s têm %i nucleotídeos" % (seq_1, len(seq_1)))

print("O complemento reverso é %s" % seq_1.reverse_complement()

print("A tradução proteica é %s" % seq_1.translate())

 

A interface padrão da Biopython para lidar com arquivos de sequências biológicas é a Bio.SeqIO (Input/Output), permitindo ler e gravar arquivos em diversos formatos como FASTA e GenBank. Para importar a SeqIO é simples: 

 

from Bio import SeqIO 

 

A principal função da interface é a SeqIO.parse(), que permite a leitura dos arquivos. Imagine que você tem um arquivo do tipo FASTA, chamado “meugene.fasta”, que armazena a sequência de um gene de interesse, e quer exibi-lo na sua tela. Após importar a interface, é só seguir esses passos para realizar a tarefa: 

 

#cria a variável “seq_record”, dentro de um loop (for...in), que receberá as informações do arquivo “meugene.fasta”, obtidas com a função SeqIO.parse(). O atributo “fasta” indica para a função qual o formato do arquivo 

for seq_record in SeqIO.parse("meugene.fasta", "fasta"):

#imprime na tela o cabeçalho (seq_record.id), a sequência (seq_record.seq) e o tamanho da sequência (len(seq_record))   

print(seq_record.id)

print(seq_record.seq)

print(len(seq_record))

 

O pacote Bio.AlignIO funciona como uma interface irmã/complementar à SeqIO,permitindo explorar arquivos com múltiplas sequências alinhadas, e criando objetos do tipo MultipleSeqAlignment com esses alinhamentos. A importação da interface, assim como  a SeqIO é simples: 

 

from Bio import AlignIO  

 

A Biopython dispõe de diversos de módulos, o conteúdo que apresentamos aqui é uma brevíssima introdução, pois as possibilidades analíticas que essa biblioteca oferece são incontáveis. 

 

Além do Python, outras linguagens de programação também possuem bibliotecas e módulos para análises biológicas, como BioPerl, BioJava entre outras, mas isso é assunto para outro post. 

 

E aí, gostou do conteúdo? Já conhecia a Biopython? Fique ligado no nosso blog que sempre trazemos novidades e conteúdos de qualidade sobre genômica e bioinformática.

 

 

Leituras complementares: 

 

https://biopython.org/wiki/Category%3ACookbook 

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2682512/pdf/btp163.pdf

 

#ciencia #bioinformatica #divulgaçãocientífica #edutaugc #biopython

Última atualização: April 1, 2021, 4:45 p.m.

Recomendar

25

Posts Relacionados