Categorias
Bioinformática

Baixando arquivos FASTA do NCBI

Caso você precise fazer o download de uma sequência fasta de uma proteína do NCBI, ou seja, você não sabe qual o id do UniProt, use a seguinte URL:

https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=protein&rettype=fasta&id=WP_010881530.1

Neste caso, o ID corresponde ao RefSeq ID.

Observe como implementar isso com Pyhton:

from bs4 import BeautifulSoup
import requests

id = 'WP_010881530.1'

# Site que será coletado
site = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=protein&rettype=fasta&id="+id

# Coleta os dados do site
html = requests.get(site)
print(html.text) # imprime o resultado

# grava em um arquivo
#w = open(id+'.fasta','w')
#w.write(html.text)
#w.close()

Consulte a documentação aqui: https://www.ncbi.nlm.nih.gov/books/NBK25499/

Por Diego Mariano

Doutor em Bioinformática pela Universidade Federal de Minas Gerais com atuação na área de ciência de dados e aprendizado de máquina aplicados ao aperfeiçoamento de enzimas usadas na produção de biocombustíveis. Mestre em Bioinformática, também pela UFMG, atuando na área de desenvolvimento de sistemas Web para montagem de genomas. Atualmente realiza estágio pós-doutoral no Departamento de Ciência da Computação da UFMG com foco em desenvolvimento de sistemas Web para Bioinformática, análise exploratória e visualização de dados. Tem conhecimentos nas linguagens: PHP, JavaScript, Python, R, Perl, HTML, CSS e SQL.

Deixe um comentário

O seu endereço de e-mail não será publicado.

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.

pt_BRPortuguês do Brasil