Baixando arquivos FASTA do NCBI

Autor do post Por Diego Mariano
Data de publicação 12 de setembro de 2022
Nenhum comentário em Baixando arquivos FASTA do NCBI

Caso você precise fazer o download de uma sequência fasta de uma proteína do NCBI, ou seja, você não sabe qual o id do UniProt, use a seguinte URL:

https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=protein&rettype=fasta&id=WP_010881530.1

Neste caso, o ID corresponde ao RefSeq ID.

Observe como implementar isso com Pyhton:

from bs4 import BeautifulSoup
import requests

id = 'WP_010881530.1'

# Site que será coletado
site = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=protein&rettype=fasta&id="+id

# Coleta os dados do site
html = requests.get(site)
print(html.text) # imprime o resultado

# grava em um arquivo
#w = open(id+'.fasta','w')
#w.write(html.text)
#w.close()

Consulte a documentação aqui: https://www.ncbi.nlm.nih.gov/books/NBK25499/

Por Diego Mariano

Doutor em Bioinformática pela Universidade Federal de Minas Gerais com atuação na área de ciência de dados e aprendizado de máquina aplicados ao aperfeiçoamento de enzimas usadas na produção de biocombustíveis. Mestre em Bioinformática, também pela UFMG, atuando na área de desenvolvimento de sistemas Web para montagem de genomas. Atualmente realiza estágio pós-doutoral no Departamento de Ciência da Computação da UFMG com foco em desenvolvimento de sistemas Web para Bioinformática, análise exploratória e visualização de dados. Tem conhecimentos nas linguagens: PHP, JavaScript, Python, R, Perl, HTML, CSS e SQL.

Ver arquivo

Deixe um comentário Cancelar resposta

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Por Diego Mariano

Deixe um comentário Cancelar resposta

Compartilhe este post!