Categorias
Python

Lendo arquivos PDF com Python

Você pode manipular arquivos PDF com Python usando a biblioteca pymupdf. Para instalá-la use:

pip install pymupdf

A seguir vamos navegar no arquivo página por página e coletar os dados usando o comando getText( ):

# -*- coding: utf-8 -*-

# importa biblioteca
import fitz


conteudo = ""

with fitz.open("arquivo.pdf") as pdf:

    for pagina in pdf:
        conteudo += pagina.getText()

Fonte: https://estatsite.com.br/2021/06/19/ler-pdf-no-python-e-r/

Por Diego Mariano

Doutor em Bioinformática pela Universidade Federal de Minas Gerais com atuação na área de ciência de dados e aprendizado de máquina aplicados ao aperfeiçoamento de enzimas usadas na produção de biocombustíveis. Mestre em Bioinformática, também pela UFMG, atuando na área de desenvolvimento de sistemas Web para montagem de genomas. Atualmente realiza estágio pós-doutoral no Departamento de Ciência da Computação da UFMG com foco em desenvolvimento de sistemas Web para Bioinformática, análise exploratória e visualização de dados. Tem conhecimentos nas linguagens: PHP, JavaScript, Python, R, Perl, HTML, CSS e SQL.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *