Categorias
Artigos Python

Lendo arquivos PDF com Python

Você pode manipular arquivos PDF com Python usando a biblioteca pymupdf. Para instalá-la use:

pip install pymupdf

A seguir vamos navegar no arquivo página por página e coletar os dados usando o comando getText( ):

# -*- coding: utf-8 -*-

# importa biblioteca
import fitz


conteudo = ""

with fitz.open("arquivo.pdf") as pdf:

    for pagina in pdf:
        conteudo += pagina.getText()

Fonte: https://estatsite.com.br/2021/06/19/ler-pdf-no-python-e-r/

Por Diego Mariano

Doutor em Bioinformática pela Universidade Federal de Minas Gerais com atuação na área de ciência de dados e aprendizado de máquina aplicados ao aperfeiçoamento de enzimas usadas na produção de biocombustíveis. Mestre em Bioinformática, também pela UFMG, atuando na área de desenvolvimento de sistemas Web para montagem de genomas. Atualmente realiza estágio pós-doutoral no Departamento de Ciência da Computação da UFMG com foco em desenvolvimento de sistemas Web para Bioinformática, análise exploratória e visualização de dados. Tem conhecimentos nas linguagens: PHP, JavaScript, Python, R, Perl, HTML, CSS e SQL.

3 respostas em “Lendo arquivos PDF com Python”

Olá Diego. Tenho 43 anos e tome coragem de realizar um desejo de ser um programador, estou dando uma repaginada na carreira profissional pra valer. E é muito bom ver conteúdos como o seu disponibilizados na web. Meu foco é Python/Django e há pouco utilizei uma instrução sua. Fica meu agradecimento, afinal um cara com suas skills ainda se dar o trabalho de disponibilizar contéudo assim é admirável. Obrigado.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.

error

Compartilhe este post!

Facebook
YouTube
LinkedIn
Instagram