Você pode manipular arquivos PDF com Python usando a biblioteca pymupdf. Para instalá-la use:
pip install pymupdf
A seguir vamos navegar no arquivo página por página e coletar os dados usando o comando getText( )
:
# -*- coding: utf-8 -*-
# importa biblioteca
import fitz
conteudo = ""
with fitz.open("arquivo.pdf") as pdf:
for pagina in pdf:
conteudo += pagina.getText()
Fonte: https://estatsite.com.br/2021/06/19/ler-pdf-no-python-e-r/
3 respostas em “Lendo arquivos PDF com Python”
Olá Diego. Tenho 43 anos e tome coragem de realizar um desejo de ser um programador, estou dando uma repaginada na carreira profissional pra valer. E é muito bom ver conteúdos como o seu disponibilizados na web. Meu foco é Python/Django e há pouco utilizei uma instrução sua. Fica meu agradecimento, afinal um cara com suas skills ainda se dar o trabalho de disponibilizar contéudo assim é admirável. Obrigado.
Oi Éverton, muito obrigado pela mensagem! Te desejo sucesso na sua carreira! Abraços
Diego,
Parabéns pelo resumo. Simples, direto, conciso, sem um monte de bla bla bla que so acabam confundindo. Obrigado.