O código a seguir, apresenta uma análise de expressões regulares de artigos. Faremos o pré-processamento de dados, remoção de caracteres indesejados e filtraremos o texto em frases. Por fim, vamos contar a quantidade média de palavras por frase.
Para isso, vamos utilizar Python, além das bibliotecas fitz
(pip3 install pymupdf) e re
(expressões regulares).
# -*- coding: utf-8 -*-
# importa biblioteca
import fitz
import re
conteudo = ""
with fitz.open("arquivo.pdf") as pdf:
for pagina in pdf:
conteudo += pagina.get_text()
# remove o parte inicial => começar na introdução
inicio = conteudo.find('Introduction')
conteudo = conteudo[inicio:]
# remove cabeçalho
cabecalho = "REVISTA X, 2022, 2, FOR PEER REVIEW" #alterar este campo
conteudo = conteudo.replace(cabecalho, '')
# remove as referencias
fim = conteudo.find('References')
conteudo = conteudo[:fim]
# conteudo = conteudo.replace('\n138\n \n','')
# remove quebras de linhas
# conteudo = re.sub('\n','', conteudo)
# remove quebras de linhas com número no fim
conteudo = re.sub('\n[0-9]{1,4}\n \n','', conteudo)
# print(conteudo2)
analise = conteudo.split('.')
# print(len(analise)) # total de frases => 359
frases = []
for i in analise:
if len(i) > 10: # remove frases com menos de 10 letras
# print('\n::INICIO::\n',i,'\n::FIM::\n', len(i))
frases.append(i)
print('Total de frases:', len(frases))
tamanho_frases = []
for i in frases:
aux = i.split()
# if len(aux) > 50:
# print(i)
print(len(aux))
Agora, vamos observar no gráfico como ficará o resultado: