Categorias
Python

Análise de artigos usando Python e expressões regulares

Aqui faremos uma análise de contagem de palavras

O código a seguir, apresenta uma análise de expressões regulares de artigos. Faremos o pré-processamento de dados, remoção de caracteres indesejados e filtraremos o texto em frases. Por fim, vamos contar a quantidade média de palavras por frase.

Para isso, vamos utilizar Python, além das bibliotecas fitz (pip3 install pymupdf) e re (expressões regulares).

# -*- coding: utf-8 -*-

# importa biblioteca
import fitz
import re

conteudo = ""

with fitz.open("arquivo.pdf") as pdf:

    for pagina in pdf:
        conteudo += pagina.get_text()

# remove o parte inicial => começar na introdução
inicio = conteudo.find('Introduction')
conteudo = conteudo[inicio:]

# remove cabeçalho
cabecalho = "REVISTA X, 2022, 2, FOR PEER REVIEW" #alterar este campo
conteudo = conteudo.replace(cabecalho, '')

# remove as referencias
fim = conteudo.find('References')
conteudo = conteudo[:fim]
# conteudo = conteudo.replace('\n138\n \n','')

# remove quebras de linhas
# conteudo = re.sub('\n','', conteudo) 

# remove quebras de linhas com número no fim
conteudo = re.sub('\n[0-9]{1,4}\n \n','', conteudo) 

# print(conteudo2)

analise = conteudo.split('.')
# print(len(analise)) # total de frases => 359

frases = []
for i in analise:
    if len(i) > 10:  # remove frases com menos de 10 letras
        # print('\n::INICIO::\n',i,'\n::FIM::\n', len(i))
        frases.append(i)

print('Total de frases:', len(frases))

tamanho_frases = []
for i in frases:
    aux = i.split()
    # if len(aux) > 50:
    #     print(i)

    print(len(aux))

Agora, vamos observar no gráfico como ficará o resultado:

Por Diego Mariano

Doutor em Bioinformática pela Universidade Federal de Minas Gerais com atuação na área de ciência de dados e aprendizado de máquina aplicados ao aperfeiçoamento de enzimas usadas na produção de biocombustíveis. Mestre em Bioinformática, também pela UFMG, atuando na área de desenvolvimento de sistemas Web para montagem de genomas. Atualmente realiza estágio pós-doutoral no Departamento de Ciência da Computação da UFMG com foco em desenvolvimento de sistemas Web para Bioinformática, análise exploratória e visualização de dados. Tem conhecimentos nas linguagens: PHP, JavaScript, Python, R, Perl, HTML, CSS e SQL.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.

error

Compartilhe este post!

Facebook
YouTube
LinkedIn
Instagram