PROCESSAMENTO DE LINGUAGEM NATURAL PARA RECONHECIMENTO DE ENTIDADES NOMEADAS EXTRAÍDAS DE CORPUS
Palavras-chave:
Processamento de Linguagem Natural, Tokenização, NLTKResumo
A automação de tarefas relacionadas à leitura, análise e geração de resumos de textos não estruturados, extraídos da web, pode ser realizada por meio do Processamento da Linguagem Natural. Isso envolve a aplicação de técnicas e algoritmos eficientes para o reconhecimento de entidades nomeadas. Neste contexto, o estudo utilizou um artigo científico publicado em um periódico como fonte de dados e realizou o pré-processamento das informações. Foi desenvolvida uma página HTML com base no artigo e para extração dos dados, utilizou-se a biblioteca Beautifulsoup, técnica esta chamada de web scraping. O desenvolvido do código utilizou Notebook Colab, ao qual permitiu a escrita e execução do código em Python, com o uso da biblioteca NLTK. Nesta pesquisa, foi descrita várias tarefas envolvidas na análise e produção de conhecimento, como a segmentação do texto em tokens para separar sentenças e palavras, a classificação de nomes próprios, a remoção de numerais e palavras frequentes, e a origem da classe gramatical das palavras. Após o pré-processamento e a aplicação das bibliotecas, foi gerado um resumo automático do texto, apresentando resultados avançados em termos de compreensão e elaboração do resumo.
Downloads
Referências
ALLAHYARI, M. et al. A Brief Survey of Text Mining: Classification, Clustering and Extraction Techniques. In: CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING, 23., 2017, Halifax, Proceedings […]. Halifax, SIGKDD, 2017. Disponível em: https://arxiv.org/pdf/1707.02919.pdf. Acesso em: 24 mar. 2022.
BARBOSA, J. et al. Introdução ao Processamento de Linguagem Natural usando Python. In: ESCOLA REGIONAL DE INFORMÁTICA DO PIAUÍ. 3., 2017, Teresina, PI. Anais [...]. Teresina: [s.n.], 2017, v. 1, n.1, p. 336-360, 2017. Disponível em: tutorial_nltk.pdf (ufu.br). Acesso: 9 out. 2023.
BENÍCIO, D.H.P. Aplicação de mineração de texto e processamento de linguagem natural em prontuários eletrônicos de pacientes para extração e transformação de texto em dado estruturado. 2020. Dissertação (Mestrado) - Universidade Federal do Rio Grande do Norte, Natal, RN, 2020.
BRITO, P. F.; ARAÚJO, L. G. A. Desenvolvimento do Módulo de Pré-processamento da Ferramenta SentimentALL. Digital Object Identifier, v. 1, n. 1, p. 2019. DOI https://doi.org/10.33911/singular-etg.v1i1.22.
FARIA, C. R.; BARBOSA, C. R. S. C. Técnicas de Processamento de Linguagem Natural para Auxiliar o Estudante na Identificação das Pragas da Soja. In: SIMPÓSIO BRASILEIRO DE INFORMÁTICA NA EDUCAÇÃO (SBIE), 31. , 2020, Porto Alegre. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2020 . p. 1373-1382. DOI: https://doi.org/10.5753/cbie.sbie.2020.1373.
GUIMARÃES, L. M. S.; MEIRELES, M. R. G.; ALMEIDA, P. E. M. Avaliação das Etapas de Pré-processamento e de Treinamento em Algoritmos de Classificação de Textos no Contexto da Recuperação da Informação. Perspectivas em Ciência da Informação, v. 24, n. 1, p. 169-190, 2019. DOI https://doi.org/10.1590/1981-5344/3505.
KONONOVA et al. Opportunities and challenges of text mining in materials research. iScience, v. 24, n. 3, p. 102155, 2021. DOI https://doi.org/10.1016/j.isci.2021.102155.
GLEZ-PEÑA, D. et al. Web scraping technologies in an API world. Briefings in bioinformatics, v. 15, n. 5, p. 788–797, 2014. DOI https://doi.org/10.1093/bib/bbt026.
MARTINS, J. S. et al. Processamentos de Linguagem Natural. São Paulo: Grupo A, 2020.
MARTINS, C. B. et al. Introdução à Sumarização Automática. 2013. Disponível em: https://sites.icmc.usp.br/taspardo/RTDC00201-CMartinsEtAl.pdf. Acesso em: 9 out. 2023.
PARDO, T. A. S. Sumarização Automática: Principais Conceitos e Sistemas para o Português Brasileiro. Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional NILC-ICMC-USP, 2008.
PINTO, S. C. S. Processamento de linguagem natural e extração de conhecimento. 2015. Dissertação (Mestrado em Engenharia Informática) - Faculdade de Ciências e Tecnologia da Universidade de Coimbra, Coimbra, PO, 2015.
RODRÍGUEZ, M. M. M. S.; BEZERRA, B. L. D. Processamento de Linguagem Natural para Reconhecimento de Entidades Nomeadas em Textos Jurídicos de Atos Administrativos (Portarias). Revista de Eng. e Pesquisa Aplicada, v. 5, n. 1, (Ed. Esp.), p. 67-77, 2020. DOI https://doi.org/10.25286/repa.v5i1.1204.
TOSTA, F. E. S.; FELIPPO, A. D.; PARDO, T. A. S. Aplicação de métodos clássicos de sumarização automática no contexto multidocumento multilíngue: primeiras aproximações. Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional NILC-ICMC-USP, 2012.