PROCESSAMENTO DE LINGUAGEM NATURAL PARA RECONHECIMENTO DE ENTIDADES NOMEADAS EXTRAÍDAS DE CORPUS

Míriam Regina Bordinhon; Pedro Henrique Inácio Leite

Autores

Míriam Regina Bordinhon Centro Universitário de Adamantina https://orcid.org/0000-0002-4966-5922
Pedro Henrique Inácio Leite Centro Universitário de Adamantina

Palavras-chave:

Processamento de Linguagem Natural, Tokenização, NLTK

Resumo

A automação de tarefas relacionadas à leitura, análise e geração de resumos de textos não estruturados, extraídos da web, pode ser realizada por meio do Processamento da Linguagem Natural. Isso envolve a aplicação de técnicas e algoritmos eficientes para o reconhecimento de entidades nomeadas. Neste contexto, o estudo utilizou um artigo científico publicado em um periódico como fonte de dados e realizou o pré-processamento das informações. Foi desenvolvida uma página HTML com base no artigo e para extração dos dados, utilizou-se a biblioteca Beautifulsoup, técnica esta chamada de web scraping. O desenvolvido do código utilizou Notebook Colab, ao qual permitiu a escrita e execução do código em Python, com o uso da biblioteca NLTK. Nesta pesquisa, foi descrita várias tarefas envolvidas na análise e produção de conhecimento, como a segmentação do texto em tokens para separar sentenças e palavras, a classificação de nomes próprios, a remoção de numerais e palavras frequentes, e a origem da classe gramatical das palavras. Após o pré-processamento e a aplicação das bibliotecas, foi gerado um resumo automático do texto, apresentando resultados avançados em termos de compreensão e elaboração do resumo.

Downloads

Os dados de download ainda não estão disponíveis.

Biografia do Autor

Pedro Henrique Inácio Leite, Centro Universitário de Adamantina

Estudante do Curso de Ciência da Computação no Centro Universitário de Adamantina

Referências

ALLAHYARI, M. et al. A Brief Survey of Text Mining: Classification, Clustering and Extraction Techniques. In: CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING, 23., 2017, Halifax, Proceedings […]. Halifax, SIGKDD, 2017. Disponível em: https://arxiv.org/pdf/1707.02919.pdf. Acesso em: 24 mar. 2022.

BARBOSA, J. et al. Introdução ao Processamento de Linguagem Natural usando Python. In: ESCOLA REGIONAL DE INFORMÁTICA DO PIAUÍ. 3., 2017, Teresina, PI. Anais [...]. Teresina: [s.n.], 2017, v. 1, n.1, p. 336-360, 2017. Disponível em: tutorial_nltk.pdf (ufu.br). Acesso: 9 out. 2023.

BENÍCIO, D.H.P. Aplicação de mineração de texto e processamento de linguagem natural em prontuários eletrônicos de pacientes para extração e transformação de texto em dado estruturado. 2020. Dissertação (Mestrado) - Universidade Federal do Rio Grande do Norte, Natal, RN, 2020.

BRITO, P. F.; ARAÚJO, L. G. A. Desenvolvimento do Módulo de Pré-processamento da Ferramenta SentimentALL. Digital Object Identifier, v. 1, n. 1, p. 2019. DOI https://doi.org/10.33911/singular-etg.v1i1.22.

FARIA, C. R.; BARBOSA, C. R. S. C. Técnicas de Processamento de Linguagem Natural para Auxiliar o Estudante na Identificação das Pragas da Soja. In: SIMPÓSIO BRASILEIRO DE INFORMÁTICA NA EDUCAÇÃO (SBIE), 31. , 2020, Porto Alegre. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2020 . p. 1373-1382. DOI: https://doi.org/10.5753/cbie.sbie.2020.1373.

GUIMARÃES, L. M. S.; MEIRELES, M. R. G.; ALMEIDA, P. E. M. Avaliação das Etapas de Pré-processamento e de Treinamento em Algoritmos de Classificação de Textos no Contexto da Recuperação da Informação. Perspectivas em Ciência da Informação, v. 24, n. 1, p. 169-190, 2019. DOI https://doi.org/10.1590/1981-5344/3505.

KONONOVA et al. Opportunities and challenges of text mining in materials research. iScience, v. 24, n. 3, p. 102155, 2021. DOI https://doi.org/10.1016/j.isci.2021.102155.

GLEZ-PEÑA, D. et al. Web scraping technologies in an API world. Briefings in bioinformatics, v. 15, n. 5, p. 788–797, 2014. DOI https://doi.org/10.1093/bib/bbt026.

MARTINS, J. S. et al. Processamentos de Linguagem Natural. São Paulo: Grupo A, 2020.

MARTINS, C. B. et al. Introdução à Sumarização Automática. 2013. Disponível em: https://sites.icmc.usp.br/taspardo/RTDC00201-CMartinsEtAl.pdf. Acesso em: 9 out. 2023.

PARDO, T. A. S. Sumarização Automática: Principais Conceitos e Sistemas para o Português Brasileiro. Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional NILC-ICMC-USP, 2008.

PINTO, S. C. S. Processamento de linguagem natural e extração de conhecimento. 2015. Dissertação (Mestrado em Engenharia Informática) - Faculdade de Ciências e Tecnologia da Universidade de Coimbra, Coimbra, PO, 2015.

RODRÍGUEZ, M. M. M. S.; BEZERRA, B. L. D. Processamento de Linguagem Natural para Reconhecimento de Entidades Nomeadas em Textos Jurídicos de Atos Administrativos (Portarias). Revista de Eng. e Pesquisa Aplicada, v. 5, n. 1, (Ed. Esp.), p. 67-77, 2020. DOI https://doi.org/10.25286/repa.v5i1.1204.

TOSTA, F. E. S.; FELIPPO, A. D.; PARDO, T. A. S. Aplicação de métodos clássicos de sumarização automática no contexto multidocumento multilíngue: primeiras aproximações. Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional NILC-ICMC-USP, 2012.

PROCESSAMENTO DE LINGUAGEM NATURAL PARA RECONHECIMENTO DE ENTIDADES NOMEADAS EXTRAÍDAS DE CORPUS

Autores

Palavras-chave:

Resumo

Downloads

Biografia do Autor

Referências

Downloads

Publicado

Edição

Seção

Como Citar

Artigos Semelhantes

Idioma

Desenvolvido por

Informações

Google Scholar

Palavras-chave