Português Português

Authors

Keywords:

Processamento de Linguagem Natural, Tokenização, NLTK

Abstract

The automation of tasks related to reading, analysis and generation of summaries of unstructured texts, extracted from the web, can be performed through Natural Language Processing. This involves applying efficient techniques and algorithms for named entity recognition. In this context, the study used a scientific article published in a journal as a data source and pre-processed the information. An HTML page was developed based on the article and for data extraction, the Beautifulsoup library was used, a technique called web scraping. The development of the code used Notebook Colab, which allowed the writing and execution of the code in Python, using the NLTK library. In this research, several tasks involved in the analysis and production of knowledge were described, such as the segmentation of text into tokens to separate sentences and words, the classification of proper nouns, the removal of numerals and frequent words, and the origin of the grammatical class of words. After pre-processing and applying the libraries, an automatic summary of the text was generated, presenting advanced results in terms of comprehension and elaboration of the summary.

Downloads

Download data is not yet available.

Author Biography

  • Português, Portugês

    Estudante do Curso de Ciência da Computação no Centro Universitário de Adamantina

References

ALLAHYARI, M. et al. A Brief Survey of Text Mining: Classification, Clustering and Extraction Techniques. In: CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING, 23., 2017, Halifax, Proceedings […]. Halifax, SIGKDD, 2017. Disponível em: https://arxiv.org/pdf/1707.02919.pdf. Acesso em: 24 mar. 2022.

BARBOSA, J. et al. Introdução ao Processamento de Linguagem Natural usando Python. In: ESCOLA REGIONAL DE INFORMÁTICA DO PIAUÍ. 3., 2017, Teresina, PI. Anais [...]. Teresina: [s.n.], 2017, v. 1, n.1, p. 336-360, 2017. Disponível em: tutorial_nltk.pdf (ufu.br). Acesso: 9 out. 2023.

BENÍCIO, D.H.P. Aplicação de mineração de texto e processamento de linguagem natural em prontuários eletrônicos de pacientes para extração e transformação de texto em dado estruturado. 2020. Dissertação (Mestrado) - Universidade Federal do Rio Grande do Norte, Natal, RN, 2020.

BRITO, P. F.; ARAÚJO, L. G. A. Desenvolvimento do Módulo de Pré-processamento da Ferramenta SentimentALL. Digital Object Identifier, v. 1, n. 1, p. 2019. DOI https://doi.org/10.33911/singular-etg.v1i1.22.

FARIA, C. R.; BARBOSA, C. R. S. C. Técnicas de Processamento de Linguagem Natural para Auxiliar o Estudante na Identificação das Pragas da Soja. In: SIMPÓSIO BRASILEIRO DE INFORMÁTICA NA EDUCAÇÃO (SBIE), 31. , 2020, Porto Alegre. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2020 . p. 1373-1382. DOI: https://doi.org/10.5753/cbie.sbie.2020.1373.

GUIMARÃES, L. M. S.; MEIRELES, M. R. G.; ALMEIDA, P. E. M. Avaliação das Etapas de Pré-processamento e de Treinamento em Algoritmos de Classificação de Textos no Contexto da Recuperação da Informação. Perspectivas em Ciência da Informação, v. 24, n. 1, p. 169-190, 2019. DOI https://doi.org/10.1590/1981-5344/3505.

KONONOVA et al. Opportunities and challenges of text mining in materials research. iScience, v. 24, n. 3, p. 102155, 2021. DOI https://doi.org/10.1016/j.isci.2021.102155.

GLEZ-PEÑA, D. et al. Web scraping technologies in an API world. Briefings in bioinformatics, v. 15, n. 5, p. 788–797, 2014. DOI https://doi.org/10.1093/bib/bbt026.

MARTINS, J. S. et al. Processamentos de Linguagem Natural. São Paulo: Grupo A, 2020.

MARTINS, C. B. et al. Introdução à Sumarização Automática. 2013. Disponível em: https://sites.icmc.usp.br/taspardo/RTDC00201-CMartinsEtAl.pdf. Acesso em: 9 out. 2023.

PARDO, T. A. S. Sumarização Automática: Principais Conceitos e Sistemas para o Português Brasileiro. Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional NILC-ICMC-USP, 2008.

PINTO, S. C. S. Processamento de linguagem natural e extração de conhecimento. 2015. Dissertação (Mestrado em Engenharia Informática) - Faculdade de Ciências e Tecnologia da Universidade de Coimbra, Coimbra, PO, 2015.

RODRÍGUEZ, M. M. M. S.; BEZERRA, B. L. D. Processamento de Linguagem Natural para Reconhecimento de Entidades Nomeadas em Textos Jurídicos de Atos Administrativos (Portarias). Revista de Eng. e Pesquisa Aplicada, v. 5, n. 1, (Ed. Esp.), p. 67-77, 2020. DOI https://doi.org/10.25286/repa.v5i1.1204.

TOSTA, F. E. S.; FELIPPO, A. D.; PARDO, T. A. S. Aplicação de métodos clássicos de sumarização automática no contexto multidocumento multilíngue: primeiras aproximações. Série de Relatórios do Núcleo Interinstitucional de Linguística Computacional NILC-ICMC-USP, 2012.

Published

2024-08-28

How to Cite

Português Português. Colloquium Exactarum. ISSN: 2178-8332, [S. l.], v. 16, n. 1, p. 1–11, e244728, 2024. Disponível em: https://journal.unoeste.br/index.php/ce/article/view/4728. Acesso em: 17 may. 2025.

Similar Articles

1-10 of 417

You may also start an advanced similarity search for this article.