APLICAÇÃO DE MACHINE LEARNING NA IDENTIFICAÇÃO DE E-MAILS COMO SPAM
Palavras-chave:
classificação, algoritmos, acuráciaResumo
O serviço de e-mail é uma das principais ferramentas utilizadas nos dias de hoje e é um exemplo de que a tecnologia facilita a troca de informações. Por outro lado, um dos maiores empecilhos enfrentados pelos serviços de e-mail corresponde ao spam, nome dado à mensagem não solicitada recebida por um usuário. A aplicação de aprendizado de máquina (machine learning) vem ganhando destaque nos últimos anos como alternativa para identificação eficiente de spam. Nessa área, diferentes algoritmos podem ser avaliados para identificar qual apresenta melhor desempenho. O objetivo deste estudo consiste em identificar a capacidade dos algoritmos de aprendizado de máquina em classificar corretamente os e-mails e identificar também qual algoritmo obteve maior acurácia. A base de dados utilizada foi retirada da plataforma Kaggle e os dados foram processados pelo software Orange com quatro algoritmos: Random Forest (RF), K-Nearest Neighbors (KNN), Support Vector Machine (SVM) e Naive Bayes (NB). A divisão dos dados em treino e teste considerou 80% dos dados para treinamento e 20% para teste. Os resultados evidenciam que o Random Forest foi o algoritmo com melhor desempenho com acurácia de 99%.
Downloads
Referências
BASSIOUNI, M., ALI, M., & EL-DAHSHAN, E. A. (2018). Ham and Spam E-Mails Classification Using Machine Learning Techniques. Journal of Applied Security Research, 13(3), 315–331. https://doi.org/10.1080/19361610.2018.1463136
DADA, E. G., BASSI, J. S., CHIROMA, H., ABDULHAMID, S. M., ADETUNMBI, A. O., & AJIBUWA, O. E. (2019). Machine learning for email spam filtering: review, approaches and open research problems. Heliyon, 5(6), e01802. https://doi.org/10.1016/j.heliyon.2019.e01802
FARIS, H., AL-ZOUBI, A. M., HEIDARI, A. A., ALJARAH, I., MAFARJA, M., HASSONAH, M. A., & FUJITA, H. (2018). An Intelligent System for Spam Detection and Identification of the most Relevant Features based on Evolutionary Random Weight Networks. Information Fusion. https://doi.org/10.1016/j.inffus.2018.08.002
FREITAS C.O.A., DE CARVALHO J.M., OLIVEIRA J., AIRES S.B.K., SABOURIN R. (2007) Confusion Matrix Disagreement for Multiple Classifiers. In: Rueda L., Mery D., Kittler J. (eds) Progress in Pattern Recognition, Image Analysis and Applications. CIARP 2007. Lecture Notes in Computer Science, vol 4756. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-540-76725-1_41. https://doi.org/10.1007/978-3-540-76725-1_41
GLOBAL SOFTWARE SUPPORT. Random Forest Classifier – Machine Learning, 2018. Disponível em: < https://www.globalsoftwaresupport.com/random-forest-classifier-bagging-machine-learning/ >. Acesso em 22 de junho de 2020.
HAN, J. D.; KAMBER, M. (2006). Data Mining Concept and Tehniques. San Fransisco: Morgan Kauffman.
HU, Y.-H. F., ALI, A., HSIEH, C.-C. G., & WILLIAMS, A. (2019). Machine Learning Techniques for Classifying Malicious API Calls and N-Grams in Kaggle Data-set. 2019 SoutheastCon. https://doi.org/10.1109/SoutheastCon42311.2019.9020353
JOSÉ. I. KNN (K-Nearest Neighbors), 2018. Disponível em: < https://towardsdatascience.com/knn-k-nearest-neighbors-1-a4707b24bd1d >. Acesso em 22 de junho de 2020.
KARTHICK, S. (2017). Semi Supervised Hierarchy Forest Clustering and KNN Based Metric Learning Technique for Machine Learning System. Journal of Advanced Research in Dynamical and Control Systems. Vol. 9. Sp– 18 / 2017.
MITCHELL, T. M. (1997). Machine Learning. McGraw-Hill.
NAIK, A., & SAMANT, L. (2016). Correlation Review of Classification Algorithm Using Data Mining Tool: WEKA, Rapidminer, Tanagra, Orange and Knime. Procedia Computer Science, 85, 662–668. https://doi.org/10.1016/j.procs.2016.05.251
RAY. S. Understanding Support Vector Machine algorithm from examples (along with code), 2017. Disponível em: < https://www.analyticsvidhya.com/blog/2017/09/understaing-support-vector-machine-example-code/ >. Acesso em 22 de junho de 2020.
ROY, S. S., & VISWANATHAM, V. M. (2016). Classifying Spam Emails Using Artificial Intelligent Techniques. International Journal of Engineering Research in Africa, 22, 152–161. https://doi.org/10.4028/www.scientific.net/JERA.22.152
SUBASI, A., ALZAHRANI, S., ALJUHANI, A., & ALJEDANI, M. (2018). Comparison of Decision Tree Algorithms for Spam E-mail Filtering. 2018 1st International Conference on Computer Applications & Information Security (ICCAIS). https://doi.org/10.1109/CAIS.2018.8442016
VANDERPLAS, J., 2016. Python Data Science Handbook. O’Reilly and Associates.