Please use this identifier to cite or link to this item: https://repositorio.ufjf.br/jspui/handle/ufjf/17896
Files in This Item:
File Description SizeFormat 
deiversoneduardooliveiradealmeida.pdfPDF/A1.39 MBAdobe PDFThumbnail
View/Open
Type: Trabalho de Conclusão de Curso
Title: Aplicação de técnicas de machine learning na identificação de transações fraudulentas no e-commerce
Author: Almeida, Deiverson Eduardo Oliveira de
First Advisor: Zeller, Camila Borelli
Referee Member: Bessegato, Lupércio França
Referee Member: Magalhães, Tiago Maia
Resumo: Com a popularização da internet ao longo dos anos, comprar online tornou-se cada vez mais comum, principalmente devido à facilidade e ao conforto oferecidos, além das variadas formas de pagamento, sendo o cartão de crédito um dos principais meios utilizados em transações no comércio eletrônico (e-commerce). Esta facilidade, no entanto, também atrai fraudadores, que utilizam a internet para aplicar golpes cada vez mais elaborados. Dessa forma, torna-se imprescindível a identificação eficaz de transações fraudulentas para mitigar este risco e proteger os bons compradores. Um dos principais desafios na identificação de fraudes é o desbalanceamento dos dados, já que a fraude é um evento raro e naturalmente está presente em uma quantidade muito menor do que as transações legítimas, o que tende a diminuir o poder de discriminação das técnicas. Dentre as diversas técnicas de Machine Learning comumente utilizadas para este fim, duas delas, a Regressão Logística e a Floresta Aleatória, foram exploradas no presente trabalho. Além disso, testou-se a efetividade do balanceamento dos dados, feito através da técnica de amostragem chamada Undersampling, comparando os dois modelos de Machine Learning em cenários com dados balanceados e desbalanceados. Para medir o desempenho dos modelos, utilizou-se a métrica da Acurácia Balanceada, considerada adequada para lidar com dados desbalanceados. A aplicação foi feita utilizando uma base de dados, obtida no Kaggle, que contém dados artificiais gerados através de um simulador, com transações de cartão de crédito legítimas e fraudulentas.
Abstract: With the popularization of the internet over the years, online shopping has become increasingly common, mainly due to the ease and comfort offered, as well as the various payment methods available, with credit cards being one of the main means used in transactions in electronic commerce (e-commerce). However, this convenience also attracts fraudsters who use the internet to perpetrate increasingly sophisticated scams. Thus, it is essential to effectively identify fraudulent transactions to mitigate this risk and protect legitimate buyers. One of the main challenges in fraud detection is data imbalance, as fraud is a rare event and is naturally present in a much smaller quantity than legitimate transactions, which tends to reduce the discriminatory power of the techniques. Among the various Machine Learning techniques commonly used for this purpose, two of them, Logistic Regression and Random Forest, were explored in this work. Additionally, the effectiveness of data balancing was tested using the sampling technique called Undersampling, comparing the two Machine Learning models in scenarios with balanced and unbalanced data. To measure the performance of the models, the Balanced Accuracy metric was used, considered suitable for dealing with imbalanced data. The application was carried out using a dataset obtained from Kaggle, containing artificial data generated through a simulator, with legitimate and fraudulent credit card transactions.
Keywords: Detecção de fraude
Machine learning
Floresta aleatória
Regressão logística
Balanceamento de dados
Fraud detection
Machine learning
Random forest
Logistic regression
Data balancing
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA
Language: por
Country: Brasil
Publisher: Universidade Federal de Juiz de Fora (UFJF)
Institution Initials: UFJF
Department: ICE – Instituto de Ciências Exatas
Access Type: Acesso Aberto
Attribution-NonCommercial-NoDerivs 3.0 Brazil
Creative Commons License: http://creativecommons.org/licenses/by-nc-nd/3.0/br/
URI: https://repositorio.ufjf.br/jspui/handle/ufjf/17896
Issue Date: 15-Jul-2024
Appears in Collections:Estatística - TCC Graduação



This item is licensed under a Creative Commons License Creative Commons