https://repositorio.ufjf.br/jspui/handle/ufjf/17896
File | Description | Size | Format | |
---|---|---|---|---|
deiversoneduardooliveiradealmeida.pdf | PDF/A | 1.39 MB | Adobe PDF | View/Open |
Type: | Trabalho de Conclusão de Curso |
Title: | Aplicação de técnicas de machine learning na identificação de transações fraudulentas no e-commerce |
Author: | Almeida, Deiverson Eduardo Oliveira de |
First Advisor: | Zeller, Camila Borelli |
Referee Member: | Bessegato, Lupércio França |
Referee Member: | Magalhães, Tiago Maia |
Resumo: | Com a popularização da internet ao longo dos anos, comprar online tornou-se cada vez mais comum, principalmente devido à facilidade e ao conforto oferecidos, além das variadas formas de pagamento, sendo o cartão de crédito um dos principais meios utilizados em transações no comércio eletrônico (e-commerce). Esta facilidade, no entanto, também atrai fraudadores, que utilizam a internet para aplicar golpes cada vez mais elaborados. Dessa forma, torna-se imprescindível a identificação eficaz de transações fraudulentas para mitigar este risco e proteger os bons compradores. Um dos principais desafios na identificação de fraudes é o desbalanceamento dos dados, já que a fraude é um evento raro e naturalmente está presente em uma quantidade muito menor do que as transações legítimas, o que tende a diminuir o poder de discriminação das técnicas. Dentre as diversas técnicas de Machine Learning comumente utilizadas para este fim, duas delas, a Regressão Logística e a Floresta Aleatória, foram exploradas no presente trabalho. Além disso, testou-se a efetividade do balanceamento dos dados, feito através da técnica de amostragem chamada Undersampling, comparando os dois modelos de Machine Learning em cenários com dados balanceados e desbalanceados. Para medir o desempenho dos modelos, utilizou-se a métrica da Acurácia Balanceada, considerada adequada para lidar com dados desbalanceados. A aplicação foi feita utilizando uma base de dados, obtida no Kaggle, que contém dados artificiais gerados através de um simulador, com transações de cartão de crédito legítimas e fraudulentas. |
Abstract: | With the popularization of the internet over the years, online shopping has become increasingly common, mainly due to the ease and comfort offered, as well as the various payment methods available, with credit cards being one of the main means used in transactions in electronic commerce (e-commerce). However, this convenience also attracts fraudsters who use the internet to perpetrate increasingly sophisticated scams. Thus, it is essential to effectively identify fraudulent transactions to mitigate this risk and protect legitimate buyers. One of the main challenges in fraud detection is data imbalance, as fraud is a rare event and is naturally present in a much smaller quantity than legitimate transactions, which tends to reduce the discriminatory power of the techniques. Among the various Machine Learning techniques commonly used for this purpose, two of them, Logistic Regression and Random Forest, were explored in this work. Additionally, the effectiveness of data balancing was tested using the sampling technique called Undersampling, comparing the two Machine Learning models in scenarios with balanced and unbalanced data. To measure the performance of the models, the Balanced Accuracy metric was used, considered suitable for dealing with imbalanced data. The application was carried out using a dataset obtained from Kaggle, containing artificial data generated through a simulator, with legitimate and fraudulent credit card transactions. |
Keywords: | Detecção de fraude Machine learning Floresta aleatória Regressão logística Balanceamento de dados Fraud detection Machine learning Random forest Logistic regression Data balancing |
CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA |
Language: | por |
Country: | Brasil |
Publisher: | Universidade Federal de Juiz de Fora (UFJF) |
Institution Initials: | UFJF |
Department: | ICE – Instituto de Ciências Exatas |
Access Type: | Acesso Aberto Attribution-NonCommercial-NoDerivs 3.0 Brazil |
Creative Commons License: | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
URI: | https://repositorio.ufjf.br/jspui/handle/ufjf/17896 |
Issue Date: | 15-Jul-2024 |
Appears in Collections: | Estatística - TCC Graduação |
This item is licensed under a Creative Commons License