Use este identificador para citar ou linkar para este item: https://repositorio.ufjf.br/jspui/handle/ufjf/17896
Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
deiversoneduardooliveiradealmeida.pdfPDF/A1.39 MBAdobe PDFThumbnail
Visualizar/Abrir
Tipo: Trabalho de Conclusão de Curso
Título: Aplicação de técnicas de machine learning na identificação de transações fraudulentas no e-commerce
Autor(es): Almeida, Deiverson Eduardo Oliveira de
Primeiro Orientador: Zeller, Camila Borelli
Membro da banca: Bessegato, Lupércio França
Membro da banca: Magalhães, Tiago Maia
Resumo: Com a popularização da internet ao longo dos anos, comprar online tornou-se cada vez mais comum, principalmente devido à facilidade e ao conforto oferecidos, além das variadas formas de pagamento, sendo o cartão de crédito um dos principais meios utilizados em transações no comércio eletrônico (e-commerce). Esta facilidade, no entanto, também atrai fraudadores, que utilizam a internet para aplicar golpes cada vez mais elaborados. Dessa forma, torna-se imprescindível a identificação eficaz de transações fraudulentas para mitigar este risco e proteger os bons compradores. Um dos principais desafios na identificação de fraudes é o desbalanceamento dos dados, já que a fraude é um evento raro e naturalmente está presente em uma quantidade muito menor do que as transações legítimas, o que tende a diminuir o poder de discriminação das técnicas. Dentre as diversas técnicas de Machine Learning comumente utilizadas para este fim, duas delas, a Regressão Logística e a Floresta Aleatória, foram exploradas no presente trabalho. Além disso, testou-se a efetividade do balanceamento dos dados, feito através da técnica de amostragem chamada Undersampling, comparando os dois modelos de Machine Learning em cenários com dados balanceados e desbalanceados. Para medir o desempenho dos modelos, utilizou-se a métrica da Acurácia Balanceada, considerada adequada para lidar com dados desbalanceados. A aplicação foi feita utilizando uma base de dados, obtida no Kaggle, que contém dados artificiais gerados através de um simulador, com transações de cartão de crédito legítimas e fraudulentas.
Abstract: With the popularization of the internet over the years, online shopping has become increasingly common, mainly due to the ease and comfort offered, as well as the various payment methods available, with credit cards being one of the main means used in transactions in electronic commerce (e-commerce). However, this convenience also attracts fraudsters who use the internet to perpetrate increasingly sophisticated scams. Thus, it is essential to effectively identify fraudulent transactions to mitigate this risk and protect legitimate buyers. One of the main challenges in fraud detection is data imbalance, as fraud is a rare event and is naturally present in a much smaller quantity than legitimate transactions, which tends to reduce the discriminatory power of the techniques. Among the various Machine Learning techniques commonly used for this purpose, two of them, Logistic Regression and Random Forest, were explored in this work. Additionally, the effectiveness of data balancing was tested using the sampling technique called Undersampling, comparing the two Machine Learning models in scenarios with balanced and unbalanced data. To measure the performance of the models, the Balanced Accuracy metric was used, considered suitable for dealing with imbalanced data. The application was carried out using a dataset obtained from Kaggle, containing artificial data generated through a simulator, with legitimate and fraudulent credit card transactions.
Palavras-chave: Detecção de fraude
Machine learning
Floresta aleatória
Regressão logística
Balanceamento de dados
Fraud detection
Machine learning
Random forest
Logistic regression
Data balancing
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA
Idioma: por
País: Brasil
Editor: Universidade Federal de Juiz de Fora (UFJF)
Sigla da Instituição: UFJF
Departamento: ICE – Instituto de Ciências Exatas
Tipo de Acesso: Acesso Aberto
Attribution-NonCommercial-NoDerivs 3.0 Brazil
Licenças Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/br/
URI: https://repositorio.ufjf.br/jspui/handle/ufjf/17896
Data do documento: 15-Jul-2024
Aparece nas coleções:Estatística - TCC Graduação



Este item está licenciado sob uma Licença Creative Commons Creative Commons