Aplicação de técnicas de machine learning na identificação de transações fraudulentas no e-commerce

Almeida, Deiverson Eduardo Oliveira de

Please use this identifier to cite or link to this item: https://repositorio.ufjf.br/jspui/handle/ufjf/17896

Files in This Item:

File	Description	Size	Format
deiversoneduardooliveiradealmeida.pdf	PDF/A	1.39 MB	Adobe PDF	View/Open

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Zeller, Camila Borelli	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/6671405481844657	pt_BR
dc.contributor.referee1	Bessegato, Lupércio França	-
dc.contributor.referee1Lattes	http://lattes.cnpq.br/1996265064545965	pt_BR
dc.contributor.referee2	Magalhães, Tiago Maia	-
dc.contributor.referee2Lattes	http://lattes.cnpq.br/7953363504273397	pt_BR
dc.creator	Almeida, Deiverson Eduardo Oliveira de	-
dc.creator.Lattes	http://lattes.cnpq.br	pt_BR
dc.date.accessioned	2024-12-09T13:36:19Z	-
dc.date.available	2024-12-06	-
dc.date.available	2024-12-09T13:36:19Z	-
dc.date.issued	2024-07-15	-
dc.identifier.uri	https://repositorio.ufjf.br/jspui/handle/ufjf/17896	-
dc.description.abstract	With the popularization of the internet over the years, online shopping has become increasingly common, mainly due to the ease and comfort offered, as well as the various payment methods available, with credit cards being one of the main means used in transactions in electronic commerce (e-commerce). However, this convenience also attracts fraudsters who use the internet to perpetrate increasingly sophisticated scams. Thus, it is essential to effectively identify fraudulent transactions to mitigate this risk and protect legitimate buyers. One of the main challenges in fraud detection is data imbalance, as fraud is a rare event and is naturally present in a much smaller quantity than legitimate transactions, which tends to reduce the discriminatory power of the techniques. Among the various Machine Learning techniques commonly used for this purpose, two of them, Logistic Regression and Random Forest, were explored in this work. Additionally, the effectiveness of data balancing was tested using the sampling technique called Undersampling, comparing the two Machine Learning models in scenarios with balanced and unbalanced data. To measure the performance of the models, the Balanced Accuracy metric was used, considered suitable for dealing with imbalanced data. The application was carried out using a dataset obtained from Kaggle, containing artificial data generated through a simulator, with legitimate and fraudulent credit card transactions.	pt_BR
dc.description.resumo	Com a popularização da internet ao longo dos anos, comprar online tornou-se cada vez mais comum, principalmente devido à facilidade e ao conforto oferecidos, além das variadas formas de pagamento, sendo o cartão de crédito um dos principais meios utilizados em transações no comércio eletrônico (e-commerce). Esta facilidade, no entanto, também atrai fraudadores, que utilizam a internet para aplicar golpes cada vez mais elaborados. Dessa forma, torna-se imprescindível a identificação eficaz de transações fraudulentas para mitigar este risco e proteger os bons compradores. Um dos principais desafios na identificação de fraudes é o desbalanceamento dos dados, já que a fraude é um evento raro e naturalmente está presente em uma quantidade muito menor do que as transações legítimas, o que tende a diminuir o poder de discriminação das técnicas. Dentre as diversas técnicas de Machine Learning comumente utilizadas para este fim, duas delas, a Regressão Logística e a Floresta Aleatória, foram exploradas no presente trabalho. Além disso, testou-se a efetividade do balanceamento dos dados, feito através da técnica de amostragem chamada Undersampling, comparando os dois modelos de Machine Learning em cenários com dados balanceados e desbalanceados. Para medir o desempenho dos modelos, utilizou-se a métrica da Acurácia Balanceada, considerada adequada para lidar com dados desbalanceados. A aplicação foi feita utilizando uma base de dados, obtida no Kaggle, que contém dados artificiais gerados através de um simulador, com transações de cartão de crédito legítimas e fraudulentas.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Juiz de Fora (UFJF)	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	ICE – Instituto de Ciências Exatas	pt_BR
dc.publisher.initials	UFJF	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Detecção de fraude	pt_BR
dc.subject	Machine learning	pt_BR
dc.subject	Floresta aleatória	pt_BR
dc.subject	Regressão logística	pt_BR
dc.subject	Balanceamento de dados	pt_BR
dc.subject	Fraud detection	pt_BR
dc.subject	Machine learning	pt_BR
dc.subject	Random forest	pt_BR
dc.subject	Logistic regression	pt_BR
dc.subject	Data balancing	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA	pt_BR
dc.title	Aplicação de técnicas de machine learning na identificação de transações fraudulentas no e-commerce	pt_BR
dc.type	Trabalho de Conclusão de Curso	pt_BR
Appears in Collections:	Estatística - TCC Graduação

Show simple item record Recommend this item

This item is licensed under a Creative Commons License