Python 大数据的进行信用卡欺诈检测(附源码与注释)

举报
川川菜鸟 发表于 2022/05/07 22:13:07 2022/05/07
【摘要】 一、背景和目的 该数据集包含使用信用卡进行的金融交易的数据。这些数据是指欧洲运营商的客户,指的是 2013/9年期间。 该研究的目的是创建一个预测模型,该模型能够从通过数据集获得的“学习”中识别欺诈交...

一、背景和目的

该数据集包含使用信用卡进行的金融交易的数据。这些数据是指欧洲运营商的客户,指的是 2013/9年期间。

该研究的目的是创建一个预测模型,该模型能够从通过数据集获得的“学习”中识别欺诈交易。信用卡公司能够提前识别欺诈行为至关重要。

数据集内容
交易发生在两天内,总共 284,807 笔交易中有 492 笔是欺诈。数值变量是通过 PCA 变换(降维)获得的。

特征 V1、V2、… V28 是使用 PCA 获得的主成分,唯一没有使用 PCA 转换的特征是“时间”和“金额”。特征“时间”包含每个事务与数据集中第一个事务之间经过的秒数。特征“金额”是交易金额,该特征可用于依赖示例的成本敏感学习。特征“类”是响应变量,在欺诈的情况下取值为 1,否则为 0。

二、探索性数据集分析 (EDA)

导入数据:

# 导入模块
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt # para plotar gráficos
import seaborn as sea # para plotar gráficos
import warnings
warnings.filterwarnings("ignore")

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
df = pd.read_csv('creditcard.csv')

df.head()

  
 
  • 1
  • 2
  • 3

如下:
在这里插入图片描述
基本分析:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

三、模型创建

在这里插入图片描述
在这里插入图片描述
f1 score、precision/recall
在这里插入图片描述
在这里插入图片描述
省略一堆。。。。
中间省略的部分有:SMOTE - 合成少数过采样技术,使用交叉验证的决策树分类器,可以得到如下可视化图:
在这里插入图片描述
还有交叉验证

展示一下XGBoost模型
在这里插入图片描述

四、总结

综合上述使用的模型有:逻辑回归模型,决策树模型,XGBoost模型,随机森林。你可以根据这些模型的评分来选择一个最佳,在探索性数据集分析过程中使用到了比较多的数理统计概念,也有较多的数据可视化。

需要完整源码+v:hxgsrubxjogxeeag

文章来源: chuanchuan.blog.csdn.net,作者:川川菜鸟,版权归原作者所有,如需转载,请联系作者。

原文链接:chuanchuan.blog.csdn.net/article/details/124622377

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。