【Kaggle】欺诈检测 IEEE-CIS Fraud Detection(更新ing)

举报
野猪佩奇996 发表于 2022/03/10 01:09:46 2022/03/10
【摘要】 文章目录 一、题目背景二、反欺诈模型思路Reference 一、题目背景 kaggle赛题:https://www.kaggle.com/c/ieee-fraud-detection/di...

一、题目背景

kaggle赛题:https://www.kaggle.com/c/ieee-fraud-detection/discussion/101203
从客户的交易行为中,找到欺诈的行为,典型的二分类任务。数据集中坏客户有20000+,好坏样本比例为29:1,数据集有一张副表,表的字段解释:

交易表(transaction表):

TransactionID:主键
TransactionDT:来自给定参考日期时间的timedelta(不是实际时间戳)
TransactionAMT:以美元计算的交易付款金额
ProductCD:产品代码,每笔交易的产品类型
card1 ~ card6:支付卡信息,如卡类型,卡类别,发行银行,国家/地区等。
addr1~add2:支付卡的地址
dist~dist2:距离
P_emaildomain 和 R_emaildomain:购买者和收件人电子邮件域
C1-C14:计数,例如发现与支付卡相关联的地址数等,实际含义被掩盖。
D1-D15:timedelta,时间间隔,例如当前交易和上次交易之间的间隔天数等。
M1-M9:匹配,例如卡片上的姓名和地址等。
Vxxx:Vesta设计了丰富的特征,包括排名,计数和其他实体关系。
类别特征:
ProductCD
card1 - card6
addr1,addr2
P emaildomain R emaildomain
M1 - M9

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18

身份表(identity)表:

TransactionID:主键
该表中的变量是与交易相关的身份信息 - 网络连接信息(IP,ISP,代理等)和数字签名(UA /浏览器/操作系统/版本等)。
它们由Vesta的欺诈保护系统和数字安全合作伙伴收集。
(字段名称被屏蔽,并且不会提供成对字典用于隐私保护和合同协议)

DeviceType 用户使用的设备类型
DeviceInfo  用户使用的设备信息
id 1 ~ id 38  网络连接、数字签名等相关特征
类别特征:
DeviceType 
DeviceInfo  
id 12 ~ id 38 

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12

对于kaggle这样的数据科学比赛一般的流程:
在这里插入图片描述

二、反欺诈模型思路

在这里插入图片描述

  • 目标列Class呈现较大的样本不平衡,会对模型学习造成困扰。样本不平衡常用的解决方法有过采样和欠采样,我们此处处理样本不平衡,可以用过采样,具体操作使用SMOTE(Synthetic Minority Oversampling Technique)。
  • 更新ing。。。。。。

Reference

[1] https://www.cnblogs.com/tan2810/p/10594752.html
[2] kaggle支付反欺诈:IEEE-CIS Fraud Detection第一名方案复现过程

文章来源: andyguo.blog.csdn.net,作者:山顶夕景,版权归原作者所有,如需转载,请联系作者。

原文链接:andyguo.blog.csdn.net/article/details/123364547

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。