Dataset:GiveMeSomeCredit数据集的简介、下载、使用方法之详细攻略

举报
一个处女座的程序猿 发表于 2021/12/27 23:10:17 2021/12/27
【摘要】 Dataset:GiveMeSomeCredit数据集的简介、下载、使用方法之详细攻略 目录 GiveMeSomeCredit数据集的简介 1、数据集基本描述 2、EDA后总结 3、数据集基本形状 Give Me Some Credit数据集的下载 Give Me Some Credit数据集的使用方法 ...

Dataset:GiveMeSomeCredit数据集的简介、下载、使用方法之详细攻略

目录

GiveMeSomeCredit数据集的简介

1、数据集基本描述

2、EDA后总结

3、数据集基本形状

Give Me Some Credit数据集的下载

Give Me Some Credit数据集的使用方法


GiveMeSomeCredit数据集的简介

       银行在市场经济中起着至关重要的作用。他们决定谁可以获得资金,以什么条件,可以做出或打破投资决定。要使市场和社会正常运转,个人和企业都需要获得信贷。
       基于Give Me Some Credit数据集,通过预测某人在未来两年内经历财务困境的可能性,改进信用评分的先进水平。信用评分算法,猜测违约的可能性,是银行用来决定是否应该发放贷款的方法。这项竞赛要求参与者通过预测某人在未来两年内遭遇财务困境的可能性,来提高信用评分的技术水平。这项竞赛的目标是建立一个借款人可以用来帮助做出最佳财务决策的模型。该网站提供了25万名借款人的历史数据,奖金总额为5000美元(第一名3000美元,第二名1500美元,第三名500美元)。

1、数据集基本描述

Variable Name

Description/EDA

Type

EDA

11

SeriousDlqin2yrs

Person experienced 90 days past due delinquency or worse

逾期90天或更糟

Y/N

一般逾期超过90天以上,客户标记为0(坏客户),其余标记为1(好客户)。

本数据集中,大约6%的样本违约。

1

age

Age of borrower in years

借款人年龄(以年为单位)

integer

可知有更多的年轻人违约,而且总体分布似乎还不错

2

MonthlyIncome

Monthly income

月收入

real

存在缺失值,29731(19.82%)

数值分布偏斜,我们可以考虑用中位数进行插补。

我们还可以考虑用正态分布值及其均值和标准差进行插补。

3

NumberOfDependents

Number of dependents in family excluding themselves (spouse, children etc.)

家庭受扶养人数(配偶、子女等除外)

integer

存在缺失值,3924 (2.61%)

我们可以考虑用它的众数进行插补,众数为零。

4

DebtRatio

Monthly debt payments, alimony,living costs divided by monthy gross income

每月的债务支付,赡养费,生活费除以每月的总收入

percentage

2.5%的客户的负债大约是他们所拥有资产的3490倍或更多;

对于月收入在2.5%的人来说,只有185人的月收入值是0或1;

这185人中有164人有两种不同的类型,第一种是没有月收入的人没有违约,第二种是有月收入的人有违约。

5

NumberOfOpenCreditLinesAndLoans

Number of Open loans (installment like car loan or mortgage) and Lines of credit (e.g. credit cards)

公开贷款(分期付款,如汽车贷款或抵押贷款)和信用额度(如信用卡)

integer

6

NumberRealEstateLoansOrLines

Number of mortgage and real estate loans including home equity lines of credit

按揭和房地产贷款的数量,包括房屋净值信贷额度

integer

7

RevolvingUtilizationOfUnsecuredLines

Total balance on credit cards and personal lines of credit except real estate and no installment debt like car loans divided by the sum of credit limits

除房地产和汽车贷款等无分期付款债务外,信用卡和个人信用额度余额除以信用额度总和

percentage

定义为所欠款项总额与总信用额度之比率;值的分布是右偏的,考虑删除离群值;

预计随着这个值的增加,违约的人的比例也会增加;但是,我们可以看到,由于该列的最小值设置为13,因此违约者的比例小于属于欠款总额不超过总信用额度的客户池的比例。

因此,我们应该删除那些 RevolvingUtilizationOfUnsecuredLines 的值大于等于 13 的样本。

8

NumberOfTime30-59DaysPastDueNotWorse

Number of times borrower has been 30-59 days past due but no worse in the last 2 years.

借款人逾期30-59天的次数,但在过去两年没有更糟。

integer

有趣的是,不存在逾期(13~96)次的样本

9

NumberOfTime60-89DaysPastDueNotWorse

Number of times borrower has been 60-89 days past due but no worse in the last 2 years.

借款人逾期60-89天的次数,但在过去两年没有更糟。

integer

有趣的是,不存在逾期(11~96)次的样本

10

NumberOfTimes90DaysLate

Number of times borrower has been 90 days or more past due.

借款人逾期90天或以上的次数。

integer

有趣的是,不存在逾期(17~96)次的样本

2、EDA后总结

         通过可视化分析后可知,当NumberOfTimes90DaysLate的值高于17时,有267个样例,其中三个列NumberOfTimes90DaysLate、NumberOfTime60-89DaysPastDueNotWorse、NumberOfTime30-59DaysPastDueNotWorse共享相同的值,特别是96和98。我们可以看到,分别分享96和98的相同值是不符合逻辑的,因为微不足道的计算可以揭示,30天过期96次,一个人在2年的时间跨度内是不可能的

NumberOfTime30-59DaysPastDueNotWorse

NumberOfTime60-89DaysPastDueNotWorse

NumberOfTimes90DaysLate

0     126018

1      16033

2       4598

3       1754

4        747

5        342

6        140

7         54

8         25

9         12

10         4

11         1

12         2

13         1

96         5

98       264

0     142396

1       5731

2       1118

3        318

4        105

5         34

6         16

7          9

8          2

9          1

11         1

96         5

98       264

0     141662

1       5243

2       1555

3        667

4        291

5        131

6         80

7         38

8         21

9         19

10         8

11         5

12         2

13         4

14         2

15         2

17         1

96         5

98       264

3、数据集基本形状


  
  1. # Column Non-Null Count Dtype
  2. --- ------ -------------- -----
  3. 0 Unnamed: 0 150000 non-null int64
  4. 1 SeriousDlqin2yrs 150000 non-null int64
  5. 2 RevolvingUtilizationOfUnsecuredLines 150000 non-null float64
  6. 3 age 150000 non-null int64
  7. 4 NumberOfTime30-59DaysPastDueNotWorse 150000 non-null int64
  8. 5 DebtRatio 150000 non-null float64
  9. 6 MonthlyIncome 120269 non-null float64
  10. 7 NumberOfOpenCreditLinesAndLoans 150000 non-null int64
  11. 8 NumberOfTimes90DaysLate 150000 non-null int64
  12. 9 NumberRealEstateLoansOrLines 150000 non-null int64
  13. 10 NumberOfTime60-89DaysPastDueNotWorse 150000 non-null int64
  14. 11 NumberOfDependents 146076 non-null float64
  15. dtypes: float64(4), int64(8)
  16. memory usage: 13.7 MB

Give Me Some Credit数据集的下载

数据集下载Give Me Some Credit | Kaggle


Give Me Some Credit数据集的使用方法

更新中……

文章来源: yunyaniu.blog.csdn.net,作者:一个处女座的程序猿,版权归原作者所有,如需转载,请联系作者。

原文链接:yunyaniu.blog.csdn.net/article/details/122163721

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。