使用基尼系数计算步骤和场景
1 简介
基尼系数(Gini coefficient)在经济学中是衡量收入或财富分配不平等程度的核心指标之一,广泛用于国家、地区或群体之间的比较。
通过一个简单的例子,详细说明**加权基尼系数(Weighted Gini Index)**的计算过程,以及它在 CART 决策树(Classification and Regression Tree) 中的应用。
2 基尼系数(Gini Index)的计算步骤
基尼系数用于衡量数据集的纯度。其计算公式为:
Gini(D)=1 - k=1
∑ p^2_k
K
其中: D:一个样本集合; K:类别数; p_k :类别 k 的样本比例。
- 加权基尼系数的计算(用于分裂点选择)
当某个特征 𝐴 把数据集 𝐷 划分成两个子集 𝐷1和 𝐷2时,加权基尼系数定义为:
Gini_A(D)= ∣D1∣/∣D∣ * Gini(D1) + ∣D2∣/∣D∣ * Gini(D2)
目标是选择使 加权基尼系数最小 的划分方式。
3 例子
假设有一个数据集如下(共 10 个样本):
样本ID 特征A 类别
1 高 是
2 高 是
3 高 否
4 中 否
5 中 否
6 中 是
7 低 是
8 低 否
9 低 是
10 低 否
我们尝试用“特征A”作为划分依据。
分组方式一:按 A 的取值“高” vs “中+低”
子集1(高):样本 1,2,3
类别是:2个“是”,1个“否”
Gini(D1)=1−(2/3)^2−(1/3)^2=0.444
子集2(中+低):样本 4-10(共7个)
“是”:4个(6,7,9,10)
“否”:3个(4,5,8)
Gini(D_2)=1−(4/7)^2 − (3/7)^2 ≈0.4898
加权基尼系数:
GiniA(D)=3/10*0.444 + (7/10)*0.4898 ≈0.476
划分方式:
划分1(高 vs 其他):加权Gini ≈ 0.476 ✅
所以,若有其他划分方式,但是Gini比0.476更大则说明划分1更好。
4 CART 树中如何使用加权基尼系数
在 CART 分类树中,构建过程如下:
对每个特征及可能的划分点,计算对应的加权基尼系数;
选择 使加权基尼系数最小的特征+划分点;
用该划分将数据集切分成两个子集;
对每个子集递归执行以上步骤;
停止条件包括:节点纯度足够高、样本数太少、到达最大深度等。
5 基尼系数使用场景
现实例子
国家/地区 基尼系数(约) 特点
瑞典 0.28 高税收高福利,分配较为平等
美国 0.41 财富集中度较高,不平等程度偏高
南非 0.63+ 世界上最不平等的国家之一
中国(2024) 0.46 左右 城乡差距和区域差异较明显
- 衡量收入/财富分配不平等程度
政府和国际组织(如联合国、世界银行、OECD)用基尼系数评估一个国家或地区的收入差距大小;
可用于制定再分配政策(如税收、社会保障);
-
政策效果评估
对比政策实施前后的基尼系数,判断如最低工资、社会救助、教育投资是否有效改善分配公平性。 -
跨国比较与发展研究
比较不同国家之间的基尼系数,了解其经济发展水平与分配结构;
研究收入不平等与社会问题(如暴力、教育落差、社会流动性)之间的关系。
- 判断社会稳定风险
高基尼系数国家常面临更高的:
犯罪率;
社会动荡;
民粹主义上升;
社会信任下降。
5 小结
基尼系数在经济学中的作用可以简要概括为:
一个国家社会“公平度”的体温计。
它帮助我们回答的问题是:
“收入分配公平吗?”
“政策是否让差距缩小了?”
“是否需要干预避免社会撕裂?”
- 点赞
- 收藏
- 关注作者
评论(0)