几行代码实现可视的数据集探索性分析
【摘要】 无论是数据分析还是数据建模,数据集的探索性分析都是基本操作。python为此提供了不少很有效的工具,可以通过几行代码就实现数据的探索性分析。1. pandas_profiling首先安装包pip install pandas_profiling然后只需要5行代码就可以实现数据的探索性分析import pandas as pdfrom pandas_profiling import Profi...
无论是数据分析还是数据建模,数据集的探索性分析都是基本操作。python为此提供了不少很有效的工具,可以通过几行代码就实现数据的探索性分析。
1. pandas_profiling
首先安装包
pip install pandas_profiling
然后只需要5行代码就可以实现数据的探索性分析
import pandas as pdfrom pandas_profiling import ProfileReport
data = pd.read_csv('sample.csv', encoding='gbk')profile = ProfileReport(data)profile.to_file('output.html')
这是数据集探索性分析的主页,可以看到它共有26个变量,其中24个是数据型变量。它一共有8400个样本,需要1.7M空间,且没有缺失值。
数据集共有77个警示,主要是指标间的共线性,还有少量分布上的警示。
Variables给出了每个变量的基本情况。
Interactions主要是给出了各指标间的相互影响,但图片没法正确显示中文。一种简单的办法是把样本里的中文全改成英文,否则需要修改字体。
Correlations给出了多种方法衡量的变量间的相关关系。
这一块主要是展示缺失值。
Sample显示了数据集的前10条和后10条。
pycharm新建工程问题:
在pycharm新建工程时我们还碰到一点小问题,注意要把Script Path改成py文件,否则没法直接运行。
2. Sweetviz
先安装包
pip install sweetviz
同样用5行代码就可以完成一次探索性分析
import pandas as pdimport sweetviz
data = pd.read_csv('sample.csv', encoding='gbk')s_report = sweetviz.analyze(data)s_report.show_html('soutput.html')
结果展示的内容比第一种方法还少一些,但视角效果更好。
相关性的展示需要将鼠标放到ASSOCIATIONS上。
鼠标放到某一变量上时,也会出现该变量的更详细的展示。
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)