几行代码实现可视的数据集探索性分析

举报
darkpard 发表于 2022/09/10 08:01:01 2022/09/10
【摘要】 无论是数据分析还是数据建模,数据集的探索性分析都是基本操作。python为此提供了不少很有效的工具,可以通过几行代码就实现数据的探索性分析。1. pandas_profiling首先安装包pip install pandas_profiling然后只需要5行代码就可以实现数据的探索性分析import pandas as pdfrom pandas_profiling import Profi...

无论是数据分析还是数据建模,数据集的探索性分析都是基本操作。python为此提供了不少很有效的工具,可以通过几行代码就实现数据的探索性分析。


1. pandas_profiling

首先安装包

    pip install pandas_profiling

    然后只需要5行代码就可以实现数据的探索性分析

    import pandas as pdfrom pandas_profiling import ProfileReport
    data = pd.read_csv('sample.csv', encoding='gbk')profile = ProfileReport(data)profile.to_file('output.html')

    图片

    这是数据集探索性分析的主页,可以看到它共有26个变量,其中24个是数据型变量。它一共有8400个样本,需要1.7M空间,且没有缺失值。

    图片

    数据集共有77个警示,主要是指标间的共线性,还有少量分布上的警示。

    图片

    图片

    Variables给出了每个变量的基本情况。

    图片

    Interactions主要是给出了各指标间的相互影响,但图片没法正确显示中文。一种简单的办法是把样本里的中文全改成英文,否则需要修改字体。

    图片

    Correlations给出了多种方法衡量的变量间的相关关系。

    图片

    这一块主要是展示缺失值。

    图片

    Sample显示了数据集的前10条和后10条。

    pycharm新建工程问题:

    在pycharm新建工程时我们还碰到一点小问题,注意要把Script Path改成py文件,否则没法直接运行。


    图片


    2. Sweetviz

    先安装包

      pip install sweetviz

      同样用5行代码就可以完成一次探索性分析

        import pandas as pdimport sweetviz
        data = pd.read_csv('sample.csv', encoding='gbk')s_report = sweetviz.analyze(data)s_report.show_html('soutput.html')

        图片

        结果展示的内容比第一种方法还少一些,但视角效果更好。

        图片

        相关性的展示需要将鼠标放到ASSOCIATIONS上。

        图片

        鼠标放到某一变量上时,也会出现该变量的更详细的展示。

        【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
        • 点赞
        • 收藏
        • 关注作者

        评论(0

        0/1000
        抱歉,系统识别当前为高风险访问,暂不支持该操作

        全部回复

        上滑加载中

        设置昵称

        在此一键设置昵称,即可参与社区互动!

        *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

        *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。