使用 Pandas GUI 进行数据探索

毛利 发表于 2022/01/05 23:36:01 2022/01/05
【摘要】 数据预处理是数据科学管道的重要组成部分,需要找出数据中的各种不规则性,操作您的特征等。 Pandas 是我们经常使用的一种工具,用于处理数据,还有 seaborn 和 matplotlib用于数据可视化。...

数据预处理是数据科学管道的重要组成部分,需要找出数据中的各种不规则性,操作您的特征等。 Pandas 是我们经常使用的一种工具,用于处理数据,还有 seaborn 和 matplotlib用于数据可视化。PandasGUI 是一个库,通过提供可用于制作

安装 PandasGUI

使用pip 命令像安装任何其他 python 库一样安装 PandasGUI。相同的命令是:

pip install pandasgui

  
 
  • 1

要在 PandasGUI 中读取 文件,我们需要使用show()函数。让我们从将它与 pandas 一起导入开始。数据集是titanic

import pandas as pd
from pandasgui import show
from pandasgui.datasets import titanic
show(titanic)

  
 
  • 1
  • 2
  • 3
  • 4

这是我们的数据框,我们可以滚动查看数据。可以看到表示 NaN 值的空单元格。可以通过单击单元格并编辑其值来编辑数据。只需单击特定列即可根据特定列对数据框进行排序。在下图中,我们可以通过单击fare
列对数据框进行排序。

PandasGUI 中的过滤器

假设我们想查看 MSSubClass 的值大于或等于 120 的行。在 Pandas 中,我们可以使用以下命令:

titanic[titanic['age'] >= 20]

  
 
  • 1

PandasGUI 为我们提供了过滤器,可以在其中编写查询表达式来过滤数据。上述查询表达式将是:

Pandas GUI 中的统计信息

汇总统计数据为您提供了数据分布的概览。在pandas中,我们使用describe()方法来获取数据的统计信息。

titanic.describe()

  
 
  • 1


在 PandasGUI 中,可以转到统计部分并获取每列的统计信息。

PandasGUI 中的数据可视化

数据可视化通常不是 Pandas 的用途,我们使用 matplotlib、seaborn、plotly 等库。但 PandasGUI 在 Grapher 部分下提供了使用 plotly 绘制的交互式图形。


我们通过将fare拖放到x下来创建fare的直方图。


除了这些,还可以创建箱线图、3d 散点图、线图等。如果您想快速概览数据,从检查汇总统计数据到绘制数据,PandasGUI 是一个很好的工具,可以轻松完成,无需代码。

文章来源: maoli.blog.csdn.net,作者:刘润森!,版权归原作者所有,如需转载,请联系作者。

原文链接:maoli.blog.csdn.net/article/details/122300137

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。