RDKit | 基于RDKit的PandasTools加速数据分析

举报
DrugAI 发表于 2021/07/15 01:52:44 2021/07/15
2.2k+ 0 0
【摘要】                 从RDKit的基本用法中看到了化学信息学中使用的各种概念。大多数情况下,流程中处理的化合物数据存储在列表或字典类型变量中,该变量是python或numpy数组的基本数据类型。         另一方面,在使用pyth...

       

        从RDKit的基本用法中看到了化学信息学中使用的各种概念。大多数情况下,流程中处理的化合物数据存储在列表或字典类型变量中,该变量是python或numpy数组的基本数据类型。

        另一方面,在使用python进行数据科学和探索性数据分析中,主流是使用pandas Series和DataFrame数据类型。这次,将通过学习如何使用pandas DataFrames处理RDKit Mol对象来填补这一空白。

Pandas

        pandas是一个用于处理数据的python库,它是在python数据科学中心提供数据类型以及随之而来的各种操作的库。它特别擅长处理数字数据和时间序列数据中的异常值和缺失值。虽然numpy只能处理统一数值数据的数组,但pandas具有可以处理不均匀数据的功能。

数据结构

  • Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近。Series如今能保存不同种数据类型,字符串、boole

文章来源: drugai.blog.csdn.net,作者:DrugAI,版权归原作者所有,如需转载,请联系作者。

原文链接:drugai.blog.csdn.net/article/details/104790363

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

作者其他文章

评论(0

抱歉,系统识别当前为高风险访问,暂不支持该操作

    全部回复

    上滑加载中

    设置昵称

    在此一键设置昵称,即可参与社区互动!

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。