Python脚本:聚类小分子数据集

举报
DrugAI 发表于 2021/07/15 04:35:53 2021/07/15
2k+ 0 0
【摘要】   聚类分子(Clustering molecules) 聚类是一种有价值的化学信息学技术,用于将大型化合物数据集合细分为单个小组相似化合物。其中一个优点是处理非常大的小分子数据集时特别有用。通常用于分析高通量筛选结果、虚拟筛选或对接研究的分析。   基于RDKit的Python脚本用于聚类分子 #!/usr/bin/python3# codin...

聚类分子(Clustering molecules)

聚类是一种有价值的化学信息学技术,用于将大型化合物数据集合细分为单个小组相似化合物。其中一个优点是处理非常大的小分子数据集时特别有用。通常用于分析高通量筛选结果、虚拟筛选或对接研究的分析。

基于RDKit的Python脚本用于聚类分子


      #!/usr/bin/python3
      # coding: utf-8
      #http://www.rdkit.org/docs/Cookbook.html - - -Clustering molecules
      #AspirinCode.20180725
      def ClusterFps(fps,cutoff=0.2):
      from rdkit import DataStructs
      from rdkit.ML.Cluster import Butina
      # first generate the distance matrix:
       dists = []
       nfps = len(fps)
      for i in range(1,nfps):
       sims = DataStructs.BulkTanimotoSimilarity(fps[i],fps[:i])
       dists.extend([1-x for x in sims])
      # now cluster the data:
       cs = Butina.ClusterData(dists,nfps,cutoff,isDistData=True)
      return cs
      from rdkit import Chem
      from r
  
 

文章来源: drugai.blog.csdn.net,作者:DrugAI,版权归原作者所有,如需转载,请联系作者。

原文链接:drugai.blog.csdn.net/article/details/81202123

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

作者其他文章

评论(0

抱歉,系统识别当前为高风险访问,暂不支持该操作

    全部回复

    上滑加载中

    设置昵称

    在此一键设置昵称,即可参与社区互动!

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。