Python脚本:聚类小分子数据集

举报
DrugAI 发表于 2021/07/15 04:35:53 2021/07/15
【摘要】   聚类分子(Clustering molecules) 聚类是一种有价值的化学信息学技术,用于将大型化合物数据集合细分为单个小组相似化合物。其中一个优点是处理非常大的小分子数据集时特别有用。通常用于分析高通量筛选结果、虚拟筛选或对接研究的分析。   基于RDKit的Python脚本用于聚类分子 #!/usr/bin/python3# codin...

 

聚类分子(Clustering molecules)

聚类是一种有价值的化学信息学技术,用于将大型化合物数据集合细分为单个小组相似化合物。其中一个优点是处理非常大的小分子数据集时特别有用。通常用于分析高通量筛选结果、虚拟筛选或对接研究的分析。

 

基于RDKit的Python脚本用于聚类分子


  
  1. #!/usr/bin/python3
  2. # coding: utf-8
  3. #http://www.rdkit.org/docs/Cookbook.html - - -Clustering molecules
  4. #AspirinCode.20180725
  5. def ClusterFps(fps,cutoff=0.2):
  6. from rdkit import DataStructs
  7. from rdkit.ML.Cluster import Butina
  8. # first generate the distance matrix:
  9. dists = []
  10. nfps = len(fps)
  11. for i in range(1,nfps):
  12. sims = DataStructs.BulkTanimotoSimilarity(fps[i],fps[:i])
  13. dists.extend([1-x for x in sims])
  14. # now cluster the data:
  15. cs = Butina.ClusterData(dists,nfps,cutoff,isDistData=True)
  16. return cs
  17. from rdkit import Chem
  18. from r

文章来源: drugai.blog.csdn.net,作者:DrugAI,版权归原作者所有,如需转载,请联系作者。

原文链接:drugai.blog.csdn.net/article/details/81202123

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。