Python脚本:聚类小分子数据集
【摘要】
聚类分子(Clustering molecules)
聚类是一种有价值的化学信息学技术,用于将大型化合物数据集合细分为单个小组相似化合物。其中一个优点是处理非常大的小分子数据集时特别有用。通常用于分析高通量筛选结果、虚拟筛选或对接研究的分析。
基于RDKit的Python脚本用于聚类分子
#!/usr/bin/python3# codin...
聚类分子(Clustering molecules)
聚类是一种有价值的化学信息学技术,用于将大型化合物数据集合细分为单个小组相似化合物。其中一个优点是处理非常大的小分子数据集时特别有用。通常用于分析高通量筛选结果、虚拟筛选或对接研究的分析。
基于RDKit的Python脚本用于聚类分子
-
#!/usr/bin/python3
-
# coding: utf-8
-
#http://www.rdkit.org/docs/Cookbook.html - - -Clustering molecules
-
#AspirinCode.20180725
-
-
def ClusterFps(fps,cutoff=0.2):
-
from rdkit import DataStructs
-
from rdkit.ML.Cluster import Butina
-
-
# first generate the distance matrix:
-
dists = []
-
nfps = len(fps)
-
for i in range(1,nfps):
-
sims = DataStructs.BulkTanimotoSimilarity(fps[i],fps[:i])
-
dists.extend([1-x for x in sims])
-
-
# now cluster the data:
-
cs = Butina.ClusterData(dists,nfps,cutoff,isDistData=True)
-
return cs
-
-
from rdkit import Chem
-
from r
文章来源: drugai.blog.csdn.net,作者:DrugAI,版权归原作者所有,如需转载,请联系作者。
原文链接:drugai.blog.csdn.net/article/details/81202123
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)