Python脚本:聚类小分子数据集
【摘要】
聚类分子(Clustering molecules)
聚类是一种有价值的化学信息学技术,用于将大型化合物数据集合细分为单个小组相似化合物。其中一个优点是处理非常大的小分子数据集时特别有用。通常用于分析高通量筛选结果、虚拟筛选或对接研究的分析。
基于RDKit的Python脚本用于聚类分子
#!/usr/bin/python3# codin...
聚类分子(Clustering molecules)
聚类是一种有价值的化学信息学技术,用于将大型化合物数据集合细分为单个小组相似化合物。其中一个优点是处理非常大的小分子数据集时特别有用。通常用于分析高通量筛选结果、虚拟筛选或对接研究的分析。
基于RDKit的Python脚本用于聚类分子
#!/usr/bin/python3
# coding: utf-8
#http://www.rdkit.org/docs/Cookbook.html - - -Clustering molecules
#AspirinCode.20180725
def ClusterFps(fps,cutoff=0.2):
from rdkit import DataStructs
from rdkit.ML.Cluster import Butina
# first generate the distance matrix:
dists = []
nfps = len(fps)
for i in range(1,nfps):
sims = DataStructs.BulkTanimotoSimilarity(fps[i],fps[:i])
dists.extend([1-x for x in sims])
# now cluster the data:
cs = Butina.ClusterData(dists,nfps,cutoff,isDistData=True)
return cs
from rdkit import Chem
from r
文章来源: drugai.blog.csdn.net,作者:DrugAI,版权归原作者所有,如需转载,请联系作者。
原文链接:drugai.blog.csdn.net/article/details/81202123
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
作者其他文章
评论(0)