RDKit | 基于不同描述符和指纹的机器学习模型预测logP
【摘要】 log P(油水分配系数)是确定化合物是否适合用作药物的最重要属性之一。当前,用于计算机预测log P的大多数可用回归模型都在实验测得的log P值(PHYSPROP数据库)。但是,该数据库中的大多数化合物并不高度代表药物样化学空间。不幸的是,当前缺乏可用于训练更好的预测工具的公开可用的实验log P数据集。
&nbs...
log P(油水分配系数)是确定化合物是否适合用作药物的最重要属性之一。当前,用于计算机预测log P的大多数可用回归模型都在实验测得的log P值(PHYSPROP数据库)。但是,该数据库中的大多数化合物并不高度代表药物样化学空间。不幸的是,当前缺乏可用于训练更好的预测工具的公开可用的实验log P数据集。
此测试使用论文中发布的实验log P数据:“Large, chemically diverse dataset of log P measurements for benchmarking studies” [1]。
到目前为止,用于log P预测的许多可用工具都基于物理描述符,例如原子类型计数或极性表面积或拓扑描述符。这里将计算分子的不同物理描述符以及结构指纹,并使用三种不同的回归模型(神经网络,随机森林和支持向量机)对它们的性能进行基准测试。
导入库和utility模块
-
import numpy as np
-
import matplotlib.pyplot as plt
-
import pandas as pd
-
-
from rdkit import Chem
-
from rdkit.Chem import AllChem
-
from rdkit.Chem import Descriptors
-
-
from utility import FeatureGenerator
-
-
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
-
from sk
文章来源: drugai.blog.csdn.net,作者:DrugAI,版权归原作者所有,如需转载,请联系作者。
原文链接:drugai.blog.csdn.net/article/details/102475761
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)