На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

гом (Yang) и Мунтцем (Muntz) [295]; CMTreeMiner этих же авторов [296]. Первоначально этот подход использовался для классификации химических структур в рамках исследований SAR [297, 298]. Специальная модификация этого подхода с применением методики «добычи взвешенных подструктур» (weighted substructure mining) в сочетании со статистической процедурой linear programming boosting [299] позволяет строить количественные QSAR/QSPR регрессионные модели с использованием «добытых» фрагментных дескрипторов [288]. 2.2.1.10. Фрагменты на основе случайных подграфов Успех применения различных схем фрагментации в значительной степени зависит от начального выбора нужных типов фрагментов. Поскольку практически невозможно рассмотреть все возможные фрагменты из-за их гигантского числа, всегда приходится ограничиваться их небольшим подмножеством. К сожалению, любая попытка ограничиться каким-либо их фиксированным типом, например, только цепочками с заранее заданной максимальной длиной, чревата риском упустить из рассмотрения очень важные для решения данной задачи фрагменты. Одно из возможных решений этой проблемы состоит в использовании рассмотренных выше «добытых» (см. пункт 2.2.1.9) либо, для чисто классификационных задач, МОП-фрагментов (см. пункт 2.2.1.5). Альтернативой этому является использование стохастических процедур генерации подструктурных фрагментов. Интересная работа в этом направлении была опубликована Грахамом (Graham) с соавт., которые получили «записи на ленту» (“tape recordings”) химических структур при помощи фрагментов атом-связь-атом, извлекаемых из молекулярных графов при помощи процедуры случайных блужданий (random walks) [300]. Для оценки структурного подобия химических соединений Батиста (Batista), Годден (Godden) и Байорат (Bajorath) разработали метод MolBlaster, основанный на генерации популяций фрагментов путем случайного удаления ребер в молекулярных графах [301]. Этот метод с успехов был использован 86

при проведении виртуального скрининга, основанного на поиске по подобию [302]. 2.2.1.11. Библиотечные фрагменты Во многих работах применяются фиксированные наборы фрагментов, взятых из библиотеки. Подобные библиотеки обычно содержат фрагменты, которые уже показали пользу своего использования при прогнозировании сходных свойств. Большинство аддитивных схем и методов группового вклада были разработаны на основе фиксированных наборов фрагментов. В некоторых исследованиях SAR/QSAR/QSPR также рассматриваются фиксированные наборы библиотечных фрагментов. В подобных случаях структуры фрагментов обычно задаются при помощи специального языка либо линейной нотации, специально созданных для описания списков фрагментов. В качестве характерных примеров можно привести: (а) экспертную систему DEREK, предназначенную для предсказания токсичности органических соединений, в которой используется для описания фрагментов специальный язык PATRAN [303]; (б) систему прогнозирования коэффициента распределения в системе октанол-вода Log P, в которой для кодирования фрагментов использован язык программирования Prolog [304]; (в) метод ALogP [180] для прогнозирования этого же свойства, основанный на использовании линейной нотации SMARTS line notation (реализованной в программном комплексе MOE (Molecular Operating Environment) [248]) для спецификации фрагментов. 2.2.2. Классификация по типам молекулярных структур Молекулярные графы могут быть использованы для описания не только обычных молекулярных структур, но и супрамолекулярных комплексов, химических реакций, полимеров с периодической структурой и других видов химических объектов. Во всех этих случаях фрагментные дескрипторы могут быть применены для представления их структур. 87

гом (Yang) и Мунтцем (Muntz) [295]; CMTreeMiner этих же авторов [296]. Первоначально<br />

этот подход использовался для классификации химических структур<br />

в рамках исследований SAR [297, 298]. Специальная модификация этого<br />

подхода с применением методики «добычи взвешенных подструктур» (weighted<br />

substructure mining) в сочетании со статистической процедурой linear programming<br />

boosting [299] позволяет строить количественные QSAR/QSPR регрессионные<br />

модели с использованием «добытых» фрагментных дескрипторов [288].<br />

2.2.1.10. Фрагменты на основе случайных подграфов<br />

Успех применения различных схем фрагментации в значительной степени<br />

зависит от начального выбора нужных типов фрагментов. Поскольку практически<br />

невозможно рассмотреть все возможные фрагменты из-за их гигантского<br />

числа, всегда приходится ограничиваться их небольшим подмножеством.<br />

К сожалению, любая попытка ограничиться каким-либо их фиксированным типом,<br />

например, только цепочками с заранее заданной максимальной длиной,<br />

чревата риском упустить из рассмотрения очень важные для решения данной<br />

задачи фрагменты. Одно из возможных решений этой проблемы состоит в использовании<br />

рассмотренных выше «добытых» (см. пункт 2.2.1.9) либо, для чисто<br />

классификационных задач, МОП-фрагментов (см. пункт 2.2.1.5). Альтернативой<br />

этому является использование стохастических процедур генерации подструктурных<br />

фрагментов.<br />

Интересная работа в этом направлении была опубликована Грахамом<br />

(Graham) с соавт., которые получили «записи на ленту» (“tape recordings”) химических<br />

структур при помощи фрагментов атом-связь-атом, извлекаемых из<br />

молекулярных графов при помощи процедуры случайных блужданий (random<br />

walks) [300]. Для оценки структурного подобия химических соединений Батиста<br />

(Batista), Годден (Godden) и Байорат (Bajorath) разработали метод MolBlaster,<br />

основанный на генерации популяций фрагментов путем случайного удаления<br />

ребер в молекулярных графах [301]. Этот метод с успехов был использован<br />

86

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!