Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
2.3. Ограничения фрагментных дескрипторов<br />
Несмотря на успешное применение и большую популярность фрагментных<br />
дескрипторов, они все-таки не лишены определенных ограничений. В литературе<br />
упоминается о трех основных проблемах, связанных с ними: (1) проблема<br />
«редких» либо «отсутствующих» фрагментов; (2) проблема адекватного<br />
представления стереохимической информации; (3) отсутствие физической интерпретации.<br />
Проблема «редких» и «отсутствующих» фрагментов [322] является, повидимому,<br />
наиболее серьезной из упомянутых трех. Действительно, число<br />
фрагментов (и, следовательно, количество фрагментных дескрипторов) практически<br />
неограниченно: оно значительно превышает число возможных химических<br />
структур. В результате этого любая химическая структура содержит такие<br />
фрагменты, которые отсутствуют (либо присутствуют в слишком малом количестве)<br />
в обучающей выборке, использованной для построения моделей<br />
SAR/QSAR/QSPR, необходимых для прогнозирования нужного свойства. Поскольку<br />
для фрагментных дескрипторов, соответствующих отсутствующим либо<br />
редким фрагментам, нельзя сколько-нибудь надежно оценить значение соответствующего<br />
регрессионного коэффициента (и, следовательно, оценить насколько<br />
он важен для прогнозирования определенного свойства), то в том случае,<br />
если он все-таки важен для прогнозирования данного свойства, оно не будет<br />
надежно предсказано. Отсюда возникает следующий парадокс, который,<br />
очевидно, противоречит всей практике применения фрагментных дескрипторов:<br />
нельзя надежно прогнозировать свойства органических соединений, отсутствующих<br />
в обучающей выборке.<br />
Одно из возможных практических рекомендаций, вытекающих из анализа<br />
проблемы «отсутствующих фрагментов», заключается в необходимости введения<br />
ограничений на классы фрагментов, вводимых в статистических анализ, в<br />
результате чего становится возможным определить область применимости моделей<br />
QSAR/QSAR/QSPR как множество молекулярных графов, не содержащих<br />
«проблематичных» (т.е. отсутствующих, редких либо принимающих постоян-<br />
101