На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

рамках одноуровневого подхода для описания химических соединений были использованы наборы фрагментных дескрипторов [481] размером до шести неводородных атомов. Предварительный отбор дескрипторов проводился по методу быстрой пошаговой множественной линейной регрессии (БПМЛР) [482]. Отобранные наборы дескрипторов использовались для построения нейросетевых моделей «структура-свойство» при помощи многослойных персептронов [39]. При построении моделей в рамках двухуровнего подхода были точно таким же образом с применением фрагментных дескрипторов и комбинации БПМЛР и многослойных персептронов модели первого уровня, позволяющие прогнозировать значения липофильности log P и четырех констант Абрахама A, B, E и S, характеризующих, соответственно, кислотность и основность по отношению к образованию водородной связи, избыточную молярную рефракцию и диполярность/поляризуемость. Для построения модели для липофильности была использована выборка 3, включающая 7805 соединений [483], а для констант Абрахама – выборка 4, состоящая из 457 соединений и приведенная в работе [484]. В Табл. 30 представлены статистические характеристики моделей первого уровня. На втором этапе результаты прогноза, полученные с помощью моделей первого уровня для соответствующих выборок органических соединений по логарифму коэффициента сорбции в почве и логарифма растворимости фуллерена С 60, были использованы в качестве дескрипторов при построении нейросетевых моделей второго уровня для расчета этих свойств. В всех случаях для оценки прогнозирующей способности моделей была применена процедура двойного 5x4-кратного скользящего контроля [482]. Построение QSPRмоделей осуществляли с помощью программного комплекса NASAWIN [194]. Значения параметра Q 2 DCV и среднеквадратичной ошибки прогноза RMSE DCV для моделей, полученных с использованием одноуровневого и многоуровневого подходов для расчета логарифма коэффициента сорбции органических соединений в почве и логарифма растворимости фуллерена С 60 , приведены в Табл. 31 на стр. 270. Как видно из представленного материала, прогнозирующая способность QSPR моделей, полученных в рамках многоуровневого подхода, значительно превышает прогнозирующую способность одноуровневых моде- 268

лей, хотя все модели построены на основе одинаковых наборов фрагментных дескрипторов при помощи одного и того же метода машинного обучения. Диаграммы экспериментальных и рассчитанных значений log K oc и log S, полученных на основе нейросетевых моделей, построенных с использованием многоуровневого подхода, представлены на Рис. 60 на стр. 270. Табл. 30. Статистические характеристики моделей “структура/свойство’ первого уровня для расчета липофильности и констант Абрахама для органических соединений, соответственно включенных в выборки 3 и 4 Свойство Число соединений в выборке Коэффициент корреляции RMSE на обучающей выборке RMSE на контрольной выборке (1/10 выборки) Log P 7805 0.980 0.345 0.395 Абрахам A 457 0.983 0.051 0.058 Абрахам B 457 0.971 0.066 0.081 Абрахам E 457 0.997 0.040 0.074 Абрахам S 457 0.987 0.072 0.137 Преимущество использования многоуровневого подхода продемонстрировано нами также на примере прогнозирования констант устойчивости комплексов циклодекстрина с органическими молекулами [400]. Таким образом, объединение в сеть всего лишь нескольких моделей может привести к заметному улучшению прогнозирующей способности моделей более высокого уровня за счет использования информации, содержащейся в дополнительных базах данных, использованных при построении моделей более низкого уровня. Есть основания считать, что многоуровневый подход может дать значительный эффект не только при прогнозировании физико-химических свойств, как было показано на двух примерах в рамках данного подраздела, но и биологической активности. 269

лей, хотя все модели построены на основе одинаковых наборов фрагментных<br />

дескрипторов при помощи одного и того же метода машинного обучения. Диаграммы<br />

экспериментальных и рассчитанных значений log K oc и log S, полученных<br />

на основе нейросетевых моделей, построенных с использованием многоуровневого<br />

подхода, представлены на Рис. 60 на стр. 270.<br />

Табл. 30. Статистические характеристики моделей “структура/свойство’ первого<br />

уровня для расчета липофильности и констант Абрахама для органических<br />

соединений, соответственно включенных в выборки 3 и 4<br />

Свойство<br />

Число соединений<br />

в выборке<br />

Коэффициент<br />

корреляции<br />

RMSE на обучающей<br />

выборке<br />

RMSE на контрольной<br />

выборке<br />

(1/10<br />

выборки)<br />

Log P 7805 0.980 0.345 0.395<br />

Абрахам A 457 0.983 0.051 0.058<br />

Абрахам B 457 0.971 0.066 0.081<br />

Абрахам E 457 0.997 0.040 0.074<br />

Абрахам S 457 0.987 0.072 0.137<br />

Преимущество использования многоуровневого подхода продемонстрировано<br />

нами также на примере прогнозирования констант устойчивости комплексов<br />

циклодекстрина с органическими молекулами [400]. Таким образом,<br />

объединение в сеть всего лишь нескольких моделей может привести к заметному<br />

улучшению прогнозирующей способности моделей более высокого уровня<br />

за счет использования информации, содержащейся в дополнительных базах<br />

данных, использованных при построении моделей более низкого уровня. Есть<br />

основания считать, что многоуровневый подход может дать значительный эффект<br />

не только при прогнозировании физико-химических свойств, как было показано<br />

на двух примерах в рамках данного подраздела, но и биологической активности.<br />

269

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!