Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
рамках одноуровневого подхода для описания химических соединений были использованы наборы фрагментных дескрипторов [481] размером до шести неводородных атомов. Предварительный отбор дескрипторов проводился по методу быстрой пошаговой множественной линейной регрессии (БПМЛР) [482]. Отобранные наборы дескрипторов использовались для построения нейросетевых моделей «структура-свойство» при помощи многослойных персептронов [39]. При построении моделей в рамках двухуровнего подхода были точно таким же образом с применением фрагментных дескрипторов и комбинации БПМЛР и многослойных персептронов модели первого уровня, позволяющие прогнозировать значения липофильности log P и четырех констант Абрахама A, B, E и S, характеризующих, соответственно, кислотность и основность по отношению к образованию водородной связи, избыточную молярную рефракцию и диполярность/поляризуемость. Для построения модели для липофильности была использована выборка 3, включающая 7805 соединений [483], а для констант Абрахама – выборка 4, состоящая из 457 соединений и приведенная в работе [484]. В Табл. 30 представлены статистические характеристики моделей первого уровня. На втором этапе результаты прогноза, полученные с помощью моделей первого уровня для соответствующих выборок органических соединений по логарифму коэффициента сорбции в почве и логарифма растворимости фуллерена С 60, были использованы в качестве дескрипторов при построении нейросетевых моделей второго уровня для расчета этих свойств. В всех случаях для оценки прогнозирующей способности моделей была применена процедура двойного 5x4-кратного скользящего контроля [482]. Построение QSPRмоделей осуществляли с помощью программного комплекса NASAWIN [194]. Значения параметра Q 2 DCV и среднеквадратичной ошибки прогноза RMSE DCV для моделей, полученных с использованием одноуровневого и многоуровневого подходов для расчета логарифма коэффициента сорбции органических соединений в почве и логарифма растворимости фуллерена С 60 , приведены в Табл. 31 на стр. 270. Как видно из представленного материала, прогнозирующая способность QSPR моделей, полученных в рамках многоуровневого подхода, значительно превышает прогнозирующую способность одноуровневых моде- 268
лей, хотя все модели построены на основе одинаковых наборов фрагментных дескрипторов при помощи одного и того же метода машинного обучения. Диаграммы экспериментальных и рассчитанных значений log K oc и log S, полученных на основе нейросетевых моделей, построенных с использованием многоуровневого подхода, представлены на Рис. 60 на стр. 270. Табл. 30. Статистические характеристики моделей “структура/свойство’ первого уровня для расчета липофильности и констант Абрахама для органических соединений, соответственно включенных в выборки 3 и 4 Свойство Число соединений в выборке Коэффициент корреляции RMSE на обучающей выборке RMSE на контрольной выборке (1/10 выборки) Log P 7805 0.980 0.345 0.395 Абрахам A 457 0.983 0.051 0.058 Абрахам B 457 0.971 0.066 0.081 Абрахам E 457 0.997 0.040 0.074 Абрахам S 457 0.987 0.072 0.137 Преимущество использования многоуровневого подхода продемонстрировано нами также на примере прогнозирования констант устойчивости комплексов циклодекстрина с органическими молекулами [400]. Таким образом, объединение в сеть всего лишь нескольких моделей может привести к заметному улучшению прогнозирующей способности моделей более высокого уровня за счет использования информации, содержащейся в дополнительных базах данных, использованных при построении моделей более низкого уровня. Есть основания считать, что многоуровневый подход может дать значительный эффект не только при прогнозировании физико-химических свойств, как было показано на двух примерах в рамках данного подраздела, но и биологической активности. 269
- Page 217 and 218: Табл. 15. Корреляция
- Page 219 and 220: Табл. 16. Усредненны
- Page 221 and 222: Как видно из Табл. 16
- Page 223 and 224: нием ошибки примен
- Page 225 and 226: NASAWIN (см. раздел 8.2) н
- Page 227 and 228: ГЛАВА 7. РАЗРАБОТКА
- Page 229 and 230: ного моделирования
- Page 231 and 232: ля и даже более сов
- Page 233 and 234: ного цианинового к
- Page 235 and 236: Значения констант
- Page 237 and 238: делена на обучающу
- Page 239 and 240: ность. Основной цел
- Page 241 and 242: На Рис. 50 приводятс
- Page 243 and 244: молекул с конденси
- Page 245 and 246: 7.1.4. Прогнозировани
- Page 247 and 248: сивов разрозненных
- Page 249 and 250: используются как т
- Page 251 and 252: были модифицирован
- Page 253 and 254: зависимости давлен
- Page 255 and 256: Объединенный набор
- Page 257 and 258: Оба механизма вклю
- Page 259 and 260: творителя, а также
- Page 261 and 262: Табл. 29. Характерис
- Page 263 and 264: набора дескрипторо
- Page 265 and 266: угодно сложные зав
- Page 267: симостей «структур
- Page 271 and 272: одновременно решае
- Page 273 and 274: Как видно приведен
- Page 275 and 276: принципе гарантиро
- Page 277 and 278: мерации атомов дос
- Page 279 and 280: бор сигналов, соотв
- Page 281 and 282: только с атомных се
- Page 283 and 284: 7.4.3. Примеры разных
- Page 285 and 286: Рис. 66. Минимальная
- Page 287 and 288: ров» ведет к ухудше
- Page 289 and 290: бензол, было отброш
- Page 291 and 292: на атому. После 4000 э
- Page 293 and 294: фов), то и все нейро
- Page 295 and 296: проведения линейно
- Page 297 and 298: тате чего NASAWIN прев
- Page 299 and 300: 8.2.3. Химически-орие
- Page 301 and 302: 8.2.7. Нейросетевые п
- Page 303 and 304: 8.2.11. Кластеризация
- Page 305 and 306: нейросетевом прогр
- Page 307 and 308: 18 p1_Nlp Количество не
- Page 309 and 310: 43 p 4 _ SPR = ∑ R( a ) ⋅ R( a
- Page 311 and 312: делей. Программа та
- Page 313 and 314: позволяющая прогно
- Page 315 and 316: ЛИТЕРАТУРА 1. Гилле
- Page 317 and 318: 31. Aoyama T.; Ichikawa H. Neural N
лей, хотя все модели построены на основе одинаковых наборов фрагментных<br />
дескрипторов при помощи одного и того же метода машинного обучения. Диаграммы<br />
экспериментальных и рассчитанных значений log K oc и log S, полученных<br />
на основе нейросетевых моделей, построенных с использованием многоуровневого<br />
подхода, представлены на Рис. 60 на стр. 270.<br />
Табл. 30. Статистические характеристики моделей “структура/свойство’ первого<br />
уровня для расчета липофильности и констант Абрахама для органических<br />
соединений, соответственно включенных в выборки 3 и 4<br />
Свойство<br />
Число соединений<br />
в выборке<br />
Коэффициент<br />
корреляции<br />
RMSE на обучающей<br />
выборке<br />
RMSE на контрольной<br />
выборке<br />
(1/10<br />
выборки)<br />
Log P 7805 0.980 0.345 0.395<br />
Абрахам A 457 0.983 0.051 0.058<br />
Абрахам B 457 0.971 0.066 0.081<br />
Абрахам E 457 0.997 0.040 0.074<br />
Абрахам S 457 0.987 0.072 0.137<br />
Преимущество использования многоуровневого подхода продемонстрировано<br />
нами также на примере прогнозирования констант устойчивости комплексов<br />
циклодекстрина с органическими молекулами [400]. Таким образом,<br />
объединение в сеть всего лишь нескольких моделей может привести к заметному<br />
улучшению прогнозирующей способности моделей более высокого уровня<br />
за счет использования информации, содержащейся в дополнительных базах<br />
данных, использованных при построении моделей более низкого уровня. Есть<br />
основания считать, что многоуровневый подход может дать значительный эффект<br />
не только при прогнозировании физико-химических свойств, как было показано<br />
на двух примерах в рамках данного подраздела, но и биологической активности.<br />
269