Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Данные таблицы также свидетельствуют о преимуществах использования ансамблей нейросетевых моделей по сравнению с индивидуальными моделями. 6.3.4. Моделирование давления насыщенных паров Моделирование давления насыщенных паров велось по созданной на основе опубликованных данных [417] выборке из 352 соединений (углеводороды и галогенуглеводороды), которая в процессе работы разбивалась 10 разными способами на три выборки: обучающую (279 соединений), контрольную (36 соединений) и выборку для оценки предсказательной способности (36 соединений). На первом этапе по методу БПМЛР производился отбор дескрипторов, причем, как оказалось, наилучшим моделям соответствует множество фрагментных дескрипторов с максимальным числом атомов во фрагменте, равным 6. При моделировании давления паров среди наиболее значимых дескрипторов, присутствующих практически во всех моделях, оказались: квадрат числа углеродных атомов (n 2 (C)); логарифм общего числа неводородных атомов (lg n a ); количество атомов галогенов, связанных с углеродным атомом, входящим в состав шестичленных ароматических циклов (n[C Ar -Hal]); количество метиленовых групп, связанных с углеродным атомом, входящим в состав шестичленных ароматических циклов (n[C Ar -CH 2 ]); квадратный корень от количества атомов фтора (√n[F]); количество простых углерод-углеродных связей (n(C-C)/n a ); количество двухатомных углерод-углеродных фрагментов ароматических систем (n[C Ar ÷C Ar ]) и др. Подобный набор наиболее важных дескрипторов, повидимому, обусловлен доминирующей ролью ван-дер-ваальсовых взаимодействий. При построении нейросетевых моделей с различным числом скрытых нейронов (от 2 до 8) был проведен анализ зависимости статистических показателей моделей от числа скрытых нейронов. Оптимальным количеством скрытых нейронов для данной выборки оказалось три. Сводные данные, содержащие основные статистические показатели построенных моделей, приведены в 216
Табл. 15. Корреляция усредненных по всему ансамблю моделей расчетных данных для давления насыщенных паров с экспериментальными значениями представлена на Рис. 46. Табл. 15. Статистические показатели полученных моделей для давления насыщенных паров органических соединений (в lg(Па)) Статистические показатели моделей Название этапа исследования R RMSE t RMSE c RMSE p Линейно-регрессионные модели 0,9902 0,198 0,248 0,258 Средние значения показателей по всем индивидуальным нейросетевым 0,9969 0,118 0,143 0,161 моделям Показатели ансамблевой модели, усредняющей прогнозы индивидуальных нейросетевых моделей 0,9979 0,095 0,140 0,158 lg(Р) расч., lg(Па) 8,0 6,0 4,0 2,0 0,0 -5,0 -2,00,0 5,0 10,0 lg(Р) эксп., lg(Па) (а) lg(Р) расч., lg(Па) 8,0 6,0 4,0 2,0 0,0 -5,0 -2,00,0 5,0 10,0 lg(Р) эксп., lg(Па) Рис. 46. Результаты моделирования давления насыщенных паров: (а) обучающая выборка; (б) внешняя контрольная выборка (б) Из Табл. 15 видно, что прогнозирующая способность нейросетевых моделей (которую корректно оценивать по значению RMSE пред , т.е. по среднеквадратичной ошибки на внешней контрольной выборке, превосходит аналогичные показатели линейных регрессионных моделей (даже содержащих нелинейные модификации дескрипторов). Точность предсказания давления насыщенных паров в построенных моделях оказалась сравнимой с моделью Голла-Джурса [417] и существенно выше других опубликованных моделей (см. [416]). 217
- Page 165 and 166: Построение QSPR-моде
- Page 167 and 168: работе [268], но с при
- Page 169 and 170: ляются удобным инс
- Page 171 and 172: чета этого свойств
- Page 173 and 174: База 2 (88 соединений
- Page 175 and 176: «редких фрагментов
- Page 177 and 178: пользовании 25 деск
- Page 179 and 180: Tf расч. о С, Tf calc. o C 30
- Page 181 and 182: На первом этапе раб
- Page 183 and 184: 0,935; s = 0,76 кДж·моль -1
- Page 185 and 186: пример использован
- Page 187 and 188: почечных фрагменто
- Page 189 and 190: ской структуры «ре
- Page 191 and 192: 1 O O OH C C a O C H 2 O H + C C a
- Page 193 and 194: веществ, например,
- Page 195 and 196: до 28.0 (MAE DCV ). Повыше
- Page 197 and 198: Таким образом, псев
- Page 199 and 200: цепочки длиной до д
- Page 201 and 202: алканов, см 3 /моль 7
- Page 203 and 204: свое преимущество
- Page 205 and 206: 6.3.1. Общая методоло
- Page 207 and 208: бирался оптимальны
- Page 209 and 210: 0,25 Результаты полу
- Page 211 and 212: При анализе дескри
- Page 213 and 214: 414]). Следует также о
- Page 215: d расч., г/куб.см 4,0 3,0
- Page 219 and 220: Табл. 16. Усредненны
- Page 221 and 222: Как видно из Табл. 16
- Page 223 and 224: нием ошибки примен
- Page 225 and 226: NASAWIN (см. раздел 8.2) н
- Page 227 and 228: ГЛАВА 7. РАЗРАБОТКА
- Page 229 and 230: ного моделирования
- Page 231 and 232: ля и даже более сов
- Page 233 and 234: ного цианинового к
- Page 235 and 236: Значения констант
- Page 237 and 238: делена на обучающу
- Page 239 and 240: ность. Основной цел
- Page 241 and 242: На Рис. 50 приводятс
- Page 243 and 244: молекул с конденси
- Page 245 and 246: 7.1.4. Прогнозировани
- Page 247 and 248: сивов разрозненных
- Page 249 and 250: используются как т
- Page 251 and 252: были модифицирован
- Page 253 and 254: зависимости давлен
- Page 255 and 256: Объединенный набор
- Page 257 and 258: Оба механизма вклю
- Page 259 and 260: творителя, а также
- Page 261 and 262: Табл. 29. Характерис
- Page 263 and 264: набора дескрипторо
- Page 265 and 266: угодно сложные зав
Табл. 15. Корреляция усредненных по всему ансамблю моделей расчетных данных<br />
для давления насыщенных паров с экспериментальными значениями представлена<br />
на Рис. 46.<br />
Табл. 15. Статистические показатели полученных моделей для давления насыщенных<br />
паров органических соединений (в lg(Па))<br />
Статистические показатели моделей<br />
Название этапа исследования<br />
R RMSE t RMSE c RMSE p<br />
Линейно-регрессионные модели 0,9902 0,198 0,248 0,258<br />
Средние значения показателей по<br />
всем индивидуальным нейросетевым 0,9969 0,118 0,143 0,161<br />
моделям<br />
Показатели ансамблевой модели, усредняющей<br />
прогнозы индивидуальных<br />
нейросетевых моделей<br />
0,9979 0,095 0,140 0,158<br />
lg(Р) расч., lg(Па)<br />
8,0<br />
6,0<br />
4,0<br />
2,0<br />
0,0<br />
-5,0 -2,00,0 5,0 10,0<br />
lg(Р) эксп., lg(Па)<br />
(а)<br />
lg(Р) расч., lg(Па)<br />
8,0<br />
6,0<br />
4,0<br />
2,0<br />
0,0<br />
-5,0 -2,00,0 5,0 10,0<br />
lg(Р) эксп., lg(Па)<br />
Рис. 46. Результаты моделирования давления насыщенных паров: (а) обучающая<br />
выборка; (б) внешняя контрольная выборка<br />
(б)<br />
Из Табл. 15 видно, что прогнозирующая способность нейросетевых моделей<br />
(которую корректно оценивать по значению RMSE пред , т.е. по среднеквадратичной<br />
ошибки на внешней контрольной выборке, превосходит аналогичные<br />
показатели линейных регрессионных моделей (даже содержащих нелинейные<br />
модификации дескрипторов). Точность предсказания давления насыщенных<br />
паров в построенных моделях оказалась сравнимой с моделью Голла-Джурса<br />
[417] и существенно выше других опубликованных моделей (см. [416]).<br />
217