Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
ным коэффициентам, но нелинейных по дескрипторам) модели для каждой из 10 разбивок базы на три выборки. Из сравнения усредненных по разбивкам статистических показателей полученных моделей было найдено, что наименьшие ошибки на внутренних контрольных выборках получаются при использовании наборов фрагментных дескрипторов, сгенерированных при задании величины максимального размера фрагмента от 3 до 5 атомов. Именно эти 3 набора дескрипторов и были использованы в ходе дальнейшего моделирования. На следующем этапе было построено по 350 нейросетевых моделей (по 5 моделей для каждого количества скрытых нейронов, которое варьировалось от 2 до 8) для каждого из этих 3 наборов дескрипторов. При сравнении статистических показателей (по критерию наименьших среднеквадратичных ошибок на внутренних контрольных выборках) выявилось, что наилучшими являются модели, максимальный размер фрагментных дескрипторов в которых равен 4 атомам. Из моделей, построенных с этим набором дескрипторов, была отобрана группа из 50 моделей (5 моделей для каждой из 10 разбивок базы) с оптимальным числом скрытых нейронов, равным четырем. Следует отметить, что оптимальное число скрытых нейронов для трех типов выборок (т.е. для обучающих, внутренних и внешних контрольных выборок) различалось, поэтому этот параметр выбирался по внутренним контрольным выборкам. При анализе наборов отобранных фрагментных дескрипторов выяснилось, что наиболее важными (степень важности определялась по количеству содержащих их моделей) являются относительное число sp 3 - и sp 2 - гибридизованных атомов углерода (n(C sp 3) и n(H 2 C=)/n a ), а также относительное количество различных гетероатомов (в частности, галогенов, кислорода, азота, кремния, серы и т.д.), что можно объяснить различием масс, ковалентных и ван-дер-ваальсовых радиусов у этих элементов. Разнообразные поправки описываются такими дескрипторами как количество тройных углерод-углеродных связей, и дескрипторами, характеризующими разветвленность. Диаграммы разброса усредненных по всему массиву моделей расчетных данных для плотности жидких органических соединений по всем выборкам с экспериментальными значениями представлена на Рис. 45. 214
d расч., г/куб.см 4,0 3,0 2,0 1,0 0,0 0,0 1,0 2,0 3,0 d эксп., г/куб.см d расч., г/куб.см 3,0 2,5 2,0 1,5 1,0 0,5 0,0 0,0 1,0 2,0 3,0 d эксп., г/куб.см (а) Рис. 45. Результаты моделирования плотности: (а) обучающая выборка; (б) выборка для оценки предсказательной способности (б) Статистические показатели полученных моделей представлены в Табл. 14. Из их сравнения легко видеть, что прогнозирующая способность нейросетевых моделей (которую можно оценить по значению среднеквадратичной ошибки для внешней контрольной выборки, RMSE p ) превосходит таковую для линейных регрессионных моделей (даже построенных на основе нелинейных модификаций дескрипторов). Статистические показатели наших моделей для прогнозирования плотности жидкостей для разнородных органических соединений оказались близки к наилучшей из опубликованных моделей (см. [416]), однако наши модели построены по значительно более представительной выборке. Табл. 14. Статистические показатели полученных моделей для плотностей жидких органических соединений (в г/см 3 ) Статистические показатели моделей Название этапа исследования R RMSE t RMSE c RMSE p Линейно-регрессионные модели 0,9897 0,036 0,055 0,067 Средние значения показателей по всем индивидуальным нейросетевым 0,9911 0,034 0,052 0,061 моделям Показатели ансамблевой модели, усредняющей прогнозы индивидуальных нейросетевых моделей 0,9943 0,018 0,036 0,043 215
- Page 163 and 164: Эксперимент 50 40 30 20
- Page 165 and 166: Построение QSPR-моде
- Page 167 and 168: работе [268], но с при
- Page 169 and 170: ляются удобным инс
- Page 171 and 172: чета этого свойств
- Page 173 and 174: База 2 (88 соединений
- Page 175 and 176: «редких фрагментов
- Page 177 and 178: пользовании 25 деск
- Page 179 and 180: Tf расч. о С, Tf calc. o C 30
- Page 181 and 182: На первом этапе раб
- Page 183 and 184: 0,935; s = 0,76 кДж·моль -1
- Page 185 and 186: пример использован
- Page 187 and 188: почечных фрагменто
- Page 189 and 190: ской структуры «ре
- Page 191 and 192: 1 O O OH C C a O C H 2 O H + C C a
- Page 193 and 194: веществ, например,
- Page 195 and 196: до 28.0 (MAE DCV ). Повыше
- Page 197 and 198: Таким образом, псев
- Page 199 and 200: цепочки длиной до д
- Page 201 and 202: алканов, см 3 /моль 7
- Page 203 and 204: свое преимущество
- Page 205 and 206: 6.3.1. Общая методоло
- Page 207 and 208: бирался оптимальны
- Page 209 and 210: 0,25 Результаты полу
- Page 211 and 212: При анализе дескри
- Page 213: 414]). Следует также о
- Page 217 and 218: Табл. 15. Корреляция
- Page 219 and 220: Табл. 16. Усредненны
- Page 221 and 222: Как видно из Табл. 16
- Page 223 and 224: нием ошибки примен
- Page 225 and 226: NASAWIN (см. раздел 8.2) н
- Page 227 and 228: ГЛАВА 7. РАЗРАБОТКА
- Page 229 and 230: ного моделирования
- Page 231 and 232: ля и даже более сов
- Page 233 and 234: ного цианинового к
- Page 235 and 236: Значения констант
- Page 237 and 238: делена на обучающу
- Page 239 and 240: ность. Основной цел
- Page 241 and 242: На Рис. 50 приводятс
- Page 243 and 244: молекул с конденси
- Page 245 and 246: 7.1.4. Прогнозировани
- Page 247 and 248: сивов разрозненных
- Page 249 and 250: используются как т
- Page 251 and 252: были модифицирован
- Page 253 and 254: зависимости давлен
- Page 255 and 256: Объединенный набор
- Page 257 and 258: Оба механизма вклю
- Page 259 and 260: творителя, а также
- Page 261 and 262: Табл. 29. Характерис
- Page 263 and 264: набора дескрипторо
d расч., г/куб.см<br />
4,0<br />
3,0<br />
2,0<br />
1,0<br />
0,0<br />
0,0 1,0 2,0 3,0<br />
d эксп., г/куб.см<br />
d расч., г/куб.см<br />
3,0<br />
2,5<br />
2,0<br />
1,5<br />
1,0<br />
0,5<br />
0,0<br />
0,0 1,0 2,0 3,0<br />
d эксп., г/куб.см<br />
(а)<br />
Рис. 45. Результаты моделирования плотности: (а) обучающая выборка; (б) выборка<br />
для оценки предсказательной способности<br />
(б)<br />
Статистические показатели полученных моделей представлены в Табл.<br />
14. Из их сравнения легко видеть, что прогнозирующая способность нейросетевых<br />
моделей (которую можно оценить по значению среднеквадратичной ошибки<br />
для внешней контрольной выборки, RMSE p ) превосходит таковую для линейных<br />
регрессионных моделей (даже построенных на основе нелинейных модификаций<br />
дескрипторов). Статистические показатели наших моделей для прогнозирования<br />
плотности жидкостей для разнородных органических соединений<br />
оказались близки к наилучшей из опубликованных моделей (см. [416]), однако<br />
наши модели построены по значительно более представительной выборке.<br />
Табл. 14. Статистические показатели полученных моделей для плотностей<br />
жидких органических соединений (в г/см 3 )<br />
Статистические показатели моделей<br />
Название этапа исследования<br />
R RMSE t RMSE c RMSE p<br />
Линейно-регрессионные модели 0,9897 0,036 0,055 0,067<br />
Средние значения показателей по<br />
всем индивидуальным нейросетевым 0,9911 0,034 0,052 0,061<br />
моделям<br />
Показатели ансамблевой модели, усредняющей<br />
прогнозы индивидуальных<br />
нейросетевых моделей<br />
0,9943 0,018 0,036 0,043<br />
215