Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Табл. 13. Статистические показатели полученных моделей для вязкости органических соединений Статистические показатели моделей Название этапа исследования R RMSE t RMSE v RMSE p Линейно-регрессионные модели 0,9794 0,111 0,195 0,212 Средние значения показателей по всем индивидуальным нейросетевым 0,9815 0,105 0,189 0,219 моделям Показатели ансамблевой модели, усредняющей прогнозы индивидуальных нейросетевых моделей 0,9904 0,078 0,177 0,208 lg(Вязкости) расч. 4,0 3,0 2,0 1,0 0,0 0,0 2,0 4,0 lg(Вязкости) расч. 4,0 3,0 2,0 1,0 0,0 -1,0 0,0 2,0 4,0 lg(Вязкости) эксп. lg(Вязкости) эксп. (а) Рис. 44. Результаты нейросетевого моделирования вязкости: (а) корреляция экспериментальных значений с результатами прогноза, полученными путем усреднения по всем моделям, при построении которых данные соединения входили в обучающие выборки; (б) корреляция экспериментальных значений с результатами прогноза, полученными путем усреднения по всем моделям, при построении которых данные соединения входили во внешние контрольные выборки (б) Из Табл. 13 видно, что прогнозирующая способность нейросетевых моделей (которую наиболее корректно оценивать по среднеквадратичным ошибкам для внешних контрольных выборок, превосходит аналогичные показатели линейных (они являются линейными по отношению к регрессионным коэффициентам, но нелинейными по отношению к значениям дескрипторов) регрессионных моделей. Кроме того, построенные в ходе данной работы модели для предсказания вязкости жидких органических соединений существенно превосходят по всем показателям наилучшие из ранее опубликованных моделей (см. [410, 212
414]). Следует также обратить внимание на заметное различие средних значений статистических показателей по ансамблю нейросетевых моделей и статистических показателей ансамблевой модели, усредняющей прогнозы, даваемые этими моделями. То, что вторые существенно лучше первых, свидетельствует о больших преимуществах использования ансамблей нейросетевых моделей по сравнению с индивидуальными моделями. 6.3.3. Моделирование плотности жидких органических соединений В качестве источника для формирования использованной в данной работе базы был взят электронный каталог органических соединений фирмы Fluka [415], содержащий 16793 записи. База данных была автоматически из него отобрана путем задания следующих условий: 1) наличие в каталоге значения плотности для соединения; 2) чистота образца 98% и выше; 3) наличие значения показателя преломления (что означает, что данные приведены для жидкости). Сформированная таким образом база данных содержала 803 соединения, относящиеся ко следующим классам: алканы, алкины, арены, аллены, спирты, простые и сложные эфиры, нитро-соединения, альдегиды, карбоновые кислоты, кетоны, нитрилы, амины, имины, амиды, гетероциклические соединения, моно-, би- и трициклические структуры. При обработке базы данных была применена рассмотренная выше (см. подраздел 6.3.1) методика. Каждый раз база разбивалась на обучающую выборку (641 соединение), контрольную выборку (81 соединение) и выборку для оценки предсказательной способности (81 соединение). Из четырех указаных выше модификаций дескрипторов было использовано три: 1) квадрат значения дескриптора; 2) квадратный корень из значения дескриптора; и 3) отношение значения дескриптора к числу неводородных атомов в молекуле. Для определения оптимального размера фрагментов нами было сгенерировано 11 наборов фрагментных дескрипторов при варьировании максимального размера фрагмента от 1 до 11 атомов. Для каждого из этих наборов дескрипторов было построено по методу БПМЛР по одной (линейной по регрессион- 213
- Page 161 and 162: зей, а также учитыв
- Page 163 and 164: Эксперимент 50 40 30 20
- Page 165 and 166: Построение QSPR-моде
- Page 167 and 168: работе [268], но с при
- Page 169 and 170: ляются удобным инс
- Page 171 and 172: чета этого свойств
- Page 173 and 174: База 2 (88 соединений
- Page 175 and 176: «редких фрагментов
- Page 177 and 178: пользовании 25 деск
- Page 179 and 180: Tf расч. о С, Tf calc. o C 30
- Page 181 and 182: На первом этапе раб
- Page 183 and 184: 0,935; s = 0,76 кДж·моль -1
- Page 185 and 186: пример использован
- Page 187 and 188: почечных фрагменто
- Page 189 and 190: ской структуры «ре
- Page 191 and 192: 1 O O OH C C a O C H 2 O H + C C a
- Page 193 and 194: веществ, например,
- Page 195 and 196: до 28.0 (MAE DCV ). Повыше
- Page 197 and 198: Таким образом, псев
- Page 199 and 200: цепочки длиной до д
- Page 201 and 202: алканов, см 3 /моль 7
- Page 203 and 204: свое преимущество
- Page 205 and 206: 6.3.1. Общая методоло
- Page 207 and 208: бирался оптимальны
- Page 209 and 210: 0,25 Результаты полу
- Page 211: При анализе дескри
- Page 215 and 216: d расч., г/куб.см 4,0 3,0
- Page 217 and 218: Табл. 15. Корреляция
- Page 219 and 220: Табл. 16. Усредненны
- Page 221 and 222: Как видно из Табл. 16
- Page 223 and 224: нием ошибки примен
- Page 225 and 226: NASAWIN (см. раздел 8.2) н
- Page 227 and 228: ГЛАВА 7. РАЗРАБОТКА
- Page 229 and 230: ного моделирования
- Page 231 and 232: ля и даже более сов
- Page 233 and 234: ного цианинового к
- Page 235 and 236: Значения констант
- Page 237 and 238: делена на обучающу
- Page 239 and 240: ность. Основной цел
- Page 241 and 242: На Рис. 50 приводятс
- Page 243 and 244: молекул с конденси
- Page 245 and 246: 7.1.4. Прогнозировани
- Page 247 and 248: сивов разрозненных
- Page 249 and 250: используются как т
- Page 251 and 252: были модифицирован
- Page 253 and 254: зависимости давлен
- Page 255 and 256: Объединенный набор
- Page 257 and 258: Оба механизма вклю
- Page 259 and 260: творителя, а также
- Page 261 and 262: Табл. 29. Характерис
414]). Следует также обратить внимание на заметное различие средних значений<br />
статистических показателей по ансамблю нейросетевых моделей и статистических<br />
показателей ансамблевой модели, усредняющей прогнозы, даваемые<br />
этими моделями. То, что вторые существенно лучше первых, свидетельствует о<br />
больших преимуществах использования ансамблей нейросетевых моделей по<br />
сравнению с индивидуальными моделями.<br />
6.3.3. Моделирование плотности жидких органических соединений<br />
В качестве источника для формирования использованной в данной работе<br />
базы был взят электронный каталог органических соединений фирмы Fluka<br />
[415], содержащий 16793 записи. База данных была автоматически из него отобрана<br />
путем задания следующих условий: 1) наличие в каталоге значения плотности<br />
для соединения; 2) чистота образца 98% и выше; 3) наличие значения показателя<br />
преломления (что означает, что данные приведены для жидкости).<br />
Сформированная таким образом база данных содержала 803 соединения, относящиеся<br />
ко следующим классам: алканы, алкины, арены, аллены, спирты, простые<br />
и сложные эфиры, нитро-соединения, альдегиды, карбоновые кислоты, кетоны,<br />
нитрилы, амины, имины, амиды, гетероциклические соединения, моно-,<br />
би- и трициклические структуры.<br />
При обработке базы данных была применена рассмотренная выше (см.<br />
подраздел 6.3.1) методика. Каждый раз база разбивалась на обучающую выборку<br />
(641 соединение), контрольную выборку (81 соединение) и выборку для<br />
оценки предсказательной способности (81 соединение). Из четырех указаных<br />
выше модификаций дескрипторов было использовано три: 1) квадрат значения<br />
дескриптора; 2) квадратный корень из значения дескриптора; и 3) отношение<br />
значения дескриптора к числу неводородных атомов в молекуле.<br />
Для определения оптимального размера фрагментов нами было сгенерировано<br />
11 наборов фрагментных дескрипторов при варьировании максимального<br />
размера фрагмента от 1 до 11 атомов. Для каждого из этих наборов дескрипторов<br />
было построено по методу БПМЛР по одной (линейной по регрессион-<br />
213