Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
По частотам вхождения в отбираемые при построении линейнорегрессионных моделей дескрипторов можно сделать вывод об их относительной значимости. В соответствии с этим критерием, при моделировании температуры кипения разнородных органических соединений наиболее весомыми являются вклады: метильных групп, связанных с любыми неводородными атомами (n[H 3 C-•]/n a и n[H 3 C-•]); sp 2 -гибридизованных атомов углерода (n[C sp 2]/n a ); фрагментов ароматических систем (n 2 [C Ar ÷C Ar ]); произвольных неводородных атомов (log{n[•]} и n 2 [•]). Значительный вклад также вносят группы, содержащие полярные атомы и связи, в частности: sp-, sp 2 - и sp 3 - гибридизованные атомы азота (n(N), √n[=C-N], n[=N-] и n[C sp 2-N]/n a ); гидроксильные группы, связанные с атомом углерода (n[C-OH], n 2 [HC Heterocycle -OH]); атомы кислорода при двойной связи (n[O=•]/n a ); атомы галогенов в различном структурном контексте (n[C sp 3-I]/n a , n[H 2 C-Hal], √n[C-F], n[Br]); атомы бора, кремния и серы (n 2 [B-•], n[C sp 2-N]/n a , n[Hal-Si] и n[C-S]/n a ). После построения ряда нейросетевых моделей (350 моделей) с варьированием числа скрытых нейронов было выбрано оптимальное число скрытых нейронов, равное двум (как обеспечивающее наименьшие ошибки на внутренних контрольных выборках). В Табл. 17 приведены статистические показатели построенных моделей. Табл. 17. Статистические показатели полученных моделей для температуры кипения разнородных органических соединений (ошибки приведены в o C) Статистические показатели моделей R RMSE t RMSE c RMSE p Название этапа исследования Линейно-регрессионные модели 0,9814 12,9 16,7 18,6 Средние значения показателей по всем индивидуальным нейросетевым 0,9869 11,0 16,1 17,2 моделям Показатели ансамблевой модели, усредняющей прогнозы индивидуальных нейросетевых моделей 0,9911 9,1 16,1 16,9 220
Как видно из Табл. 16 и Табл. 17, прогнозирующая способность построенных нейросетевых моделей заметно выше линейно-регрессионных. Кроме того, следует обратить внимание на тот факт, что (как и во всех других случаях, см. подразделы 6.3.2, 6.3.3 и 6.3.4) статистические показатели ансамблевой модели, усредняющей прогнозы по нейросетевому ансамблю, всегда заметно средних статистических показателей индивидуальных нейросетевых моделей в ансамбле. Это еще раз подтверждает известное из теории и практики машинного обучения утверждение о существенных преимуществах использования ансамблей нейросетевых моделей по сравнению с индивидуальными моделями. По-видимому, два основных фактора вносят вклад в это явление. Во-первых, усреднение по моделям, получаемым при разных разбивках базы данных позволяет эффективно использовать для обучения информацию из внутренних контрольных выборок, что эквивалентно увеличению эффективного размера обучающих выборок. Во-вторых, уменьшается вклад дисперсии в среднеквадратичную ошибку прогнозирования, поскольку дисперсия среднего нескольких случайных независимых переменных всегда ниже средней дисперсии каждой из этих переменных (т.е. происходит подавление «шума» при усреднении). Как известно, статистические показатели отдельно взятой модели при небольшом размере базы данных не может служить основой для вывода о качестве методики моделирования и иметь какую-либо статистическую значимость при отсутствии корректного скользящего контроля. Так, например, одна из полученных для данной базы данных статистических моделей характеризовалась следующими статистическими показателями: среднеквадратичная ошибка для обучающей выборки RMSE t равна 5.6 о С, для внутренней контрольной выборки RMSE v = 4.4 о С, а для внешней контрольной выборки RMSE p = 5.0 о С, что в несколько раз ниже усредненных показателям. Статистические показатели подобных индивидуальных моделей могут не характеризовать их истинную прогнозирующую способность, особенно когда в процессе их построения производится отбор дескрипторов. Хотя в отдельных публикациях, как, например [418], встречаются подобные результаты, ориентироваться на них нецелесообразно. Поэтому усредненные по множеству моделей результаты являются статистиче- 221
- Page 169 and 170: ляются удобным инс
- Page 171 and 172: чета этого свойств
- Page 173 and 174: База 2 (88 соединений
- Page 175 and 176: «редких фрагментов
- Page 177 and 178: пользовании 25 деск
- Page 179 and 180: Tf расч. о С, Tf calc. o C 30
- Page 181 and 182: На первом этапе раб
- Page 183 and 184: 0,935; s = 0,76 кДж·моль -1
- Page 185 and 186: пример использован
- Page 187 and 188: почечных фрагменто
- Page 189 and 190: ской структуры «ре
- Page 191 and 192: 1 O O OH C C a O C H 2 O H + C C a
- Page 193 and 194: веществ, например,
- Page 195 and 196: до 28.0 (MAE DCV ). Повыше
- Page 197 and 198: Таким образом, псев
- Page 199 and 200: цепочки длиной до д
- Page 201 and 202: алканов, см 3 /моль 7
- Page 203 and 204: свое преимущество
- Page 205 and 206: 6.3.1. Общая методоло
- Page 207 and 208: бирался оптимальны
- Page 209 and 210: 0,25 Результаты полу
- Page 211 and 212: При анализе дескри
- Page 213 and 214: 414]). Следует также о
- Page 215 and 216: d расч., г/куб.см 4,0 3,0
- Page 217 and 218: Табл. 15. Корреляция
- Page 219: Табл. 16. Усредненны
- Page 223 and 224: нием ошибки примен
- Page 225 and 226: NASAWIN (см. раздел 8.2) н
- Page 227 and 228: ГЛАВА 7. РАЗРАБОТКА
- Page 229 and 230: ного моделирования
- Page 231 and 232: ля и даже более сов
- Page 233 and 234: ного цианинового к
- Page 235 and 236: Значения констант
- Page 237 and 238: делена на обучающу
- Page 239 and 240: ность. Основной цел
- Page 241 and 242: На Рис. 50 приводятс
- Page 243 and 244: молекул с конденси
- Page 245 and 246: 7.1.4. Прогнозировани
- Page 247 and 248: сивов разрозненных
- Page 249 and 250: используются как т
- Page 251 and 252: были модифицирован
- Page 253 and 254: зависимости давлен
- Page 255 and 256: Объединенный набор
- Page 257 and 258: Оба механизма вклю
- Page 259 and 260: творителя, а также
- Page 261 and 262: Табл. 29. Характерис
- Page 263 and 264: набора дескрипторо
- Page 265 and 266: угодно сложные зав
- Page 267 and 268: симостей «структур
- Page 269 and 270: лей, хотя все модел
По частотам вхождения в отбираемые при построении линейнорегрессионных<br />
моделей дескрипторов можно сделать вывод об их относительной<br />
значимости. В соответствии с этим критерием, при моделировании температуры<br />
кипения разнородных органических соединений наиболее весомыми<br />
являются вклады: метильных групп, связанных с любыми неводородными атомами<br />
(n[H 3 C-•]/n a и n[H 3 C-•]); sp 2 -гибридизованных атомов углерода<br />
(n[C sp 2]/n a ); фрагментов ароматических систем (n 2 [C Ar ÷C Ar ]); произвольных неводородных<br />
атомов (log{n[•]} и n 2 [•]). Значительный вклад также вносят группы,<br />
содержащие полярные атомы и связи, в частности: sp-, sp 2 - и sp 3 -<br />
гибридизованные атомы азота (n(N), √n[=C-N], n[=N-] и n[C sp 2-N]/n a ); гидроксильные<br />
группы, связанные с атомом углерода (n[C-OH], n 2 [HC Heterocycle -OH]);<br />
атомы кислорода при двойной связи (n[O=•]/n a ); атомы галогенов в различном<br />
структурном контексте (n[C sp 3-I]/n a , n[H 2 C-Hal], √n[C-F], n[Br]); атомы бора,<br />
кремния и серы (n 2 [B-•], n[C sp 2-N]/n a , n[Hal-Si] и n[C-S]/n a ).<br />
После построения ряда нейросетевых моделей (350 моделей) с варьированием<br />
числа скрытых нейронов было выбрано оптимальное число скрытых<br />
нейронов, равное двум (как обеспечивающее наименьшие ошибки на внутренних<br />
контрольных выборках). В Табл. 17 приведены статистические показатели<br />
построенных моделей.<br />
Табл. 17. Статистические показатели полученных моделей для температуры<br />
кипения разнородных органических соединений (ошибки приведены в o C)<br />
Статистические показатели моделей<br />
R RMSE t RMSE c RMSE p<br />
Название этапа исследования<br />
Линейно-регрессионные модели 0,9814 12,9 16,7 18,6<br />
Средние значения показателей по<br />
всем индивидуальным нейросетевым 0,9869 11,0 16,1 17,2<br />
моделям<br />
Показатели ансамблевой модели, усредняющей<br />
прогнозы индивидуальных<br />
нейросетевых моделей<br />
0,9911 9,1 16,1 16,9<br />
220