Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
простые и сложные эфиры, кетоны, альдегиды, карбоновые кислоты, нитрилы, имины, амины, амиды, галоген- и серосодержащие соединения, нитросоединения)), разбивалась 10-ю разными способами на три выборки: обучающую (293 соединений), контрольную (37 соединение) и выборку для оценки прогнозирующей способности (37 соединение). Согласно описанной выше схеме, с помощью процедуры БПМЛР из рассчитанного множества дескрипторов проводился их отбор для 10 различных вариантов разбивки базы данных. В процессе построения каждой линейной регрессионной модели проводилось последовательное включение дескрипторов до достижения наименьшей среднеквадратической ошибки на внутренней контрольной выборке. Табл. 11. Усредненные статистические характеристики линейно-регрессионных моделей при варьировании максимального размера дескрипторов Общее количество Среднее МЛР Количество количество дескрипторов дескрипто- отобранных RMS атомов R обу RMS конт RMS пре обуч ч р д ров 1 146 38±20 0,9204 0,2172 0,2366 0,2407 2 531 53±12 0,9740 0,1260 0,1857 0,1853 3 1757 46±16 0,9794 0,1113 0,1950 0,2119 4 1974 42±22 0,9593 0,1336 0,2079 0,2341 5 2183 34±21 0,9531 0,1470 0,2113 0,2330 6 2413 36±21 0,9681 0,1307 0,1960 0,2207 7 2566 33±19 0,9662 0,1302 0,2088 0,2392 8 2649 35±22 0,9656 0,1337 0,2075 0,2305 9 2703 33±20 0,9652 0,1348 0,2077 0,2322 10 2732 35±22 0,9658 0,1330 0,2081 0,2316 11 2945 35±22 0,9657 0,1331 0,2044 0,2297 12 2759 35±22 0,9657 0,1331 0,2044 0,2297 13 2770 35±22 0,9657 0,1331 0,2044 0,2297 МЛР – множественная линейная регрессия; R ср – коэффициент корреляции; RMS обуч , RMS контр , RMS предск - среднеквадратичная ошибка на обучающей, контрольной выборках и на выборке для оценки предсказательной способности, соответственно. 208
0,25 Результаты полученных линейно-регрессионных моделей для 13 наборов дескрипторов с различным максимальным размером фрагментов (130 моделей) представлены в Табл. 11 и на Рис. 43. Как видно из Рис. 43, минимумы для обучающей и контрольной выборок, а также для выборки для оценки прогнозирующей способности приходятся на множество дескрипторов с максимальным числом атомов, равным 2, 3 и 6, соответственно. Однако, при построении нейросетевых моделей наилучшие статистические характеристики были получены для множества дескрипторов с максимальным размером фрагментов, равным трем. Выбор оптимального набора дескрипторов проводился по значению среднеквадратичной ошибки для внутренней контрольной выборки, поскольку некорректно ориентироваться как на минимум для обучающей выборки (во избежание построения переопределенных моделей), так и на внешнюю контрольную выборку (поскольку данные для этой выборки следует использовать только для оценки предсказательной способности, а не для построения и отбора моделей). Среднеквадратичная ошибка 0,20 0,15 0,10 Максимальное количество атомов 1 3 Обучающая выборка Контрольная выборка Выборка для прогноза 5 7 9 11 13 Обучающая выборка Выборка для прогноза Рис. 43. Гистограмма зависимости среднеквадратичной ошибки от максимального размера фрагментных дескрипторов Само по себе наличие оптимального значения максимального размера, обеспечивающего наилучшую прогнозирующую способность моделей, для генерируемых фрагментов не является очевидным, и поэтому заслуживает от- 209
- Page 157 and 158: После нахождения п
- Page 159 and 160: 5.2.1. Прогнозировани
- Page 161 and 162: зей, а также учитыв
- Page 163 and 164: Эксперимент 50 40 30 20
- Page 165 and 166: Построение QSPR-моде
- Page 167 and 168: работе [268], но с при
- Page 169 and 170: ляются удобным инс
- Page 171 and 172: чета этого свойств
- Page 173 and 174: База 2 (88 соединений
- Page 175 and 176: «редких фрагментов
- Page 177 and 178: пользовании 25 деск
- Page 179 and 180: Tf расч. о С, Tf calc. o C 30
- Page 181 and 182: На первом этапе раб
- Page 183 and 184: 0,935; s = 0,76 кДж·моль -1
- Page 185 and 186: пример использован
- Page 187 and 188: почечных фрагменто
- Page 189 and 190: ской структуры «ре
- Page 191 and 192: 1 O O OH C C a O C H 2 O H + C C a
- Page 193 and 194: веществ, например,
- Page 195 and 196: до 28.0 (MAE DCV ). Повыше
- Page 197 and 198: Таким образом, псев
- Page 199 and 200: цепочки длиной до д
- Page 201 and 202: алканов, см 3 /моль 7
- Page 203 and 204: свое преимущество
- Page 205 and 206: 6.3.1. Общая методоло
- Page 207: бирался оптимальны
- Page 211 and 212: При анализе дескри
- Page 213 and 214: 414]). Следует также о
- Page 215 and 216: d расч., г/куб.см 4,0 3,0
- Page 217 and 218: Табл. 15. Корреляция
- Page 219 and 220: Табл. 16. Усредненны
- Page 221 and 222: Как видно из Табл. 16
- Page 223 and 224: нием ошибки примен
- Page 225 and 226: NASAWIN (см. раздел 8.2) н
- Page 227 and 228: ГЛАВА 7. РАЗРАБОТКА
- Page 229 and 230: ного моделирования
- Page 231 and 232: ля и даже более сов
- Page 233 and 234: ного цианинового к
- Page 235 and 236: Значения констант
- Page 237 and 238: делена на обучающу
- Page 239 and 240: ность. Основной цел
- Page 241 and 242: На Рис. 50 приводятс
- Page 243 and 244: молекул с конденси
- Page 245 and 246: 7.1.4. Прогнозировани
- Page 247 and 248: сивов разрозненных
- Page 249 and 250: используются как т
- Page 251 and 252: были модифицирован
- Page 253 and 254: зависимости давлен
- Page 255 and 256: Объединенный набор
- Page 257 and 258: Оба механизма вклю
0,25<br />
Результаты полученных линейно-регрессионных моделей для 13 наборов<br />
дескрипторов с различным максимальным размером фрагментов (130 моделей)<br />
представлены в Табл. 11 и на Рис. 43. Как видно из Рис. 43, минимумы для обучающей<br />
и контрольной выборок, а также для выборки для оценки прогнозирующей<br />
способности приходятся на множество дескрипторов с максимальным<br />
числом атомов, равным 2, 3 и 6, соответственно. Однако, при построении нейросетевых<br />
моделей наилучшие статистические характеристики были получены<br />
для множества дескрипторов с максимальным размером фрагментов, равным<br />
трем. Выбор оптимального набора дескрипторов проводился по значению<br />
среднеквадратичной ошибки для внутренней контрольной выборки, поскольку<br />
некорректно ориентироваться как на минимум для обучающей выборки (во избежание<br />
построения переопределенных моделей), так и на внешнюю контрольную<br />
выборку (поскольку данные для этой выборки следует использовать только<br />
для оценки предсказательной способности, а не для построения и отбора моделей).<br />
Среднеквадратичная<br />
ошибка<br />
0,20<br />
0,15<br />
0,10<br />
Максимальное количество<br />
атомов<br />
1<br />
3<br />
Обучающая выборка<br />
Контрольная выборка<br />
Выборка для прогноза<br />
5<br />
7<br />
9<br />
11 13<br />
Обучающая<br />
выборка<br />
Выборка для<br />
прогноза<br />
Рис. 43. Гистограмма зависимости среднеквадратичной ошибки от максимального<br />
размера фрагментных дескрипторов<br />
Само по себе наличие оптимального значения максимального размера,<br />
обеспечивающего наилучшую прогнозирующую способность моделей, для генерируемых<br />
фрагментов не является очевидным, и поэтому заслуживает от-<br />
209