Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
скольку явление «переучивания» было выражено очень слабо либо вообще не наблюдалось. В Табл. 10 приведено сравнение точности прогноза для построенных линейно-регрессионных моделей. Табл. 10. Точность прогноза для линейно-регрессионных и нейросетевых моделей Свойство Подраздел MAE пред или RMSE пред * для линейнорегрессионной модели Магнитная восприимчивость. ×10 - -6 единиц Энтальпия парообразования, MAE пред или RMSE пред * для нейросетевой модели 5.2.3 7.02 6.25 5.2.4 1.57 1.77 ккал/моль Энтальпия сублимации, ккал/моль 5.2.5 2.16 1.66 Температура вспышки, o C 5.2.6 15.8* 14.6* Как видно из Табл. 10, для трех из четырех свойств (т.е. для магнитной восприимчивости, энтальпии сублимации и температуры вспышки) применение нейронных сетей приводит к уменьшению ошибок прогноза. Что же касается энтальпии парообразования, то можно предположить, что более высокая прогнозирующая способность линейно-регрессионной модели обусловлена строгим аддитивным характером этого свойства. Таким образом, в большинстве случаем применение нейронных сетей вместо аппарата множественной линейной регрессии приводит к повышению прогнозирующей способности количественных моделей «структура-свойство». 6.3. Моделирование физических свойств органических жидкостей в рамках процедуры трехвыборочного скользящего контроля 204
6.3.1. Общая методология моделирования Для демонстрации эффективности использования фрагментных дескрипторов в сочетании с аппаратом искусственных нейронных сетей при прогнозировании физических свойств самых разнообразных органических соединений было проведено как линейно-регрессионное, так и нейросетевое моделирование вязкости, плотности (для жидких веществ), давления насыщенных паров и температуры кипения на основе единой методики, которую можно назвать процедурой трехвыборочного скользящего контроля. Его разработка явилась дальнейшим развитием трехвыборочного подхода (см. подраздел 4.1.3). Основная идея метода – использование процедуры скользящего контроля и ансамбля нейросетевых моделей вместо единичной модели для того, чтобы сделать прогноз и оценку его качества более обоснованным и независящим от конкретной разбивки базы на три выборки – обучающую, внутреннюю и внешнюю контрольные. Эта процедура была нами применена только в данном цикле работ и в дальнейшем была заменена на более эффективную (вследствие генерации большего разнообразия нейросетевых моделей) процедуру двойного скользящего контроля (см. подраздел 4.1.4). Во всех случаях исследования в рамках этого подхода проводилось по следующей схеме. На первом этапе для всех соединений из базы данных, включающей информацию о структурах химических соединений и их свойствах, проводился расчет фрагментных дескрипторов (чисел вхождений структурных фрагментов в химическую структуру), причем максимальный размер фрагментов варьировался от 1 до 10 атомов. При расчете исключались фрагменты, встречающиеся в выборке менее, чем в 1 % соединений, а также статистически идентичные. Далее для каждого дескриптора были рассчитаны нелинейные модификации (квадрат (D 2 i ), квадратный корень (D 1/2 i ), десятичный логарифм (lg (D i )), отношение значения дескриптора к числу неводородных атомов в молекуле (D i /n a )). Следует отметить, что использование, наряду с фрагментными дескрипторами, их нелинейных модификаций волне оправдано. Для исследования этого 205
- Page 153 and 154: Br2 -Br= Формально нез
- Page 155 and 156: то в дальнейшем буд
- Page 157 and 158: После нахождения п
- Page 159 and 160: 5.2.1. Прогнозировани
- Page 161 and 162: зей, а также учитыв
- Page 163 and 164: Эксперимент 50 40 30 20
- Page 165 and 166: Построение QSPR-моде
- Page 167 and 168: работе [268], но с при
- Page 169 and 170: ляются удобным инс
- Page 171 and 172: чета этого свойств
- Page 173 and 174: База 2 (88 соединений
- Page 175 and 176: «редких фрагментов
- Page 177 and 178: пользовании 25 деск
- Page 179 and 180: Tf расч. о С, Tf calc. o C 30
- Page 181 and 182: На первом этапе раб
- Page 183 and 184: 0,935; s = 0,76 кДж·моль -1
- Page 185 and 186: пример использован
- Page 187 and 188: почечных фрагменто
- Page 189 and 190: ской структуры «ре
- Page 191 and 192: 1 O O OH C C a O C H 2 O H + C C a
- Page 193 and 194: веществ, например,
- Page 195 and 196: до 28.0 (MAE DCV ). Повыше
- Page 197 and 198: Таким образом, псев
- Page 199 and 200: цепочки длиной до д
- Page 201 and 202: алканов, см 3 /моль 7
- Page 203: свое преимущество
- Page 207 and 208: бирался оптимальны
- Page 209 and 210: 0,25 Результаты полу
- Page 211 and 212: При анализе дескри
- Page 213 and 214: 414]). Следует также о
- Page 215 and 216: d расч., г/куб.см 4,0 3,0
- Page 217 and 218: Табл. 15. Корреляция
- Page 219 and 220: Табл. 16. Усредненны
- Page 221 and 222: Как видно из Табл. 16
- Page 223 and 224: нием ошибки примен
- Page 225 and 226: NASAWIN (см. раздел 8.2) н
- Page 227 and 228: ГЛАВА 7. РАЗРАБОТКА
- Page 229 and 230: ного моделирования
- Page 231 and 232: ля и даже более сов
- Page 233 and 234: ного цианинового к
- Page 235 and 236: Значения констант
- Page 237 and 238: делена на обучающу
- Page 239 and 240: ность. Основной цел
- Page 241 and 242: На Рис. 50 приводятс
- Page 243 and 244: молекул с конденси
- Page 245 and 246: 7.1.4. Прогнозировани
- Page 247 and 248: сивов разрозненных
- Page 249 and 250: используются как т
- Page 251 and 252: были модифицирован
- Page 253 and 254: зависимости давлен
6.3.1. Общая методология моделирования<br />
Для демонстрации эффективности использования фрагментных дескрипторов<br />
в сочетании с аппаратом искусственных нейронных сетей при прогнозировании<br />
физических свойств самых разнообразных органических соединений<br />
было проведено как линейно-регрессионное, так и нейросетевое моделирование<br />
вязкости, плотности (для жидких веществ), давления насыщенных паров и температуры<br />
кипения на основе единой методики, которую можно назвать процедурой<br />
трехвыборочного скользящего контроля. Его разработка явилась дальнейшим<br />
развитием трехвыборочного подхода (см. подраздел 4.1.3). Основная<br />
идея метода – использование процедуры скользящего контроля и ансамбля<br />
нейросетевых моделей вместо единичной модели для того, чтобы сделать прогноз<br />
и оценку его качества более обоснованным и независящим от конкретной<br />
разбивки базы на три выборки – обучающую, внутреннюю и внешнюю контрольные.<br />
Эта процедура была нами применена только в данном цикле работ и<br />
в дальнейшем была заменена на более эффективную (вследствие генерации<br />
большего разнообразия нейросетевых моделей) процедуру двойного скользящего<br />
контроля (см. подраздел 4.1.4).<br />
Во всех случаях исследования в рамках этого подхода проводилось по<br />
следующей схеме. На первом этапе для всех соединений из базы данных, включающей<br />
информацию о структурах химических соединений и их свойствах,<br />
проводился расчет фрагментных дескрипторов (чисел вхождений структурных<br />
фрагментов в химическую структуру), причем максимальный размер фрагментов<br />
варьировался от 1 до 10 атомов. При расчете исключались фрагменты,<br />
встречающиеся в выборке менее, чем в 1 % соединений, а также статистически<br />
идентичные. Далее для каждого дескриптора были рассчитаны нелинейные модификации<br />
(квадрат (D 2 i ), квадратный корень (D 1/2 i ), десятичный логарифм<br />
(lg (D i )), отношение значения дескриптора к числу неводородных атомов в молекуле<br />
(D i /n a )).<br />
Следует отметить, что использование, наряду с фрагментными дескрипторами,<br />
их нелинейных модификаций волне оправдано. Для исследования этого<br />
205