Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
лютная ошибка для обучающей выборки 20.6 o С, для контрольной выборки - 23.3 o С): T f расч . = - 0.826 + 0.285 fr1 + 0.497 fr2 + 0.151 fr3 – 6.718 fr4 + 0.208 fr5 + 0.130 fr6 – 1.87 fr7 + 4.50 fr8 + 0.369fr9 n = 398, R 2 = 0.8724, s = 18.8 o C, средняя ошибка (по модулю) на прогнозе 15.2 o С, где fr i равно числу следующих фрагментов в молекулах: fr1 - N, fr2 - OH , fr3 - • (произвольный атом), fr4 – CH 3 , fr5 - C-S, fr6 - C-C=O, Fr7 - •-•-• (цепочка из трех произвольных атомов), fr8 - C Ar H÷C Ar H÷C Ar R÷C Ar H (÷ - ароматическая связь), fr9 - C-C-C-Hal Расширение числа используемых фрагментных дескрипторов до 25 позволяет улучшить качество линейно-регрессионной модели практически до качества нейросетевой [386]. В их число входят дескрипторы, характеризующие количество в молекуле атомов галогенов, N, O, S; а также двух- и трехатомных фрагментов с различными типами связей (двойной, тройной, ароматической: fr1 - I, fr2 - F , fr3 - Br, fr4 – S, fr5 – N,. fr6 – OH, Fr7 - •, fr8 – C=O, fr9 - CH 3 NR 2 , fr10 – CH 2 Hal, fr11 – =CR-NHR, fr12 – =CR-OH, fr13 – CH 3 -C 3 sp , fr14 - HC Ar ÷C Ar R÷C Ar , fr15 – C-C=O, fr16 – =CR-C 3 sp -Cl, fr17 – CH 2 -CH 2 -С≡, fr18 - C- C 3 sp -Cl, fr19 – =C-C Ar ÷C Ar -OH, fr20 – C-C-C-N, fr21 –C Ar ÷C Ar ÷C Ar ÷C Ar -N, fr22 – C-C-C-S-C, fr23 – C-C-C-C-C-O, fr24 - CH 3 - C Ar (÷C Ar H) 2 , fr25 – Hal-C(-C) 2 . На Рис. 36 (стр. 179) представлена диаграмма разброса расчетных и экспериментальных значений температуры вспышки для обучающей и контрольной выборок соединений Базы 1 согласно модели, построенной на 25 фрагментных дескрипторах (R 2 = 0.9557, s = 11.4 o C, средняя абсолютная ошибка прогноза = 11.8, среднеквадратичная ошибка для обучающей выборки, RMS обуч . = 10.87 o C, среднеквадратичная ошибка прогноза RMS прог . = 15.75 o C). 178
Tf расч. о С, Tf calc. o C 300 200 100 0 -100 -100 0 100 200 300 T f эксп. о С, T f exp . o C Tf расч.. o C, Tf calc. o C 300 200 100 0 -100 -100 0 100 200 T o f эксп. C, T o f exp. C Рис. 36. Диаграмма разброса расчетных и экспериментальных значений температуры вспышки для обучающей (слева) и конторольной (справа) выборок Базы 1 согласно линейно-регрессионной модели, построенной на 25 фрагментных дескрипторах Уменьшение количества соединений в Базе 1 за счет исключения 12 структур приводит к незначительному ухудшению качества моделей для Базы 1А (ср. Модели 1 и 2, Табл. 6 на стр. 177), при этом природа используемых в модели дескрипторов остается в целом неизменной, кроме замены фрагмента (C Ar H÷C Ar H÷C Ar R÷C Ar H) на фрагмент (–O-СR=О). Далее мы использовали фрагментные дескрипторы для построения моделей для Базы 2 и “уменьшенной” Базы 2А (Табл. 6 на стр. 177, Модели 3 и 4). Как это было сделано в работе [387], для обучающей выборки, куда были включены все соединения, представленные в Базе 2, мы получили модели, по качеству не уступающие моделям 1 и 2 и превосходящие по статистическим показателям модель (см. выше), приведенную в работе [387]. Например, модель, построенная для Базы 2 на 25 дескрипторах, имеет следующие статистические показатели: R 2 = 0.9566, s = 11.2 o C, RMSE обуч . = 10.67 o C. Предсказательную способность QSPR-модели для Базы 2 мы оценили, используя ее разбивку на обучающую (179 соединений) и контрольную (89 соединений) выборки. Модель, построенная на 9 фрагментных дескрипторах, имеет весьма высокие прогнозирующие свойства (R 2 прогн. = 0.9315, средняя ошибка (по модулю) прогноза = 9.9 o C (Табл. 6 на стр. 177, Модель 5). Таким образом, нами построены на основе фрагментных дескрипторов линейно-регрессионные модели, позволяющие прогнозировать температуру 179
- Page 127 and 128: В соответствии с вы
- Page 129 and 130: зовании рассмотрен
- Page 131 and 132: R4 R5 R3 R6 N (a) R2 6 N 2 6 2 6 2
- Page 133 and 134: f ( x, y) ≡ f ( y, x) ⇔ f ( x,
- Page 135 and 136: R3 R2 R5 R6 Общая формул
- Page 137 and 138: ко, эта разница все
- Page 139 and 140: переставленными эк
- Page 141 and 142: лей приведен в рабо
- Page 143 and 144: деленными» атомами
- Page 145 and 146: 5.1.2. Иерархическая
- Page 147 and 148: водородного соседа
- Page 149 and 150: Атом кислорода в со
- Page 151 and 152: PA1 -PH 2 Атом фосфора,
- Page 153 and 154: Br2 -Br= Формально нез
- Page 155 and 156: то в дальнейшем буд
- Page 157 and 158: После нахождения п
- Page 159 and 160: 5.2.1. Прогнозировани
- Page 161 and 162: зей, а также учитыв
- Page 163 and 164: Эксперимент 50 40 30 20
- Page 165 and 166: Построение QSPR-моде
- Page 167 and 168: работе [268], но с при
- Page 169 and 170: ляются удобным инс
- Page 171 and 172: чета этого свойств
- Page 173 and 174: База 2 (88 соединений
- Page 175 and 176: «редких фрагментов
- Page 177: пользовании 25 деск
- Page 181 and 182: На первом этапе раб
- Page 183 and 184: 0,935; s = 0,76 кДж·моль -1
- Page 185 and 186: пример использован
- Page 187 and 188: почечных фрагменто
- Page 189 and 190: ской структуры «ре
- Page 191 and 192: 1 O O OH C C a O C H 2 O H + C C a
- Page 193 and 194: веществ, например,
- Page 195 and 196: до 28.0 (MAE DCV ). Повыше
- Page 197 and 198: Таким образом, псев
- Page 199 and 200: цепочки длиной до д
- Page 201 and 202: алканов, см 3 /моль 7
- Page 203 and 204: свое преимущество
- Page 205 and 206: 6.3.1. Общая методоло
- Page 207 and 208: бирался оптимальны
- Page 209 and 210: 0,25 Результаты полу
- Page 211 and 212: При анализе дескри
- Page 213 and 214: 414]). Следует также о
- Page 215 and 216: d расч., г/куб.см 4,0 3,0
- Page 217 and 218: Табл. 15. Корреляция
- Page 219 and 220: Табл. 16. Усредненны
- Page 221 and 222: Как видно из Табл. 16
- Page 223 and 224: нием ошибки примен
- Page 225 and 226: NASAWIN (см. раздел 8.2) н
- Page 227 and 228: ГЛАВА 7. РАЗРАБОТКА
лютная ошибка для обучающей выборки 20.6 o С, для контрольной выборки -<br />
23.3 o С):<br />
T f расч . = - 0.826 + 0.285 fr1 + 0.497 fr2 + 0.151 fr3 – 6.718 fr4 + 0.208 fr5 +<br />
0.130 fr6 – 1.87 fr7 + 4.50 fr8 + 0.369fr9<br />
n = 398, R 2 = 0.8724, s = 18.8 o C, средняя ошибка (по модулю) на прогнозе 15.2<br />
o С, где fr i равно числу следующих фрагментов в молекулах: fr1 - N, fr2 - OH ,<br />
fr3 - • (произвольный атом), fr4 – CH 3 , fr5 - C-S, fr6 - C-C=O, Fr7 - •-•-• (цепочка<br />
из трех произвольных атомов), fr8 - C Ar H÷C Ar H÷C Ar R÷C Ar H (÷ - ароматическая<br />
связь), fr9 - C-C-C-Hal<br />
Расширение числа используемых фрагментных дескрипторов до 25 позволяет<br />
улучшить качество линейно-регрессионной модели практически до качества<br />
нейросетевой [386]. В их число входят дескрипторы, характеризующие<br />
количество в молекуле атомов галогенов, N, O, S; а также двух- и трехатомных<br />
фрагментов с различными типами связей (двойной, тройной, ароматической: fr1<br />
- I, fr2 - F , fr3 - Br, fr4 – S, fr5 – N,. fr6 – OH, Fr7 - •, fr8 – C=O, fr9 - CH 3 NR 2 ,<br />
fr10 – CH 2 Hal, fr11 – =CR-NHR, fr12 – =CR-OH, fr13 – CH 3 -C 3 sp , fr14 -<br />
HC Ar ÷C Ar R÷C Ar , fr15 – C-C=O, fr16 – =CR-C 3 sp -Cl, fr17 – CH 2 -CH 2 -С≡, fr18 - C-<br />
C 3 sp -Cl, fr19 – =C-C Ar ÷C Ar -OH, fr20 – C-C-C-N, fr21 –C Ar ÷C Ar ÷C Ar ÷C Ar -N, fr22 –<br />
C-C-C-S-C, fr23 – C-C-C-C-C-O, fr24 - CH 3 - C Ar (÷C Ar H) 2 , fr25 – Hal-C(-C) 2 . На<br />
Рис. 36 (стр. 179) представлена диаграмма разброса расчетных и экспериментальных<br />
значений температуры вспышки для обучающей и контрольной<br />
выборок соединений Базы 1 согласно модели, построенной на 25 фрагментных<br />
дескрипторах (R 2 = 0.9557, s = 11.4 o C, средняя абсолютная ошибка прогноза =<br />
11.8, среднеквадратичная ошибка для обучающей выборки, RMS обуч . = 10.87 o C,<br />
среднеквадратичная ошибка прогноза RMS прог . = 15.75 o C).<br />
178