Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
машинного обучения (ассоциативные нейронные сети, машины опорных векторов, метод ближайших соседей, метод частичных наименьших квадратов, нейронные сети обратного распространения и множественная линейная регрессия), реализованные в нескольких программных комплексах (VCCLAB, ISIDA и NASAWIN [см. раздел 8.2]), в сочетании с разнообразными типами дескрипторов (несколько типов фрагментных дескрипторов, псевдофрагментные дескрипторы типа FRAGPROP [см. разделы 5.4 и 8.4], дескрипторы на основе электроно-топологических состояний атомов, а также все виды дескрипторов, генерируемых программой DRAGON) были впервые применены для обработки больших и структурно разнородных баз по температурам плавления ионных жидкостей [401]. В данной работе были построены QSPR-модели для четырех выборок (см. Рис. 48), включающих: (1) 126 бромидов производных пиридинов (PYR, IV и V); (2) 384 бромидов производных имидазолов и бензимидазолов (IMZ, VI и VII); (3) 207 бромидов четвертичных аммониев (QUAT, VIII); (4) 717 соединений, входящих во все вышеупомянутые наборы (FULL). R 2 R 2 N + NR 1 R 1 R 2 R 3 N N + R 1 N + R 1 N + R 1 R 2 R 4 N+ R 2 R 3 R 3 Br- Br- Br- Br- Br- IV V VI VII VIII Рис. 48. Структуры ионных жидкостей Оценка прогнозирующей способности построенных моделей проводилась при помощи процедуры 5-кратного внешнего (т.е. при котором информация из контрольных выборок никак не может участвовать в отборе лучших моделей) скользящего контроля по трем показателям (Q 2 , RMSE, MAE) для четырех выборок. В нашей части этой большой совместной работы в качестве методов машинного обучения мы использовали реализованные в программном комплексе 224
NASAWIN (см. раздел 8.2) нейросети обратного распространения (BPNN, см. подраздел 1.2.4), метод БПМЛР (FSMLR, см. подраздел 4.1.5) и метод частичных наименьших квадратов (PLS), а в качестве дескрипторов – набор фрагментных дескрипторов, вычисляемых блоком FRAGMENT (см. раздел 8.3), к которым был примешен набор псевдофрагментных дескрипторов (см. раздел 5.4), вычисляемых блоком FRAGPROP (см. раздел 8.4). Использование псевдофрагментных дескрипторов было обусловлено тем, что как показали предварительные вычислительные эксперименты, они в данном случае значительно повышают прогнозирующую способность построенных моделей. Кроме того, следует отметить, что обучение нейросети велось на полном наборе дескрипторов (попытки использовать процедуру БПМЛР для их предварительного отбора заканчивались значительным падением прогнозирующей способности модели). Вследствие этого всякий раз проводился визуальный контроль синапсов нейросети и в случае «паралича» процедура обучения вручную останавливалась и перезапускалась заново. В Табл. 18 представлены значения средней абсолютной ошибки прогнозирования (MAE), вычисленной при 5-кратном внешнем скользящем контроле. Отметим, что нейросеть обратного распространения приводит к построению лучших моделей по сравнению с БПМЛР и методом частичных наименьших квадратов PLS. Табл. 18. Значения средней абсолютной ошибки прогнозирования температуры плавления ионных жидкостей (в градусах) PYR IMZ QUAT FULL BPNN 26.2 32.4 30.3 31.5 FSMLR 34.8 36.2 36.1 33.7 PLS 32.5 31.9 31.8 31.9 Для сравнения QSPR-моделей, получаемых разными методами, каждой комбинации выборки и статистического показателя оценивалось среднее значение этих показателей, и каждой модели присваивался ранг “0”, если по всем трем показателям она оказывалась лучше средней, и “1” если хотя бы по одному показателю она уступала среднему. Далее ранги полученных моделей скла- 225
- Page 173 and 174: База 2 (88 соединений
- Page 175 and 176: «редких фрагментов
- Page 177 and 178: пользовании 25 деск
- Page 179 and 180: Tf расч. о С, Tf calc. o C 30
- Page 181 and 182: На первом этапе раб
- Page 183 and 184: 0,935; s = 0,76 кДж·моль -1
- Page 185 and 186: пример использован
- Page 187 and 188: почечных фрагменто
- Page 189 and 190: ской структуры «ре
- Page 191 and 192: 1 O O OH C C a O C H 2 O H + C C a
- Page 193 and 194: веществ, например,
- Page 195 and 196: до 28.0 (MAE DCV ). Повыше
- Page 197 and 198: Таким образом, псев
- Page 199 and 200: цепочки длиной до д
- Page 201 and 202: алканов, см 3 /моль 7
- Page 203 and 204: свое преимущество
- Page 205 and 206: 6.3.1. Общая методоло
- Page 207 and 208: бирался оптимальны
- Page 209 and 210: 0,25 Результаты полу
- Page 211 and 212: При анализе дескри
- Page 213 and 214: 414]). Следует также о
- Page 215 and 216: d расч., г/куб.см 4,0 3,0
- Page 217 and 218: Табл. 15. Корреляция
- Page 219 and 220: Табл. 16. Усредненны
- Page 221 and 222: Как видно из Табл. 16
- Page 223: нием ошибки примен
- Page 227 and 228: ГЛАВА 7. РАЗРАБОТКА
- Page 229 and 230: ного моделирования
- Page 231 and 232: ля и даже более сов
- Page 233 and 234: ного цианинового к
- Page 235 and 236: Значения констант
- Page 237 and 238: делена на обучающу
- Page 239 and 240: ность. Основной цел
- Page 241 and 242: На Рис. 50 приводятс
- Page 243 and 244: молекул с конденси
- Page 245 and 246: 7.1.4. Прогнозировани
- Page 247 and 248: сивов разрозненных
- Page 249 and 250: используются как т
- Page 251 and 252: были модифицирован
- Page 253 and 254: зависимости давлен
- Page 255 and 256: Объединенный набор
- Page 257 and 258: Оба механизма вклю
- Page 259 and 260: творителя, а также
- Page 261 and 262: Табл. 29. Характерис
- Page 263 and 264: набора дескрипторо
- Page 265 and 266: угодно сложные зав
- Page 267 and 268: симостей «структур
- Page 269 and 270: лей, хотя все модел
- Page 271 and 272: одновременно решае
- Page 273 and 274: Как видно приведен
машинного обучения (ассоциативные нейронные сети, машины опорных векторов,<br />
метод ближайших соседей, метод частичных наименьших квадратов, нейронные<br />
сети обратного распространения и множественная линейная регрессия),<br />
реализованные в нескольких программных комплексах (VCCLAB, ISIDA и<br />
NASAWIN [см. раздел 8.2]), в сочетании с разнообразными типами дескрипторов<br />
(несколько типов фрагментных дескрипторов, псевдофрагментные дескрипторы<br />
типа FRAGPROP [см. разделы 5.4 и 8.4], дескрипторы на основе электроно-топологических<br />
состояний атомов, а также все виды дескрипторов, генерируемых<br />
программой DRAGON) были впервые применены для обработки<br />
больших и структурно разнородных баз по температурам плавления ионных<br />
жидкостей [401].<br />
В данной работе были построены QSPR-модели для четырех выборок (см.<br />
Рис. 48), включающих: (1) 126 бромидов производных пиридинов (PYR, IV и<br />
V); (2) 384 бромидов производных имидазолов и бензимидазолов (IMZ, VI и<br />
VII); (3) 207 бромидов четвертичных аммониев (QUAT, VIII); (4) 717 соединений,<br />
входящих во все вышеупомянутые наборы (FULL).<br />
R 2<br />
R 2<br />
N + NR 1<br />
R 1<br />
R 2<br />
R 3<br />
N<br />
N +<br />
R 1<br />
N +<br />
R 1<br />
N +<br />
R 1<br />
R 2<br />
R 4 N+ R 2<br />
R 3<br />
R 3<br />
Br-<br />
Br-<br />
Br-<br />
Br-<br />
Br-<br />
IV V VI VII VIII<br />
Рис. 48. Структуры ионных жидкостей<br />
Оценка прогнозирующей способности построенных моделей проводилась<br />
при помощи процедуры 5-кратного внешнего (т.е. при котором информация из<br />
контрольных выборок никак не может участвовать в отборе лучших моделей)<br />
скользящего контроля по трем показателям (Q 2 , RMSE, MAE) для четырех выборок.<br />
В нашей части этой большой совместной работы в качестве методов машинного<br />
обучения мы использовали реализованные в программном комплексе<br />
224