Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
ГЛАВА 6. СОЧЕТАНИЕ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ И ФРАГМЕНТНЫХ ДЕСКРИПТОРОВ Данная глава посвящена изучению эффекта от совместного использования искусственных нейронных сетей и фрагментных дескрипторов. На большом числе примеров проводится сравнение с линейными моделями, построенными на тех же базах данных с применением тех же самых дескрипторов. 6.1. Первые свидетельства эффективности совместного использования искусственных нейронных сетей и фрагментных дескрипторов В 1993 г. мы опубликовали статью, в которой искусственные нейронные сети и пошаговая множественная линейная регрессия были систематически применены при построении количественных корреляций «структура-свойства» (QSPR-моделей) для разнообразных физико-химических свойств углеводородов (главным образом, алканов) [406]. В частности, были построены модели для прогнозирования: 1) температуры алканов (выборка, насчитывающая 177 соединений, была взята из справочника [407]); 2) температуры плавления алканов (выборка, насчитывающая 90 соединений, была взята из справочника [407]); 3) октанового числа алканов, алкенов и циклоалкенов (выборка, насчитывающая 153 соединения, была взята из работы [408]); 4) одновременно шести свойств (молярного объема, молярной рефракции, теплоты испарения, критической температуры, критического давления и поверхностного натяжения) алканов (выборка, насчитывающая 69 соединений, была взята с работы [409]). В ходе исследования два альтернативных набора дескрипторов были использованы для описания химических структур: топологические индексы (ТИ) [326] и фрагментные дескрипторы (ФД) [356]. Набор топологических индексов включал индексы молекулярной связности 0 χ, 1 χ, 2 χ, 3 χ p , 3 χ c , 4 χ p , 4 χ pc , индекс Винера W и индексы молекулярной формы 0 κ, 1 κ, 2 κ, 3 κ. Топологические индексы рассчитывались при помощи разработанных нами дескрипторных блоков CONNECT, BALABAN и KAPPA. В качестве структурных фрагментов брались 198
цепочки длиной до двух атомов. Основанные на них фрагментные дескрипторы рассчитывались при помощи разработанного нами дескрипторного блока FRAGMENT (см. разделы 5.1 и 8.3). В N-м компьютерном эксперименте выборка, взятая из соответствующего литературного источника, была разбита на обучающую выборку с N t соединениями и контрольную выборку с N v соединениями. Для обеих выборок были рассчитаны молекулярные дескрипторы. Для построения нейросетевой модели использовалась искусственная нейронная сеть с обратным распространением ошибок, содержащая n i входных, n o выходных, n h скрытых и 2 псевдонейрона смещения (bias). Каждый входной нейрон соответствовал одному из рассчитанных молекулярных дескрипторов, каждый выходной – прогнозируемому свойству, а число скрытых нейронов бралось таким, чтобы максимально уменьшить «переучивание» при сохранении точности прогноза. Обучение велось при помощи алгоритма «обобщенного дельта-правила», скорость обучения была взята η = 0.8, момент μ = 0.9, а критерием завершения обучения являлось уменьшение изменения шкалированной суммарной среднеквадратичной ошибки для обучающей выборки после очередной эпохи ниже порогового значения 0.0001. Качество работы искусственной нейронной сети определялось по среднеквадратичной ошибке прогнозирования значений свойства на обучающей выборке s t , по коэффициенту корреляции между прогнозируемыми и экспериментальными значения свойства на обучающей выборке R и среднеквадратичной ошибке прогноза на контрольной выборке s v . При проведении данного исследования была использована первая версия разработанной нами программы-эмулятора искусственных нейронных сетей NASA (см. раздел 8.1). Для проведения сравнения нейросетевых моделей с линейнорегрессионными, те же самые выборки при тех же наборах рассчитанных молекулярных дескрипторов и тех же разбивках выборок на обучающие и контрольные были обработаны на программном комплексе «ЭММА» (см. раздел 8.1), предназначенном для проведения QSPR/QSAR-исследований при помощи пошаговой процедуры множественного линейно-регрессионного анализа количественных зависимостей между свойствами химических соединений и описы- 199
- Page 147 and 148: водородного соседа
- Page 149 and 150: Атом кислорода в со
- Page 151 and 152: PA1 -PH 2 Атом фосфора,
- Page 153 and 154: Br2 -Br= Формально нез
- Page 155 and 156: то в дальнейшем буд
- Page 157 and 158: После нахождения п
- Page 159 and 160: 5.2.1. Прогнозировани
- Page 161 and 162: зей, а также учитыв
- Page 163 and 164: Эксперимент 50 40 30 20
- Page 165 and 166: Построение QSPR-моде
- Page 167 and 168: работе [268], но с при
- Page 169 and 170: ляются удобным инс
- Page 171 and 172: чета этого свойств
- Page 173 and 174: База 2 (88 соединений
- Page 175 and 176: «редких фрагментов
- Page 177 and 178: пользовании 25 деск
- Page 179 and 180: Tf расч. о С, Tf calc. o C 30
- Page 181 and 182: На первом этапе раб
- Page 183 and 184: 0,935; s = 0,76 кДж·моль -1
- Page 185 and 186: пример использован
- Page 187 and 188: почечных фрагменто
- Page 189 and 190: ской структуры «ре
- Page 191 and 192: 1 O O OH C C a O C H 2 O H + C C a
- Page 193 and 194: веществ, например,
- Page 195 and 196: до 28.0 (MAE DCV ). Повыше
- Page 197: Таким образом, псев
- Page 201 and 202: алканов, см 3 /моль 7
- Page 203 and 204: свое преимущество
- Page 205 and 206: 6.3.1. Общая методоло
- Page 207 and 208: бирался оптимальны
- Page 209 and 210: 0,25 Результаты полу
- Page 211 and 212: При анализе дескри
- Page 213 and 214: 414]). Следует также о
- Page 215 and 216: d расч., г/куб.см 4,0 3,0
- Page 217 and 218: Табл. 15. Корреляция
- Page 219 and 220: Табл. 16. Усредненны
- Page 221 and 222: Как видно из Табл. 16
- Page 223 and 224: нием ошибки примен
- Page 225 and 226: NASAWIN (см. раздел 8.2) н
- Page 227 and 228: ГЛАВА 7. РАЗРАБОТКА
- Page 229 and 230: ного моделирования
- Page 231 and 232: ля и даже более сов
- Page 233 and 234: ного цианинового к
- Page 235 and 236: Значения констант
- Page 237 and 238: делена на обучающу
- Page 239 and 240: ность. Основной цел
- Page 241 and 242: На Рис. 50 приводятс
- Page 243 and 244: молекул с конденси
- Page 245 and 246: 7.1.4. Прогнозировани
- Page 247 and 248: сивов разрозненных
цепочки длиной до двух атомов. Основанные на них фрагментные дескрипторы<br />
рассчитывались при помощи разработанного нами дескрипторного блока<br />
FRAGMENT (см. разделы 5.1 и 8.3).<br />
В N-м компьютерном эксперименте выборка, взятая из соответствующего<br />
литературного источника, была разбита на обучающую выборку с N t соединениями<br />
и контрольную выборку с N v соединениями. Для обеих выборок были<br />
рассчитаны молекулярные дескрипторы. Для построения нейросетевой модели<br />
использовалась искусственная нейронная сеть с обратным распространением<br />
ошибок, содержащая n i входных, n o выходных, n h скрытых и 2 псевдонейрона<br />
смещения (bias). Каждый входной нейрон соответствовал одному из рассчитанных<br />
молекулярных дескрипторов, каждый выходной – прогнозируемому свойству,<br />
а число скрытых нейронов бралось таким, чтобы максимально уменьшить<br />
«переучивание» при сохранении точности прогноза. Обучение велось при помощи<br />
алгоритма «обобщенного дельта-правила», скорость обучения была взята<br />
η = 0.8, момент μ = 0.9, а критерием завершения обучения являлось уменьшение<br />
изменения шкалированной суммарной среднеквадратичной ошибки для обучающей<br />
выборки после очередной эпохи ниже порогового значения 0.0001. Качество<br />
работы искусственной нейронной сети определялось по среднеквадратичной<br />
ошибке прогнозирования значений свойства на обучающей выборке s t ,<br />
по коэффициенту корреляции между прогнозируемыми и экспериментальными<br />
значения свойства на обучающей выборке R и среднеквадратичной ошибке<br />
прогноза на контрольной выборке s v . При проведении данного исследования<br />
была использована первая версия разработанной нами программы-эмулятора<br />
искусственных нейронных сетей NASA (см. раздел 8.1).<br />
Для проведения сравнения нейросетевых моделей с линейнорегрессионными,<br />
те же самые выборки при тех же наборах рассчитанных молекулярных<br />
дескрипторов и тех же разбивках выборок на обучающие и контрольные<br />
были обработаны на программном комплексе «ЭММА» (см. раздел 8.1),<br />
предназначенном для проведения QSPR/QSAR-исследований при помощи пошаговой<br />
процедуры множественного линейно-регрессионного анализа количественных<br />
зависимостей между свойствами химических соединений и описы-<br />
199