На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

ГЛАВА 6. СОЧЕТАНИЕ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ И ФРАГМЕНТНЫХ ДЕСКРИПТОРОВ Данная глава посвящена изучению эффекта от совместного использования искусственных нейронных сетей и фрагментных дескрипторов. На большом числе примеров проводится сравнение с линейными моделями, построенными на тех же базах данных с применением тех же самых дескрипторов. 6.1. Первые свидетельства эффективности совместного использования искусственных нейронных сетей и фрагментных дескрипторов В 1993 г. мы опубликовали статью, в которой искусственные нейронные сети и пошаговая множественная линейная регрессия были систематически применены при построении количественных корреляций «структура-свойства» (QSPR-моделей) для разнообразных физико-химических свойств углеводородов (главным образом, алканов) [406]. В частности, были построены модели для прогнозирования: 1) температуры алканов (выборка, насчитывающая 177 соединений, была взята из справочника [407]); 2) температуры плавления алканов (выборка, насчитывающая 90 соединений, была взята из справочника [407]); 3) октанового числа алканов, алкенов и циклоалкенов (выборка, насчитывающая 153 соединения, была взята из работы [408]); 4) одновременно шести свойств (молярного объема, молярной рефракции, теплоты испарения, критической температуры, критического давления и поверхностного натяжения) алканов (выборка, насчитывающая 69 соединений, была взята с работы [409]). В ходе исследования два альтернативных набора дескрипторов были использованы для описания химических структур: топологические индексы (ТИ) [326] и фрагментные дескрипторы (ФД) [356]. Набор топологических индексов включал индексы молекулярной связности 0 χ, 1 χ, 2 χ, 3 χ p , 3 χ c , 4 χ p , 4 χ pc , индекс Винера W и индексы молекулярной формы 0 κ, 1 κ, 2 κ, 3 κ. Топологические индексы рассчитывались при помощи разработанных нами дескрипторных блоков CONNECT, BALABAN и KAPPA. В качестве структурных фрагментов брались 198

цепочки длиной до двух атомов. Основанные на них фрагментные дескрипторы рассчитывались при помощи разработанного нами дескрипторного блока FRAGMENT (см. разделы 5.1 и 8.3). В N-м компьютерном эксперименте выборка, взятая из соответствующего литературного источника, была разбита на обучающую выборку с N t соединениями и контрольную выборку с N v соединениями. Для обеих выборок были рассчитаны молекулярные дескрипторы. Для построения нейросетевой модели использовалась искусственная нейронная сеть с обратным распространением ошибок, содержащая n i входных, n o выходных, n h скрытых и 2 псевдонейрона смещения (bias). Каждый входной нейрон соответствовал одному из рассчитанных молекулярных дескрипторов, каждый выходной – прогнозируемому свойству, а число скрытых нейронов бралось таким, чтобы максимально уменьшить «переучивание» при сохранении точности прогноза. Обучение велось при помощи алгоритма «обобщенного дельта-правила», скорость обучения была взята η = 0.8, момент μ = 0.9, а критерием завершения обучения являлось уменьшение изменения шкалированной суммарной среднеквадратичной ошибки для обучающей выборки после очередной эпохи ниже порогового значения 0.0001. Качество работы искусственной нейронной сети определялось по среднеквадратичной ошибке прогнозирования значений свойства на обучающей выборке s t , по коэффициенту корреляции между прогнозируемыми и экспериментальными значения свойства на обучающей выборке R и среднеквадратичной ошибке прогноза на контрольной выборке s v . При проведении данного исследования была использована первая версия разработанной нами программы-эмулятора искусственных нейронных сетей NASA (см. раздел 8.1). Для проведения сравнения нейросетевых моделей с линейнорегрессионными, те же самые выборки при тех же наборах рассчитанных молекулярных дескрипторов и тех же разбивках выборок на обучающие и контрольные были обработаны на программном комплексе «ЭММА» (см. раздел 8.1), предназначенном для проведения QSPR/QSAR-исследований при помощи пошаговой процедуры множественного линейно-регрессионного анализа количественных зависимостей между свойствами химических соединений и описы- 199

цепочки длиной до двух атомов. Основанные на них фрагментные дескрипторы<br />

рассчитывались при помощи разработанного нами дескрипторного блока<br />

FRAGMENT (см. разделы 5.1 и 8.3).<br />

В N-м компьютерном эксперименте выборка, взятая из соответствующего<br />

литературного источника, была разбита на обучающую выборку с N t соединениями<br />

и контрольную выборку с N v соединениями. Для обеих выборок были<br />

рассчитаны молекулярные дескрипторы. Для построения нейросетевой модели<br />

использовалась искусственная нейронная сеть с обратным распространением<br />

ошибок, содержащая n i входных, n o выходных, n h скрытых и 2 псевдонейрона<br />

смещения (bias). Каждый входной нейрон соответствовал одному из рассчитанных<br />

молекулярных дескрипторов, каждый выходной – прогнозируемому свойству,<br />

а число скрытых нейронов бралось таким, чтобы максимально уменьшить<br />

«переучивание» при сохранении точности прогноза. Обучение велось при помощи<br />

алгоритма «обобщенного дельта-правила», скорость обучения была взята<br />

η = 0.8, момент μ = 0.9, а критерием завершения обучения являлось уменьшение<br />

изменения шкалированной суммарной среднеквадратичной ошибки для обучающей<br />

выборки после очередной эпохи ниже порогового значения 0.0001. Качество<br />

работы искусственной нейронной сети определялось по среднеквадратичной<br />

ошибке прогнозирования значений свойства на обучающей выборке s t ,<br />

по коэффициенту корреляции между прогнозируемыми и экспериментальными<br />

значения свойства на обучающей выборке R и среднеквадратичной ошибке<br />

прогноза на контрольной выборке s v . При проведении данного исследования<br />

была использована первая версия разработанной нами программы-эмулятора<br />

искусственных нейронных сетей NASA (см. раздел 8.1).<br />

Для проведения сравнения нейросетевых моделей с линейнорегрессионными,<br />

те же самые выборки при тех же наборах рассчитанных молекулярных<br />

дескрипторов и тех же разбивках выборок на обучающие и контрольные<br />

были обработаны на программном комплексе «ЭММА» (см. раздел 8.1),<br />

предназначенном для проведения QSPR/QSAR-исследований при помощи пошаговой<br />

процедуры множественного линейно-регрессионного анализа количественных<br />

зависимостей между свойствами химических соединений и описы-<br />

199

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!