Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
3) число встречаемости некоторого подграфа в графе является значением соответствующего фрагментного дескриптора для этого графа, мы сразу приходим к формулировке центрального положения данной диссертационной работы: любая сколь угодно сложная зависимость между структурой органического соединения и его свойством может быть аппроксимирована при помощи многослойной нейронной сети персептронного типа с двумя скрытыми слоями нейронов и набора фрагментных дескрипторов. Следует, однако, отметить, что в большинстве случаев для аппроксимации зависимости «структурасвойство», как показывает опыт, достаточно и одного слоя скрытых нейронов. 110
ГЛАВА 4. РАЗРАБОТКА НЕЙРОСЕТЕВЫХ ПОДХОДОВ Данная глава содержит описание предложенных нами подходов к решению перечисленных в разделе 1.4 проблем, связанных с применением искусственных нейронных сетей для решения прикладных задач, в частности, для поиска количественных корреляций «структура-свойство». 4.1. Подход к решению проблемы «переучивания» нейронных сетей Одной из основных проблем, с которой мы столкнулись в начале 1990-ых годов уже в ходе самых первых работ по применению аппарата искусственных нейронных сетей для прогнозирования свойств органических соединений была связана с эффектом «переучивания» и необходимостью поиска эффективных методов его предотвращения. 4.1.1. Суть эффекта «переучивания» нейросетей Эффект «переучивания» (overtraining) нейросетей был, по-видимому, впервые описан в математической литературе в 1990 г (см. [338]). Он наблюдается при обучении многослойных нейронных сетей с обратным распространением ошибки (т.е. многослойных персептронов) в том случае, когда число примеров в обучающей выборке невелико по сравнению с числом настраиваемых параметров нейросети (т.е. синаптических весов и порогов активации нейронов). В настоящее время его принято считать особым проявлением эффекта «переподгонки данных» (overfitting), наблюдаемого во многих методах машинного обучения (о сходстве и различии понятий «переучивания» и «переподгонки» см. в статье [339]). Суть эффекта «переучивания» заключается в следующем: процесс обучения нейросети может быть условно разделен на две последовательные фазы – «обобщения» (generalization) и «запоминания» (memorization). Для химических соединений, содержащихся в обучающей выборке, среднеквадратичная ошибка прогнозирования их свойств постоянно уменьшается 111
- Page 59 and 60: лаждения системы и
- Page 61 and 62: чем в качестве прог
- Page 63 and 64: ГЛАВА 2. ФРАГМЕНТНЫ
- Page 65 and 66: му типу биологичес
- Page 67 and 68: тему опубликовано
- Page 69 and 70: В настоящее время п
- Page 71 and 72: ниях QSPR/QSAR/SAR. И дейс
- Page 73 and 74: В качестве характе
- Page 75 and 76: Некоторые типы ЦАФ
- Page 77 and 78: кроме того, они сно
- Page 79 and 80: Следует упомянуть
- Page 81 and 82: зисных графов, пред
- Page 83 and 84: рой равен 1 только в
- Page 85 and 86: множества различны
- Page 87 and 88: при проведении вир
- Page 89 and 90: 21 01 12 12 21 01 Рис. 17. Ре
- Page 91 and 92: ределенных атомных
- Page 93 and 94: элементам, что може
- Page 95 and 96: наличие или отсутс
- Page 97 and 98: использовались в н
- Page 99 and 100: ложенные в 1985 г. ато
- Page 101 and 102: 2.3. Ограничения фра
- Page 103 and 104: ГЛАВА 3. МАТЕМАТИЧЕ
- Page 105 and 106: качестве меток исп
- Page 107 and 108: ной нумерации граф
- Page 109: нейронной сети с пр
- Page 113 and 114: линейные комбинаци
- Page 115 and 116: таться внешней по о
- Page 117 and 118: Предсказанное знач
- Page 119 and 120: рипторе, то он пере
- Page 121 and 122: Для решения этой пр
- Page 123 and 124: • D x - среднее значе
- Page 125 and 126: R 1 R 2 R 1 R 2 X R 6 X R N + 3 (CH
- Page 127 and 128: В соответствии с вы
- Page 129 and 130: зовании рассмотрен
- Page 131 and 132: R4 R5 R3 R6 N (a) R2 6 N 2 6 2 6 2
- Page 133 and 134: f ( x, y) ≡ f ( y, x) ⇔ f ( x,
- Page 135 and 136: R3 R2 R5 R6 Общая формул
- Page 137 and 138: ко, эта разница все
- Page 139 and 140: переставленными эк
- Page 141 and 142: лей приведен в рабо
- Page 143 and 144: деленными» атомами
- Page 145 and 146: 5.1.2. Иерархическая
- Page 147 and 148: водородного соседа
- Page 149 and 150: Атом кислорода в со
- Page 151 and 152: PA1 -PH 2 Атом фосфора,
- Page 153 and 154: Br2 -Br= Формально нез
- Page 155 and 156: то в дальнейшем буд
- Page 157 and 158: После нахождения п
- Page 159 and 160: 5.2.1. Прогнозировани
ГЛАВА 4. РАЗРАБОТКА НЕЙРОСЕТЕВЫХ ПОДХОДОВ<br />
Данная глава содержит описание предложенных нами подходов к решению<br />
перечисленных в разделе 1.4 проблем, связанных с применением искусственных<br />
нейронных сетей для решения прикладных задач, в частности, для поиска<br />
количественных корреляций «структура-свойство».<br />
4.1. Подход к решению проблемы «переучивания» нейронных сетей<br />
Одной из основных проблем, с которой мы столкнулись в начале 1990-ых<br />
годов уже в ходе самых первых работ по применению аппарата искусственных<br />
нейронных сетей для прогнозирования свойств органических соединений была<br />
связана с эффектом «переучивания» и необходимостью поиска эффективных<br />
методов его предотвращения.<br />
4.1.1. Суть эффекта «переучивания» нейросетей<br />
Эффект «переучивания» (overtraining) нейросетей был, по-видимому,<br />
впервые описан в математической литературе в 1990 г (см. [338]). Он наблюдается<br />
при обучении многослойных нейронных сетей с обратным распространением<br />
ошибки (т.е. многослойных персептронов) в том случае, когда число примеров<br />
в обучающей выборке невелико по сравнению с числом настраиваемых<br />
параметров нейросети (т.е. синаптических весов и порогов активации нейронов).<br />
В настоящее время его принято считать особым проявлением эффекта<br />
«переподгонки данных» (overfitting), наблюдаемого во многих методах машинного<br />
обучения (о сходстве и различии понятий «переучивания» и «переподгонки»<br />
см. в статье [339]). Суть эффекта «переучивания» заключается в следующем:<br />
процесс обучения нейросети может быть условно разделен на две последовательные<br />
фазы – «обобщения» (generalization) и «запоминания» (memorization).<br />
Для химических соединений, содержащихся в обучающей выборке, среднеквадратичная<br />
ошибка прогнозирования их свойств постоянно уменьшается<br />
111