На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

3) число встречаемости некоторого подграфа в графе является значением соответствующего фрагментного дескриптора для этого графа, мы сразу приходим к формулировке центрального положения данной диссертационной работы: любая сколь угодно сложная зависимость между структурой органического соединения и его свойством может быть аппроксимирована при помощи многослойной нейронной сети персептронного типа с двумя скрытыми слоями нейронов и набора фрагментных дескрипторов. Следует, однако, отметить, что в большинстве случаев для аппроксимации зависимости «структурасвойство», как показывает опыт, достаточно и одного слоя скрытых нейронов. 110

ГЛАВА 4. РАЗРАБОТКА НЕЙРОСЕТЕВЫХ ПОДХОДОВ Данная глава содержит описание предложенных нами подходов к решению перечисленных в разделе 1.4 проблем, связанных с применением искусственных нейронных сетей для решения прикладных задач, в частности, для поиска количественных корреляций «структура-свойство». 4.1. Подход к решению проблемы «переучивания» нейронных сетей Одной из основных проблем, с которой мы столкнулись в начале 1990-ых годов уже в ходе самых первых работ по применению аппарата искусственных нейронных сетей для прогнозирования свойств органических соединений была связана с эффектом «переучивания» и необходимостью поиска эффективных методов его предотвращения. 4.1.1. Суть эффекта «переучивания» нейросетей Эффект «переучивания» (overtraining) нейросетей был, по-видимому, впервые описан в математической литературе в 1990 г (см. [338]). Он наблюдается при обучении многослойных нейронных сетей с обратным распространением ошибки (т.е. многослойных персептронов) в том случае, когда число примеров в обучающей выборке невелико по сравнению с числом настраиваемых параметров нейросети (т.е. синаптических весов и порогов активации нейронов). В настоящее время его принято считать особым проявлением эффекта «переподгонки данных» (overfitting), наблюдаемого во многих методах машинного обучения (о сходстве и различии понятий «переучивания» и «переподгонки» см. в статье [339]). Суть эффекта «переучивания» заключается в следующем: процесс обучения нейросети может быть условно разделен на две последовательные фазы – «обобщения» (generalization) и «запоминания» (memorization). Для химических соединений, содержащихся в обучающей выборке, среднеквадратичная ошибка прогнозирования их свойств постоянно уменьшается 111

ГЛАВА 4. РАЗРАБОТКА НЕЙРОСЕТЕВЫХ ПОДХОДОВ<br />

Данная глава содержит описание предложенных нами подходов к решению<br />

перечисленных в разделе 1.4 проблем, связанных с применением искусственных<br />

нейронных сетей для решения прикладных задач, в частности, для поиска<br />

количественных корреляций «структура-свойство».<br />

4.1. Подход к решению проблемы «переучивания» нейронных сетей<br />

Одной из основных проблем, с которой мы столкнулись в начале 1990-ых<br />

годов уже в ходе самых первых работ по применению аппарата искусственных<br />

нейронных сетей для прогнозирования свойств органических соединений была<br />

связана с эффектом «переучивания» и необходимостью поиска эффективных<br />

методов его предотвращения.<br />

4.1.1. Суть эффекта «переучивания» нейросетей<br />

Эффект «переучивания» (overtraining) нейросетей был, по-видимому,<br />

впервые описан в математической литературе в 1990 г (см. [338]). Он наблюдается<br />

при обучении многослойных нейронных сетей с обратным распространением<br />

ошибки (т.е. многослойных персептронов) в том случае, когда число примеров<br />

в обучающей выборке невелико по сравнению с числом настраиваемых<br />

параметров нейросети (т.е. синаптических весов и порогов активации нейронов).<br />

В настоящее время его принято считать особым проявлением эффекта<br />

«переподгонки данных» (overfitting), наблюдаемого во многих методах машинного<br />

обучения (о сходстве и различии понятий «переучивания» и «переподгонки»<br />

см. в статье [339]). Суть эффекта «переучивания» заключается в следующем:<br />

процесс обучения нейросети может быть условно разделен на две последовательные<br />

фазы – «обобщения» (generalization) и «запоминания» (memorization).<br />

Для химических соединений, содержащихся в обучающей выборке, среднеквадратичная<br />

ошибка прогнозирования их свойств постоянно уменьшается<br />

111

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!