На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

по ходу обучения в обеих фазах. В то же время, для соединений, отсутствующих в обучающей выборке, среднеквадратичная ошибка прогнозирования сначала уменьшается по ходу обучения в фазе «обобщения», но потом начинает расти в последующей фазе «запоминания». В результате этого «переобученная» нейросеть хорошо воспроизводит свойства соединений из обучающей выборки, но плохо прогнозирует свойства любых других соединений, например, содержащихся в контрольных выборках. Эффект «переучивания» схематически показан на Рис. 25. Рис. 25. Эффект "переучивания" нейросети. Нижняя кривая показывает ход изменения (при обучении нейросети) ошибки прогнозирования для соединений, входящих в обучающую выборку, а верхняя – в контрольную выборку. Восклицательным знаком отмечена точка перехода из фазы «обобщения» в фазу «запоминания». Природу эффекта «переучивания» обычно связывают с постепенным увеличением эффективного числа дескрипторов (а вместе с этим и сложности модели) по мере обучения нейросети (см. [18, 338]). Настраиваемые параметры нейросети, каковыми являются значения всех синаптических весов и порогов активации, перед началом обучения инициализируются обычно случайными числами, близкими к нулю. В этом случае во всех нейронах функция активации срабатывает при значениях аргумента, близких к нулю. Поскольку в окрестностях нуля любая нелинейная непрерывная функция приближается к линейной, то и нейросеть в самом начале обучения формирует на выходе сигналы, связанные со входными сигналами зависимостями, близкими к линейным. Таким образом, на начальном этапе обучения выходные сигналы представляют собой 112

линейные комбинации входных. В этом случае эффективное число дескрипторов равно числу линейно независимых дескрипторов в базе, и это число не может превышать числа входных нейронов. По мере обучения нейросети значения настраиваемых параметров растут по абсолютной величине, и в разложении в ряд Тейлора-Маклорена функции активации все большую роль начинают играть члены со второй, третьей и более высокими степенями. В результате этого нейросеть постепенно переходит к моделированию квадратичных, кубических и более сложных зависимостей, которые описываются все более возрастающим числом параметров. Таким образом, по ходу обучения нейросети эффективное число параметров постоянно возрастает, пока не достигает определенного максимального числа, которое равно числу настраиваемых параметров нейросети (т.е. суммарного числа синаптических весов и порогов активации), деленному на порядок группы автоморфизмов помеченного графа, соответствующего нейросети. Параллельно с эффективным числом дескрипторов при обучении нейросети растет и емкость класса моделируемых функций, которая в теории статистического обучения выражается размерностью Вапника-Червоненкиса. Упрощенно можно сказать, что в тот момент времени, когда емкость этого класса начнет превышать объем используемых для обучения данных, и наступает «переучивание». 4.1.2. Методы предотвращения «переучивания» нейросетей В литературе описано несколько методов предотвращения «переучивания» [338]. Наиболее простым из них является уменьшение общего числа настраиваемых параметров нейросети за счет уменьшения числа входных и скрытых нейронов. В исследованиях, проведенных в рамках настоящей диссертационной работы, уменьшение числа входных нейронов осуществлялось за счет предварительного отбора дескрипторов при помощи линейно-регрессионного метода БПМЛР (см. подраздел 4.1.5), а числа скрытых нейронов – за счет варьирования их числа и определения из них оптимального. Тем не менее, этот метод предотвращения «переучивания» не является панацеей – его недостатком 113

по ходу обучения в обеих фазах. В то же время, для соединений, отсутствующих<br />

в обучающей выборке, среднеквадратичная ошибка прогнозирования сначала<br />

уменьшается по ходу обучения в фазе «обобщения», но потом начинает<br />

расти в последующей фазе «запоминания». В результате этого «переобученная»<br />

нейросеть хорошо воспроизводит свойства соединений из обучающей выборки,<br />

но плохо прогнозирует свойства любых других соединений, например, содержащихся<br />

в контрольных выборках. Эффект «переучивания» схематически показан<br />

на Рис. 25.<br />

Рис. 25. Эффект "переучивания" нейросети. Нижняя кривая показывает ход<br />

изменения (при обучении нейросети) ошибки прогнозирования для соединений,<br />

входящих в обучающую выборку, а верхняя – в контрольную выборку.<br />

Восклицательным знаком отмечена точка перехода из фазы «обобщения» в<br />

фазу «запоминания».<br />

Природу эффекта «переучивания» обычно связывают с постепенным увеличением<br />

эффективного числа дескрипторов (а вместе с этим и сложности модели)<br />

по мере обучения нейросети (см. [18, 338]). Настраиваемые параметры<br />

нейросети, каковыми являются значения всех синаптических весов и порогов<br />

активации, перед началом обучения инициализируются обычно случайными<br />

числами, близкими к нулю. В этом случае во всех нейронах функция активации<br />

срабатывает при значениях аргумента, близких к нулю. Поскольку в окрестностях<br />

нуля любая нелинейная непрерывная функция приближается к линейной,<br />

то и нейросеть в самом начале обучения формирует на выходе сигналы, связанные<br />

со входными сигналами зависимостями, близкими к линейным. Таким образом,<br />

на начальном этапе обучения выходные сигналы представляют собой<br />

112

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!