19.11.2014 Views

На правах рукописи

На правах рукописи

На правах рукописи

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Все весовые коэффициенты связей перед началом обучения инициализируются<br />

небольшими случайными числами. Правильный выбор границ инициализации,<br />

обеспечивающий удаленные от нуля значения производной передаточной<br />

функции нейронов (в противном случае происходит т.н. «паралич» нейронов),<br />

может сократить время обучения нейросети и улучшить качество получаемых<br />

нейросетевых моделей [44, 45]. На каждой итерации обучения производится<br />

корректировка значений весов по формуле (14) после предъявления очередного<br />

примера из обучающей выборки. Такой режим обучения называют последовательной<br />

адаптацией (online mode), в противоположность режиму группового<br />

обучения (batch mode), когда корректировка значений весов происходит<br />

после предъявления всей обучающей выборки. В классическом варианте обучение<br />

проводится до тех пор, пока не будет выполнено одно из возможных условий<br />

остановки обучения (например, когда значение функционала ошибки не<br />

опустится ниже заранее заданного порога, либо когда число итераций не превысит<br />

определенный лимит).<br />

Хотя исторически дельта-правило возникло как обобщение алгоритма обучения<br />

персептрона Розенблатта на непрерывные входы и выходы и первоначально<br />

никак не было связано с представлениями о функционале ошибки нейросети,<br />

тем не менее оно оказалось математически эквивалентным применению<br />

метода скорейшего спуска к минимизации функционала ошибки нейросети в<br />

пространстве весов связей. Действительно, при подстановке формулы (9) в (14)<br />

получаем:<br />

Δw<br />

( t)<br />

ji<br />

= w<br />

p<br />

( t+ 1) ( t)<br />

( )<br />

ji<br />

− w<br />

ji<br />

= −<br />

∂w<br />

ji<br />

∂E<br />

w<br />

η (15)<br />

Формула (15) определяет шаг, который делается в направлении, противоположном<br />

градиенту, и поэтому дельта-правило представляет собой метод минимизации<br />

функционала ошибки в пространстве весов связей при помощи простейшего<br />

варианта градиентного метода скорейшего спуска с фиксированным<br />

значением параметра скорости обучения.<br />

В своем первоначальном виде дельта-правило представляет в настоящее<br />

время главным образом историческую ценность, поскольку именно с его изло-<br />

24

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!