На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

Все весовые коэффициенты связей перед началом обучения инициализируются небольшими случайными числами. Правильный выбор границ инициализации, обеспечивающий удаленные от нуля значения производной передаточной функции нейронов (в противном случае происходит т.н. «паралич» нейронов), может сократить время обучения нейросети и улучшить качество получаемых нейросетевых моделей [44, 45]. На каждой итерации обучения производится корректировка значений весов по формуле (14) после предъявления очередного примера из обучающей выборки. Такой режим обучения называют последовательной адаптацией (online mode), в противоположность режиму группового обучения (batch mode), когда корректировка значений весов происходит после предъявления всей обучающей выборки. В классическом варианте обучение проводится до тех пор, пока не будет выполнено одно из возможных условий остановки обучения (например, когда значение функционала ошибки не опустится ниже заранее заданного порога, либо когда число итераций не превысит определенный лимит). Хотя исторически дельта-правило возникло как обобщение алгоритма обучения персептрона Розенблатта на непрерывные входы и выходы и первоначально никак не было связано с представлениями о функционале ошибки нейросети, тем не менее оно оказалось математически эквивалентным применению метода скорейшего спуска к минимизации функционала ошибки нейросети в пространстве весов связей. Действительно, при подстановке формулы (9) в (14) получаем: Δw ( t) ji = w p ( t+ 1) ( t) ( ) ji − w ji = − ∂w ji ∂E w η (15) Формула (15) определяет шаг, который делается в направлении, противоположном градиенту, и поэтому дельта-правило представляет собой метод минимизации функционала ошибки в пространстве весов связей при помощи простейшего варианта градиентного метода скорейшего спуска с фиксированным значением параметра скорости обучения. В своем первоначальном виде дельта-правило представляет в настоящее время главным образом историческую ценность, поскольку именно с его изло- 24

жения в статье Румельхарта [42] начался современный этап развития всей методологии искусственных нейронных сетей. Между тем, будучи простейшим градиентным методом оптимизации нелинейных функций, дельта-правило обладает целым рядом серьезных недостатков. Во-первых, теория нелинейной оптимизации гарантирует возможность достижения локального минимума за конечное число шагов лишь при постепенном уменьшении параметра скорости по мере обучения, тогда как при фиксированном его значении алгоритм может зациклиться в окрестностях узкого минимума. Во-вторых, в тех случаях, когда производные по различным весам сильно различаются (а именно так обычно и бывает в нейросетях), рельеф функционала ошибки представляет собой узкий овраг, попав в который градиентные методы вместо движения по его дну начинают осциллировать по его стенкам (поскольку практически во всех точках кроме очень узкой области у самого дна оврага градиент направлен почти перпендикулярно направлению движения к минимуму), что часто приводит к чрезвычайному замедлению и даже к практической остановке процесса обучения (см. Рис. 4). В-третьих, градиентные методы оптимизации часто застревают в мелких локальных минимумах. Рис. 4. Неэффективность метода скорейшего спуска: градиент направлен почти перпендикулярно необходимому направлению движения к минимуму Осознание вышеприведенных проблем очень скоро привело к модификации метода и созданию расширенного варианта дельта-правила, в котором частично устранено или, по крайней мере, ослаблено влияние всех трех вышеперечисленных типов недостатков. Достигнуто это путем введения момента инер- 25

жения в статье Румельхарта [42] начался современный этап развития всей методологии<br />

искусственных нейронных сетей. Между тем, будучи простейшим<br />

градиентным методом оптимизации нелинейных функций, дельта-правило обладает<br />

целым рядом серьезных недостатков. Во-первых, теория нелинейной оптимизации<br />

гарантирует возможность достижения локального минимума за конечное<br />

число шагов лишь при постепенном уменьшении параметра скорости по<br />

мере обучения, тогда как при фиксированном его значении алгоритм может зациклиться<br />

в окрестностях узкого минимума. Во-вторых, в тех случаях, когда<br />

производные по различным весам сильно различаются (а именно так обычно и<br />

бывает в нейросетях), рельеф функционала ошибки представляет собой узкий<br />

овраг, попав в который градиентные методы вместо движения по его дну начинают<br />

осциллировать по его стенкам (поскольку практически во всех точках<br />

кроме очень узкой области у самого дна оврага градиент направлен почти перпендикулярно<br />

направлению движения к минимуму), что часто приводит к чрезвычайному<br />

замедлению и даже к практической остановке процесса обучения<br />

(см. Рис. 4). В-третьих, градиентные методы оптимизации часто застревают в<br />

мелких локальных минимумах.<br />

Рис. 4. Неэффективность метода скорейшего спуска: градиент направлен почти<br />

перпендикулярно необходимому направлению движения к минимуму<br />

Осознание вышеприведенных проблем очень скоро привело к модификации<br />

метода и созданию расширенного варианта дельта-правила, в котором частично<br />

устранено или, по крайней мере, ослаблено влияние всех трех вышеперечисленных<br />

типов недостатков. Достигнуто это путем введения момента инер-<br />

25

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!