На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

ции, приводящего, по мере обучения, к накоплению влияния градиента на изменение весов: Δw ∂E w η , (16) p ( t) ( ) ( t−1) ji = − + μ Δw ji ∂w ji где: µ - параметр момента инерции. Типичное значение этого параметра 0.9, и оно не меняется по ходу обучения. Хотя формально допустимы любые значения в интервале 0≤µ

Рис. 5. Введение момента инерции позволяет благодаря появившейся возможности адаптивно менять эффективную скорость обучения значительно быстрее продвигаться к минимуму Благодаря введению параметра µ, у нейросети появляется также способность преодолевать мелкие локальные минимумы на гиперповерхности функционала ошибки в пространстве весов. Чтобы понять причину этого, запишем разностное уравнение (15) в виде дифференциального: ∂E( w) w& ji = −η (19) ∂w ji Уравнение (19), описывающее обучение нейросети по дельта-правилу, математически эквивалентно дифференциальному уравнению движения неинерционного тела в вязкой среде. Введение момента соответствует появлению у такого тела инерции (т.е. массы µ), и процесс обучения при помощи расширенного дельта-правила уже описывается дифференциальным уравнением движения инерционного тела в вязкой среде: μ w& ji ∂E( w) + ( 1− μ) w& ji = −η ∂w & (20) ji Таким образом, гипотетическое тело, уравнение движения которого описывается уравнением (20), может, разогнавшись, преодолевать по инерции небольшие локальные минимумы, застревая лишь в относительно глубоких минимумах функционала ошибки, соответствующих статистически значимым нейросетевым моделям. Тем не менее, не смотря на все успехи, достигнутые при помощи расширенного дельта-правила с включенным параметром момента, данный метод все равно не лишен недостатков. Прежде всего, в методе присутствуют две «магические» константы, обоснованный выбор точных значений которых сделать не- 27

Рис. 5. Введение момента инерции<br />

позволяет благодаря появившейся<br />

возможности адаптивно<br />

менять эффективную скорость<br />

обучения значительно быстрее<br />

продвигаться к минимуму<br />

Благодаря введению параметра µ, у нейросети появляется также способность<br />

преодолевать мелкие локальные минимумы на гиперповерхности функционала<br />

ошибки в пространстве весов. Чтобы понять причину этого, запишем<br />

разностное уравнение (15) в виде дифференциального:<br />

∂E(<br />

w)<br />

w& ji<br />

= −η<br />

(19)<br />

∂w<br />

ji<br />

Уравнение (19), описывающее обучение нейросети по дельта-правилу, математически<br />

эквивалентно дифференциальному уравнению движения неинерционного<br />

тела в вязкой среде. Введение момента соответствует появлению у<br />

такого тела инерции (т.е. массы µ), и процесс обучения при помощи расширенного<br />

дельта-правила уже описывается дифференциальным уравнением движения<br />

инерционного тела в вязкой среде:<br />

μ w&<br />

ji<br />

∂E(<br />

w)<br />

+ ( 1−<br />

μ)<br />

w&<br />

ji<br />

= −η<br />

∂w<br />

& (20)<br />

ji<br />

Таким образом, гипотетическое тело, уравнение движения которого описывается<br />

уравнением (20), может, разогнавшись, преодолевать по инерции небольшие<br />

локальные минимумы, застревая лишь в относительно глубоких минимумах<br />

функционала ошибки, соответствующих статистически значимым<br />

нейросетевым моделям.<br />

Тем не менее, не смотря на все успехи, достигнутые при помощи расширенного<br />

дельта-правила с включенным параметром момента, данный метод все<br />

равно не лишен недостатков. Прежде всего, в методе присутствуют две «магические»<br />

константы, обоснованный выбор точных значений которых сделать не-<br />

27

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!