Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
1.2.4.7. Квазиньютоновские методы обучения<br />
Эта группа методов базируется на Ньютоновском методе аппроксимации<br />
функций, но не требует вычисления вторых производных.<br />
X<br />
t+ 1<br />
X<br />
t<br />
−<br />
−1<br />
t<br />
= H g , (28)<br />
t<br />
где: Х – матрица весовых коэффициентов; g – вектор градиента; t – счетчик<br />
итераций; H - матрица вторых частных производных (матрица Гессе).<br />
⎛ ∂<br />
⎜<br />
⎜<br />
H = ⎜<br />
⎜<br />
∂<br />
⎜<br />
⎜<br />
⎝<br />
2<br />
2<br />
E(<br />
w<br />
E(<br />
w<br />
∂w<br />
i(1)<br />
j(1)<br />
2<br />
∂wi<br />
(1) j(1)<br />
M<br />
, K,<br />
w<br />
i(1)<br />
j(1)<br />
i(<br />
M ) j(<br />
M )<br />
, K,<br />
w<br />
∂w<br />
i(<br />
M ) j(<br />
M )<br />
i(<br />
M ) j(<br />
M )<br />
i(1)<br />
j(1)<br />
)<br />
)<br />
L<br />
O<br />
L<br />
∂<br />
∂<br />
2<br />
2<br />
E(<br />
w<br />
∂w<br />
E(<br />
w<br />
i(1)<br />
j(1)<br />
i(1)<br />
j(1)<br />
, K,<br />
w<br />
∂wi<br />
( M )<br />
M<br />
, K,<br />
w<br />
i(<br />
M ) j(<br />
M )<br />
j(<br />
M )<br />
i(1)<br />
j(1)<br />
i(<br />
M ) j(<br />
M )<br />
2<br />
∂wi<br />
( M ) j(<br />
M )<br />
) ⎞<br />
⎟<br />
⎟<br />
⎟ , (29)<br />
)<br />
⎟<br />
⎟<br />
⎟<br />
⎠<br />
где: функция i(m) показывает номер нейрона, из которого исходит связь m; j(m)<br />
показывает номер нейрона, в который входит связь m; M – число связей (т.е.<br />
число настраиваемых параметров) в нейросети.<br />
Идея квазиньютоновских методов базируется на возможности аппроксимации<br />
кривизны нелинейной оптимизируемой функции без явного формирования<br />
ее матрицы Гессе. Сама матрица при этом не хранится, а ее действие аппроксимируется<br />
скалярными произведениями специально подобранных векторов.<br />
Наиболее удачным методом из этой группы является метод Бройдена-<br />
Флетчера-Гольдфарба-Шанно (BFGS) [52], согласно которому:<br />
s<br />
( g<br />
− g )<br />
g<br />
T<br />
t+<br />
1 t t+<br />
1<br />
t+ 1<br />
= −gt+<br />
1<br />
+<br />
s<br />
T t<br />
, (30)<br />
( gt+<br />
1<br />
− gt<br />
) st<br />
где: s t – направление, вдоль которого проводится одномерная оптимизация на t-<br />
ой итерации; g t+1 – вектор градиента на t+1-ой итерации.<br />
Для квазиньютоновских методов наилучшим алгоритмом поиска вдоль<br />
выбранного направления является, по-видимому, метод перебора с возвратами<br />
[49, 52]. На первой итерации этот алгоритм использует значения функционала<br />
ошибки и его производных, чтобы построить его квадратичную аппроксимацию<br />
вдоль направления поиска. Минимум этой аппроксимирующей функции<br />
выбирается в качестве приближения к оптимальной точке, в которой оценивается<br />
функционал ошибки. Если значение функционала недостаточно мало, то<br />
31