На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

строится кубическая интерполяция, и ее минимум выбирается в качестве новой оптимальной точки. Этот процесс продолжается до тех пор, пока не будет достигнуто существенное уменьшение функционала ошибки. 1.2.4.8. Метод Левенберга-Марквардта Метод Левенберга-Марквардта (LM) (Levenberg-Marquardt) [53] реализует специальный способ аппроксимации матрицы Гессе для случая, когда функционал ошибки определяется как сумма квадратов ошибок, что как раз и имеет место при обучении нейросетей обратного распространения. В рамках данного метода матрица Гессе H аппроксимируется как T H ≅ J J , (31) а вектор градиента g может быть рассчитан по формуле T g = J e , (32) где: J – матрица Якоби производных функционалов ошибки отдельно для каждого выходного нейрона (т.е. для каждого свойства) и для каждого объекта (т.е. химического соединения) в обучающей выборке по настраиваемым параметрам (т.е. весам нейросети); e – вектор ошибок нейросети. Матрицу Якоби можно записать в следующем виде: ⎛ ∂e ⎜ ⎜ ∂wi (1) ⎜ M ⎜ ∂eK ⎜ ⎜ ∂wi (1) J = ⎜ M ⎜ ∂e1 ⎜ ∂wi (1) ⎜ ⎜ M ⎜ ∂e ⎜ ⎝ ∂wi (1) 11 j(1) 1 j(1) P j(1) KP j(1) L L L L L L L ∂e ∂wi ( M ) M ∂eK ∂wi ( M ) M ∂e1 ∂wi ( M ) M ∂e ∂w 11 j( M ) 1 j( M ) P j( M ) KP i( M ) j( M ) ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ где: функция i(m) показывает номер нейрона, из которого исходит связь m; j(m) -номер нейрона, в который входит связь m; M – число связей (т.е. число настраиваемых параметров) в нейросети; e kp – ошибка прогноза для k-го выходного нейрона и p-го объекта из обучающей выборки; K – число выходных нейронов (равное числу одновременно прогнозируемых свойств); P – число объектов 32 (33)

(химических соединений) в обучающей выборке. Отсюда видно, что элементы матрицы Якоби легко могут быть вычислены на основе метода обратного распространения ошибки по приведенной выше формуле (33), что существенно проще вычисления матрицы Гессе. Метод Левенберга-Марквардта реализует итерационную схему настройки весов нейросети по формуле: w k+ 1 k T −1 T k ij = wij − ( J J + μ I) J e (34) где, как и прежде, k w ij - вес связи (на k-ой итерации) исходящей из нейрона i и входящей в нейрон j; J – матрица Якоби; I – единичная матрица (т.е. содержащая единицы на диагонали и нули вне ее); e k – вектор ошибок нейросети на k-ой итерации; µ - динамически изменяемый по ходу обучения нейросети коэффициент, называемый фактором демпинга. Когда µ приближается к 0, то метод Левенберга-Марквардта переходит в метод Ньютона с приближением матрицы Гессе в форме (31), когда же значение µ велико, то получается метод градиентного спуска с маленьким шагом. Поскольку метод Ньютона имеет большую точность и скорость сходимости вблизи локального минимума по сравнению с методом градиентного спуска, то задача состоит в том, чтобы в процессе минимизации как можно быстрее перейти к методу Ньютона. С этой целью параметр µ уменьшают после каждой успешной итерации (т.е. приводящей к уменьшению функционала ошибки) и увеличивают лишь тогда, когда пробный шаг показывает, что функционал ошибки возрастает. Метод Левенберга-Марквардта в настоящее время является одним из самых эффективных методов (по крайней мере, в смысле скорости) обучения нейронных сетей обратного распространения, в связи с чем он приобрел большую популярность в области QSAR/QSPR-исследований [54]. Тем не менее, у него есть существенный недостаток: необходимо, чтобы число объектов (химических соединений) в обучающей выборке превышало число настраиваемых параметров (т.е. межнейронных связей) нейросети. В связи с этим, в QSAR/QSPR-исследованиях его можно применять только при относительно не- 33

(химических соединений) в обучающей выборке. Отсюда видно, что элементы<br />

матрицы Якоби легко могут быть вычислены на основе метода обратного распространения<br />

ошибки по приведенной выше формуле (33), что существенно<br />

проще вычисления матрицы Гессе.<br />

Метод Левенберга-Марквардта реализует итерационную схему настройки<br />

весов нейросети по формуле:<br />

w<br />

k+<br />

1 k T<br />

−1<br />

T k<br />

ij<br />

= wij<br />

− ( J J + μ I)<br />

J e<br />

(34)<br />

где, как и прежде,<br />

k<br />

w<br />

ij<br />

- вес связи (на k-ой итерации) исходящей из нейрона i и<br />

входящей в нейрон j; J – матрица Якоби; I – единичная матрица (т.е. содержащая<br />

единицы на диагонали и нули вне ее); e k – вектор ошибок нейросети на k-ой<br />

итерации; µ - динамически изменяемый по ходу обучения нейросети коэффициент,<br />

называемый фактором демпинга. Когда µ приближается к 0, то метод<br />

Левенберга-Марквардта переходит в метод Ньютона с приближением матрицы<br />

Гессе в форме (31), когда же значение µ велико, то получается метод градиентного<br />

спуска с маленьким шагом. Поскольку метод Ньютона имеет большую<br />

точность и скорость сходимости вблизи локального минимума по сравнению с<br />

методом градиентного спуска, то задача состоит в том, чтобы в процессе минимизации<br />

как можно быстрее перейти к методу Ньютона. С этой целью параметр<br />

µ уменьшают после каждой успешной итерации (т.е. приводящей к уменьшению<br />

функционала ошибки) и увеличивают лишь тогда, когда пробный шаг показывает,<br />

что функционал ошибки возрастает.<br />

Метод Левенберга-Марквардта в настоящее время является одним из самых<br />

эффективных методов (по крайней мере, в смысле скорости) обучения<br />

нейронных сетей обратного распространения, в связи с чем он приобрел большую<br />

популярность в области QSAR/QSPR-исследований [54]. Тем не менее, у<br />

него есть существенный недостаток: необходимо, чтобы число объектов (химических<br />

соединений) в обучающей выборке превышало число настраиваемых<br />

параметров (т.е. межнейронных связей) нейросети. В связи с этим, в<br />

QSAR/QSPR-исследованиях его можно применять только при относительно не-<br />

33

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!