Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
строится кубическая интерполяция, и ее минимум выбирается в качестве новой оптимальной точки. Этот процесс продолжается до тех пор, пока не будет достигнуто существенное уменьшение функционала ошибки. 1.2.4.8. Метод Левенберга-Марквардта Метод Левенберга-Марквардта (LM) (Levenberg-Marquardt) [53] реализует специальный способ аппроксимации матрицы Гессе для случая, когда функционал ошибки определяется как сумма квадратов ошибок, что как раз и имеет место при обучении нейросетей обратного распространения. В рамках данного метода матрица Гессе H аппроксимируется как T H ≅ J J , (31) а вектор градиента g может быть рассчитан по формуле T g = J e , (32) где: J – матрица Якоби производных функционалов ошибки отдельно для каждого выходного нейрона (т.е. для каждого свойства) и для каждого объекта (т.е. химического соединения) в обучающей выборке по настраиваемым параметрам (т.е. весам нейросети); e – вектор ошибок нейросети. Матрицу Якоби можно записать в следующем виде: ⎛ ∂e ⎜ ⎜ ∂wi (1) ⎜ M ⎜ ∂eK ⎜ ⎜ ∂wi (1) J = ⎜ M ⎜ ∂e1 ⎜ ∂wi (1) ⎜ ⎜ M ⎜ ∂e ⎜ ⎝ ∂wi (1) 11 j(1) 1 j(1) P j(1) KP j(1) L L L L L L L ∂e ∂wi ( M ) M ∂eK ∂wi ( M ) M ∂e1 ∂wi ( M ) M ∂e ∂w 11 j( M ) 1 j( M ) P j( M ) KP i( M ) j( M ) ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ где: функция i(m) показывает номер нейрона, из которого исходит связь m; j(m) -номер нейрона, в который входит связь m; M – число связей (т.е. число настраиваемых параметров) в нейросети; e kp – ошибка прогноза для k-го выходного нейрона и p-го объекта из обучающей выборки; K – число выходных нейронов (равное числу одновременно прогнозируемых свойств); P – число объектов 32 (33)
(химических соединений) в обучающей выборке. Отсюда видно, что элементы матрицы Якоби легко могут быть вычислены на основе метода обратного распространения ошибки по приведенной выше формуле (33), что существенно проще вычисления матрицы Гессе. Метод Левенберга-Марквардта реализует итерационную схему настройки весов нейросети по формуле: w k+ 1 k T −1 T k ij = wij − ( J J + μ I) J e (34) где, как и прежде, k w ij - вес связи (на k-ой итерации) исходящей из нейрона i и входящей в нейрон j; J – матрица Якоби; I – единичная матрица (т.е. содержащая единицы на диагонали и нули вне ее); e k – вектор ошибок нейросети на k-ой итерации; µ - динамически изменяемый по ходу обучения нейросети коэффициент, называемый фактором демпинга. Когда µ приближается к 0, то метод Левенберга-Марквардта переходит в метод Ньютона с приближением матрицы Гессе в форме (31), когда же значение µ велико, то получается метод градиентного спуска с маленьким шагом. Поскольку метод Ньютона имеет большую точность и скорость сходимости вблизи локального минимума по сравнению с методом градиентного спуска, то задача состоит в том, чтобы в процессе минимизации как можно быстрее перейти к методу Ньютона. С этой целью параметр µ уменьшают после каждой успешной итерации (т.е. приводящей к уменьшению функционала ошибки) и увеличивают лишь тогда, когда пробный шаг показывает, что функционал ошибки возрастает. Метод Левенберга-Марквардта в настоящее время является одним из самых эффективных методов (по крайней мере, в смысле скорости) обучения нейронных сетей обратного распространения, в связи с чем он приобрел большую популярность в области QSAR/QSPR-исследований [54]. Тем не менее, у него есть существенный недостаток: необходимо, чтобы число объектов (химических соединений) в обучающей выборке превышало число настраиваемых параметров (т.е. межнейронных связей) нейросети. В связи с этим, в QSAR/QSPR-исследованиях его можно применять только при относительно не- 33
- Page 1 and 2: На правах рукописи
- Page 3 and 4: 2.2.6. Классификация
- Page 5 and 6: 5.4. Псевдофрагментн
- Page 7 and 8: 7.4.3. Примеры разных
- Page 9 and 10: ВВЕДЕНИЕ На соврем
- Page 11 and 12: более точного прог
- Page 13 and 14: ГЛАВА 1. ИСКУССТВЕН
- Page 15 and 16: входными; нейроны,
- Page 17 and 18: Таким образом, урав
- Page 19 and 20: 1.2.4. Нейросети обра
- Page 21 and 22: Значения весов объ
- Page 23 and 24: Таким образом, знач
- Page 25 and 26: жения в статье Руме
- Page 27 and 28: Рис. 5. Введение мом
- Page 29 and 30: адаптивно настраив
- Page 31: 1.2.4.7. Квазиньютонов
- Page 35 and 36: на границах решетк
- Page 37 and 38: ными значениями со
- Page 39 and 40: рующие один и тот ж
- Page 41 and 42: дящихся на 2-ом, 3-м и
- Page 43 and 44: всех RBF-нейронов, а
- Page 45 and 46: чающей выборки, при
- Page 47 and 48: Рис. 10. Архитектура
- Page 49 and 50: 1.2.5.4. Нейросети на о
- Page 51 and 52: ми связями, занимае
- Page 53 and 54: практически важных
- Page 55 and 56: ния классического
- Page 57 and 58: ческому мозгу во вр
- Page 59 and 60: лаждения системы и
- Page 61 and 62: чем в качестве прог
- Page 63 and 64: ГЛАВА 2. ФРАГМЕНТНЫ
- Page 65 and 66: му типу биологичес
- Page 67 and 68: тему опубликовано
- Page 69 and 70: В настоящее время п
- Page 71 and 72: ниях QSPR/QSAR/SAR. И дейс
- Page 73 and 74: В качестве характе
- Page 75 and 76: Некоторые типы ЦАФ
- Page 77 and 78: кроме того, они сно
- Page 79 and 80: Следует упомянуть
- Page 81 and 82: зисных графов, пред
(химических соединений) в обучающей выборке. Отсюда видно, что элементы<br />
матрицы Якоби легко могут быть вычислены на основе метода обратного распространения<br />
ошибки по приведенной выше формуле (33), что существенно<br />
проще вычисления матрицы Гессе.<br />
Метод Левенберга-Марквардта реализует итерационную схему настройки<br />
весов нейросети по формуле:<br />
w<br />
k+<br />
1 k T<br />
−1<br />
T k<br />
ij<br />
= wij<br />
− ( J J + μ I)<br />
J e<br />
(34)<br />
где, как и прежде,<br />
k<br />
w<br />
ij<br />
- вес связи (на k-ой итерации) исходящей из нейрона i и<br />
входящей в нейрон j; J – матрица Якоби; I – единичная матрица (т.е. содержащая<br />
единицы на диагонали и нули вне ее); e k – вектор ошибок нейросети на k-ой<br />
итерации; µ - динамически изменяемый по ходу обучения нейросети коэффициент,<br />
называемый фактором демпинга. Когда µ приближается к 0, то метод<br />
Левенберга-Марквардта переходит в метод Ньютона с приближением матрицы<br />
Гессе в форме (31), когда же значение µ велико, то получается метод градиентного<br />
спуска с маленьким шагом. Поскольку метод Ньютона имеет большую<br />
точность и скорость сходимости вблизи локального минимума по сравнению с<br />
методом градиентного спуска, то задача состоит в том, чтобы в процессе минимизации<br />
как можно быстрее перейти к методу Ньютона. С этой целью параметр<br />
µ уменьшают после каждой успешной итерации (т.е. приводящей к уменьшению<br />
функционала ошибки) и увеличивают лишь тогда, когда пробный шаг показывает,<br />
что функционал ошибки возрастает.<br />
Метод Левенберга-Марквардта в настоящее время является одним из самых<br />
эффективных методов (по крайней мере, в смысле скорости) обучения<br />
нейронных сетей обратного распространения, в связи с чем он приобрел большую<br />
популярность в области QSAR/QSPR-исследований [54]. Тем не менее, у<br />
него есть существенный недостаток: необходимо, чтобы число объектов (химических<br />
соединений) в обучающей выборке превышало число настраиваемых<br />
параметров (т.е. межнейронных связей) нейросети. В связи с этим, в<br />
QSAR/QSPR-исследованиях его можно применять только при относительно не-<br />
33