Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
возможно. Кроме того, эффективная скорость обучения, хотя и существенно выше, чем у первоначального дельта-правила, но все равно существенно уступает более совершенным методам обучения, рассмотренным ниже. Последнее обстоятельство отчасти связано еще и с тем, что методы обучения, основанные на последовательной адаптации, менее эффективны по сравнению с методами группового обучения, каковыми являются все рассматриваемые ниже алгоритмы. 1.2.4.5. Метод эластичного распространения (RPROP) При обучении по методу эластичного распространения для настройки весовых коэффициентов используется только информация о знаках частных производных функции ошибки нейросети [46, 47]. Тем самым, методу RPROP удается избежать замедление темпа обучения на плоских «равнинах» ландшафта функции ошибки, что характерно для схем, где изменения весов пропорциональны величине градиента. Величина, на которую изменяются весовые коэффициенты, вычисляется следующим образом: Δ ( t ) w ij ⎧ ⎪ ( t ) − Δ ⎪ ij , ⎪ ( t ) = ⎨ + Δ ij , ⎪ ⎪ 0 , ⎪ ⎪⎩ ∂E ( t ) если > 0 ∂wij ∂E ( t ) если < 0 ∂wij иначе , (21) где ( t) Δij ⎧ ⎪ + ( t −1) η * Δ ⎪ ij , ⎪ − ( t −1) = ⎨η * Δ ij , ⎪ ⎪ ( t −1) ⎪Δ ij , ⎪⎩ ∂E ( t −1) ∂E ( t) если * ∂w ij ∂w ij ∂E ( t −1) ∂E ( t) если * ∂w ij ∂w ij иначе > 0 < 0 , (22) где: ∂E ∂w ij - величина, характеризующая суммарный градиент для всех входных векторов из обучающей выборки; η - и η + - факторы уменьшения и увеличения (t) скорости обучения; t – счетчик итераций; Δ - величина индивидуального ij 28
адаптивно настраиваемого темпа обучения на t-ой итерации для связи, соединяющей нейрон i c нейроном j. Если знак производной по данному весу изменил направление, то это означает, что величина шага по данной координате слишком велика, и поэтому алгоритм уменьшает ее в η - раз. В противном же случае шаг увеличивается в η + раз для ускорения обучения вдали от минимума. 1.2.4.6. Методы сопряженных градиентов Методы сопряженных градиентов [48, 49], так же как и в случае расширенного дельта-правила, осуществляют на каждом шаге обучения движение в направлении, получаемом путем комбинирования направления антиградиента и направления движения на предыдущем шаге. Принципиальное же отличие методов сопряженных градиентов от последнего заключается в том, что размер шага в выбранном направлении не является фиксированным, а определяется на каждой итерации при помощи процедуры одномерного поиска минимума вдоль выбранного направления. Все алгоритмы методов сопряженных градиентов на первой итерации начинают поиск в направлении антиградиента: ⎛ ∂E( w) ⎞ ⎜ ⎟ ⎜ ∂w j(1) i(1) ⎟ (1) (1) p = −g = −∇E( w) = −⎜ M ⎟ (23) ⎜ ∂E( w) ⎟ ⎜ ∂w ⎟ j( M ) i( M ) ⎝ ⎠ где: p (t) – вектор направления, вдоль которой ведется поиск на t-ой итерации; g (t) – вектор градиента функционала ошибки нейросети в пространстве весов связей на t-ой итерации; j(m) – номер нейрона, из которого выходит связь m; i(m) – номер нейрона, в который входит связь m; M – число связей в нейросети. После выбора направления определяется оптимальный шаг поиска α (t) , на величину которого меняются все веса связей по формуле: w ( t + 1) ( t) ( t) ( t) j( m) i( m) = w j( m) i( m) + α p , (24) m 29
- Page 1 and 2: На правах рукописи
- Page 3 and 4: 2.2.6. Классификация
- Page 5 and 6: 5.4. Псевдофрагментн
- Page 7 and 8: 7.4.3. Примеры разных
- Page 9 and 10: ВВЕДЕНИЕ На соврем
- Page 11 and 12: более точного прог
- Page 13 and 14: ГЛАВА 1. ИСКУССТВЕН
- Page 15 and 16: входными; нейроны,
- Page 17 and 18: Таким образом, урав
- Page 19 and 20: 1.2.4. Нейросети обра
- Page 21 and 22: Значения весов объ
- Page 23 and 24: Таким образом, знач
- Page 25 and 26: жения в статье Руме
- Page 27: Рис. 5. Введение мом
- Page 31 and 32: 1.2.4.7. Квазиньютонов
- Page 33 and 34: (химических соедин
- Page 35 and 36: на границах решетк
- Page 37 and 38: ными значениями со
- Page 39 and 40: рующие один и тот ж
- Page 41 and 42: дящихся на 2-ом, 3-м и
- Page 43 and 44: всех RBF-нейронов, а
- Page 45 and 46: чающей выборки, при
- Page 47 and 48: Рис. 10. Архитектура
- Page 49 and 50: 1.2.5.4. Нейросети на о
- Page 51 and 52: ми связями, занимае
- Page 53 and 54: практически важных
- Page 55 and 56: ния классического
- Page 57 and 58: ческому мозгу во вр
- Page 59 and 60: лаждения системы и
- Page 61 and 62: чем в качестве прог
- Page 63 and 64: ГЛАВА 2. ФРАГМЕНТНЫ
- Page 65 and 66: му типу биологичес
- Page 67 and 68: тему опубликовано
- Page 69 and 70: В настоящее время п
- Page 71 and 72: ниях QSPR/QSAR/SAR. И дейс
- Page 73 and 74: В качестве характе
- Page 75 and 76: Некоторые типы ЦАФ
- Page 77 and 78: кроме того, они сно
возможно. Кроме того, эффективная скорость обучения, хотя и существенно<br />
выше, чем у первоначального дельта-правила, но все равно существенно уступает<br />
более совершенным методам обучения, рассмотренным ниже. Последнее<br />
обстоятельство отчасти связано еще и с тем, что методы обучения, основанные<br />
на последовательной адаптации, менее эффективны по сравнению с методами<br />
группового обучения, каковыми являются все рассматриваемые ниже алгоритмы.<br />
1.2.4.5. Метод эластичного распространения (RPROP)<br />
При обучении по методу эластичного распространения для настройки весовых<br />
коэффициентов используется только информация о знаках частных производных<br />
функции ошибки нейросети [46, 47]. Тем самым, методу RPROP удается<br />
избежать замедление темпа обучения на плоских «равнинах» ландшафта<br />
функции ошибки, что характерно для схем, где изменения весов пропорциональны<br />
величине градиента. Величина, на которую изменяются весовые коэффициенты,<br />
вычисляется следующим образом:<br />
Δ<br />
( t )<br />
w ij<br />
⎧<br />
⎪<br />
( t )<br />
− Δ<br />
⎪<br />
ij<br />
,<br />
⎪<br />
( t )<br />
= ⎨ + Δ<br />
ij<br />
,<br />
⎪<br />
⎪ 0 ,<br />
⎪<br />
⎪⎩<br />
∂E<br />
( t )<br />
если > 0<br />
∂wij<br />
∂E<br />
( t )<br />
если < 0<br />
∂wij<br />
иначе<br />
, (21)<br />
где<br />
( t)<br />
Δij<br />
⎧<br />
⎪<br />
+ ( t −1)<br />
η * Δ<br />
⎪<br />
ij<br />
,<br />
⎪<br />
− ( t −1)<br />
= ⎨η<br />
* Δ<br />
ij<br />
,<br />
⎪<br />
⎪ ( t −1)<br />
⎪Δ<br />
ij<br />
,<br />
⎪⎩<br />
∂E<br />
( t −1)<br />
∂E<br />
( t)<br />
если *<br />
∂w ij ∂w ij<br />
∂E<br />
( t −1)<br />
∂E<br />
( t)<br />
если *<br />
∂w ij ∂w ij<br />
иначе<br />
> 0<br />
< 0<br />
, (22)<br />
где:<br />
∂E<br />
∂w ij<br />
- величина, характеризующая суммарный градиент для всех входных<br />
векторов из обучающей выборки; η - и η + - факторы уменьшения и увеличения<br />
(t)<br />
скорости обучения; t – счетчик итераций; Δ - величина индивидуального<br />
ij<br />
28