Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
(t) где: p - это m-ая компонента вектора направления p (t) , соответствующая связи m m. Оптимальное значение α (t) определяется путем минимизации функционала ошибки вдоль направления p (t) при помощи одного из алгоритмов одномерного поиска. Из большого арсенала алгоритмов одномерного поиска наилучшим образом себя зарекомендовал при обучении нейронных сетей при помощи методов сопряженных градиентов алгоритм Чараламбуса (Charalambous) [50], который использует кубическую интерполяцию в сочетании с методом деления интервала на части. После оптимального шага, сделанного в выбранном направлении, методы сопряженных градиентов определяют следующее направление поиска как линейную комбинацию нового направления антиградиента и предыдущего направления движения: ( t ) ( t ) ( t) ( t−1) p = −g + β p (25) Различные методы сопряженных градиентов различаются выбором коэффициента β (t) . Так, в методе Флетчера-Ривса (Fletcher-Reevs) [51] он равен отношению квадрата нормы градиента к квадрату нормы градиента на предыдущей итерации: ( g ( g ) ) g g ( t ) T ( t ) ( t) = ( t−1) T ( t−1) β (26) В методе Полака-Рибьеры (Polak-Ribiére) [49] искомый коэффициент равен скалярному произведению приращения градиента на текущий градиент, деленный на квадрат нормы градиента на предыдущей итерации: ( Δg ( g ) g ) g ( t) T ( t ) ( t) = ( t−1) T ( t−1) β (27) Алгоритмы методов сопряженных градиентов требуют не многим больше памяти, чем градиентные алгоритмы, поэтому могут быть использованы для обучения нейронных сетей с большим количеством настраиваемых параметров. 30
1.2.4.7. Квазиньютоновские методы обучения Эта группа методов базируется на Ньютоновском методе аппроксимации функций, но не требует вычисления вторых производных. X t+ 1 X t − −1 t = H g , (28) t где: Х – матрица весовых коэффициентов; g – вектор градиента; t – счетчик итераций; H - матрица вторых частных производных (матрица Гессе). ⎛ ∂ ⎜ ⎜ H = ⎜ ⎜ ∂ ⎜ ⎜ ⎝ 2 2 E( w E( w ∂w i(1) j(1) 2 ∂wi (1) j(1) M , K, w i(1) j(1) i( M ) j( M ) , K, w ∂w i( M ) j( M ) i( M ) j( M ) i(1) j(1) ) ) L O L ∂ ∂ 2 2 E( w ∂w E( w i(1) j(1) i(1) j(1) , K, w ∂wi ( M ) M , K, w i( M ) j( M ) j( M ) i(1) j(1) i( M ) j( M ) 2 ∂wi ( M ) j( M ) ) ⎞ ⎟ ⎟ ⎟ , (29) ) ⎟ ⎟ ⎟ ⎠ где: функция i(m) показывает номер нейрона, из которого исходит связь m; j(m) показывает номер нейрона, в который входит связь m; M – число связей (т.е. число настраиваемых параметров) в нейросети. Идея квазиньютоновских методов базируется на возможности аппроксимации кривизны нелинейной оптимизируемой функции без явного формирования ее матрицы Гессе. Сама матрица при этом не хранится, а ее действие аппроксимируется скалярными произведениями специально подобранных векторов. Наиболее удачным методом из этой группы является метод Бройдена- Флетчера-Гольдфарба-Шанно (BFGS) [52], согласно которому: s ( g − g ) g T t+ 1 t t+ 1 t+ 1 = −gt+ 1 + s T t , (30) ( gt+ 1 − gt ) st где: s t – направление, вдоль которого проводится одномерная оптимизация на t- ой итерации; g t+1 – вектор градиента на t+1-ой итерации. Для квазиньютоновских методов наилучшим алгоритмом поиска вдоль выбранного направления является, по-видимому, метод перебора с возвратами [49, 52]. На первой итерации этот алгоритм использует значения функционала ошибки и его производных, чтобы построить его квадратичную аппроксимацию вдоль направления поиска. Минимум этой аппроксимирующей функции выбирается в качестве приближения к оптимальной точке, в которой оценивается функционал ошибки. Если значение функционала недостаточно мало, то 31
- Page 1 and 2: На правах рукописи
- Page 3 and 4: 2.2.6. Классификация
- Page 5 and 6: 5.4. Псевдофрагментн
- Page 7 and 8: 7.4.3. Примеры разных
- Page 9 and 10: ВВЕДЕНИЕ На соврем
- Page 11 and 12: более точного прог
- Page 13 and 14: ГЛАВА 1. ИСКУССТВЕН
- Page 15 and 16: входными; нейроны,
- Page 17 and 18: Таким образом, урав
- Page 19 and 20: 1.2.4. Нейросети обра
- Page 21 and 22: Значения весов объ
- Page 23 and 24: Таким образом, знач
- Page 25 and 26: жения в статье Руме
- Page 27 and 28: Рис. 5. Введение мом
- Page 29: адаптивно настраив
- Page 33 and 34: (химических соедин
- Page 35 and 36: на границах решетк
- Page 37 and 38: ными значениями со
- Page 39 and 40: рующие один и тот ж
- Page 41 and 42: дящихся на 2-ом, 3-м и
- Page 43 and 44: всех RBF-нейронов, а
- Page 45 and 46: чающей выборки, при
- Page 47 and 48: Рис. 10. Архитектура
- Page 49 and 50: 1.2.5.4. Нейросети на о
- Page 51 and 52: ми связями, занимае
- Page 53 and 54: практически важных
- Page 55 and 56: ния классического
- Page 57 and 58: ческому мозгу во вр
- Page 59 and 60: лаждения системы и
- Page 61 and 62: чем в качестве прог
- Page 63 and 64: ГЛАВА 2. ФРАГМЕНТНЫ
- Page 65 and 66: му типу биологичес
- Page 67 and 68: тему опубликовано
- Page 69 and 70: В настоящее время п
- Page 71 and 72: ниях QSPR/QSAR/SAR. И дейс
- Page 73 and 74: В качестве характе
- Page 75 and 76: Некоторые типы ЦАФ
- Page 77 and 78: кроме того, они сно
- Page 79 and 80: Следует упомянуть
(t)<br />
где: p - это m-ая компонента вектора направления p (t) , соответствующая связи<br />
m<br />
m. Оптимальное значение α (t) определяется путем минимизации функционала<br />
ошибки вдоль направления p (t) при помощи одного из алгоритмов одномерного<br />
поиска.<br />
Из большого арсенала алгоритмов одномерного поиска наилучшим образом<br />
себя зарекомендовал при обучении нейронных сетей при помощи методов<br />
сопряженных градиентов алгоритм Чараламбуса (Charalambous) [50], который<br />
использует кубическую интерполяцию в сочетании с методом деления интервала<br />
на части.<br />
После оптимального шага, сделанного в выбранном направлении, методы<br />
сопряженных градиентов определяют следующее направление поиска как линейную<br />
комбинацию нового направления антиградиента и предыдущего направления<br />
движения:<br />
( t ) ( t ) ( t)<br />
( t−1)<br />
p = −g<br />
+ β p<br />
(25)<br />
Различные методы сопряженных градиентов различаются выбором коэффициента<br />
β (t) . Так, в методе Флетчера-Ривса (Fletcher-Reevs) [51] он равен отношению<br />
квадрата нормы градиента к квадрату нормы градиента на предыдущей<br />
итерации:<br />
( g<br />
( g<br />
)<br />
)<br />
g<br />
g<br />
( t ) T ( t )<br />
( t)<br />
=<br />
( t−1)<br />
T ( t−1)<br />
β (26)<br />
В методе Полака-Рибьеры (Polak-Ribiére) [49] искомый коэффициент равен<br />
скалярному произведению приращения градиента на текущий градиент, деленный<br />
на квадрат нормы градиента на предыдущей итерации:<br />
( Δg<br />
( g<br />
) g<br />
) g<br />
( t)<br />
T ( t )<br />
( t)<br />
=<br />
( t−1)<br />
T ( t−1)<br />
β (27)<br />
Алгоритмы методов сопряженных градиентов требуют не многим больше<br />
памяти, чем градиентные алгоритмы, поэтому могут быть использованы для<br />
обучения нейронных сетей с большим количеством настраиваемых параметров.<br />
30