Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Все весовые коэффициенты связей перед началом обучения инициализируются небольшими случайными числами. Правильный выбор границ инициализации, обеспечивающий удаленные от нуля значения производной передаточной функции нейронов (в противном случае происходит т.н. «паралич» нейронов), может сократить время обучения нейросети и улучшить качество получаемых нейросетевых моделей [44, 45]. На каждой итерации обучения производится корректировка значений весов по формуле (14) после предъявления очередного примера из обучающей выборки. Такой режим обучения называют последовательной адаптацией (online mode), в противоположность режиму группового обучения (batch mode), когда корректировка значений весов происходит после предъявления всей обучающей выборки. В классическом варианте обучение проводится до тех пор, пока не будет выполнено одно из возможных условий остановки обучения (например, когда значение функционала ошибки не опустится ниже заранее заданного порога, либо когда число итераций не превысит определенный лимит). Хотя исторически дельта-правило возникло как обобщение алгоритма обучения персептрона Розенблатта на непрерывные входы и выходы и первоначально никак не было связано с представлениями о функционале ошибки нейросети, тем не менее оно оказалось математически эквивалентным применению метода скорейшего спуска к минимизации функционала ошибки нейросети в пространстве весов связей. Действительно, при подстановке формулы (9) в (14) получаем: Δw ( t) ji = w p ( t+ 1) ( t) ( ) ji − w ji = − ∂w ji ∂E w η (15) Формула (15) определяет шаг, который делается в направлении, противоположном градиенту, и поэтому дельта-правило представляет собой метод минимизации функционала ошибки в пространстве весов связей при помощи простейшего варианта градиентного метода скорейшего спуска с фиксированным значением параметра скорости обучения. В своем первоначальном виде дельта-правило представляет в настоящее время главным образом историческую ценность, поскольку именно с его изло- 24
жения в статье Румельхарта [42] начался современный этап развития всей методологии искусственных нейронных сетей. Между тем, будучи простейшим градиентным методом оптимизации нелинейных функций, дельта-правило обладает целым рядом серьезных недостатков. Во-первых, теория нелинейной оптимизации гарантирует возможность достижения локального минимума за конечное число шагов лишь при постепенном уменьшении параметра скорости по мере обучения, тогда как при фиксированном его значении алгоритм может зациклиться в окрестностях узкого минимума. Во-вторых, в тех случаях, когда производные по различным весам сильно различаются (а именно так обычно и бывает в нейросетях), рельеф функционала ошибки представляет собой узкий овраг, попав в который градиентные методы вместо движения по его дну начинают осциллировать по его стенкам (поскольку практически во всех точках кроме очень узкой области у самого дна оврага градиент направлен почти перпендикулярно направлению движения к минимуму), что часто приводит к чрезвычайному замедлению и даже к практической остановке процесса обучения (см. Рис. 4). В-третьих, градиентные методы оптимизации часто застревают в мелких локальных минимумах. Рис. 4. Неэффективность метода скорейшего спуска: градиент направлен почти перпендикулярно необходимому направлению движения к минимуму Осознание вышеприведенных проблем очень скоро привело к модификации метода и созданию расширенного варианта дельта-правила, в котором частично устранено или, по крайней мере, ослаблено влияние всех трех вышеперечисленных типов недостатков. Достигнуто это путем введения момента инер- 25
- Page 1 and 2: На правах рукописи
- Page 3 and 4: 2.2.6. Классификация
- Page 5 and 6: 5.4. Псевдофрагментн
- Page 7 and 8: 7.4.3. Примеры разных
- Page 9 and 10: ВВЕДЕНИЕ На соврем
- Page 11 and 12: более точного прог
- Page 13 and 14: ГЛАВА 1. ИСКУССТВЕН
- Page 15 and 16: входными; нейроны,
- Page 17 and 18: Таким образом, урав
- Page 19 and 20: 1.2.4. Нейросети обра
- Page 21 and 22: Значения весов объ
- Page 23: Таким образом, знач
- Page 27 and 28: Рис. 5. Введение мом
- Page 29 and 30: адаптивно настраив
- Page 31 and 32: 1.2.4.7. Квазиньютонов
- Page 33 and 34: (химических соедин
- Page 35 and 36: на границах решетк
- Page 37 and 38: ными значениями со
- Page 39 and 40: рующие один и тот ж
- Page 41 and 42: дящихся на 2-ом, 3-м и
- Page 43 and 44: всех RBF-нейронов, а
- Page 45 and 46: чающей выборки, при
- Page 47 and 48: Рис. 10. Архитектура
- Page 49 and 50: 1.2.5.4. Нейросети на о
- Page 51 and 52: ми связями, занимае
- Page 53 and 54: практически важных
- Page 55 and 56: ния классического
- Page 57 and 58: ческому мозгу во вр
- Page 59 and 60: лаждения системы и
- Page 61 and 62: чем в качестве прог
- Page 63 and 64: ГЛАВА 2. ФРАГМЕНТНЫ
- Page 65 and 66: му типу биологичес
- Page 67 and 68: тему опубликовано
- Page 69 and 70: В настоящее время п
- Page 71 and 72: ниях QSPR/QSAR/SAR. И дейс
- Page 73 and 74: В качестве характе
жения в статье Румельхарта [42] начался современный этап развития всей методологии<br />
искусственных нейронных сетей. Между тем, будучи простейшим<br />
градиентным методом оптимизации нелинейных функций, дельта-правило обладает<br />
целым рядом серьезных недостатков. Во-первых, теория нелинейной оптимизации<br />
гарантирует возможность достижения локального минимума за конечное<br />
число шагов лишь при постепенном уменьшении параметра скорости по<br />
мере обучения, тогда как при фиксированном его значении алгоритм может зациклиться<br />
в окрестностях узкого минимума. Во-вторых, в тех случаях, когда<br />
производные по различным весам сильно различаются (а именно так обычно и<br />
бывает в нейросетях), рельеф функционала ошибки представляет собой узкий<br />
овраг, попав в который градиентные методы вместо движения по его дну начинают<br />
осциллировать по его стенкам (поскольку практически во всех точках<br />
кроме очень узкой области у самого дна оврага градиент направлен почти перпендикулярно<br />
направлению движения к минимуму), что часто приводит к чрезвычайному<br />
замедлению и даже к практической остановке процесса обучения<br />
(см. Рис. 4). В-третьих, градиентные методы оптимизации часто застревают в<br />
мелких локальных минимумах.<br />
Рис. 4. Неэффективность метода скорейшего спуска: градиент направлен почти<br />
перпендикулярно необходимому направлению движения к минимуму<br />
Осознание вышеприведенных проблем очень скоро привело к модификации<br />
метода и созданию расширенного варианта дельта-правила, в котором частично<br />
устранено или, по крайней мере, ослаблено влияние всех трех вышеперечисленных<br />
типов недостатков. Достигнуто это путем введения момента инер-<br />
25