ISBN 5–7262–0471–9ЛЕКЦИИ ПО НЕЙРОИНФОРМАТИКЕЕсли эталон восстановлен без ошибок, т. е. p 1 = p 11 = p 10 = 1 иp 0 = p 01 = p 00 = 0, то H(X l |X in , X f ) = 0 (дополнительной информацииоб эталоне не требуется, потому что он полностью определен финальнымпаттерном). Однако, даже в этом случае выигрыш информации не равенэнтропии эталона, потому что начальный паттерн уже содержит некоторуюинформацию о нем. В соответствии с (10) и (9), эта информацияI(X l , X in ) = H(X l ) − H(X l |X in ) = H(X in ) − H(X in |X l ) == N[h(p) − p h(q 1 ) − (1 − p)h(p (1 − q 1 )/(1 − p))] .Она мала, только когда высок уровень искажения эталонов. Она равнанулю, когда входной паттерн статистически независим от эталона (т. е.q 1 = p). Однако, в большинстве статей (например, [3,6,24]) эта информацияигнорируется. Это приводит к переоценке количества информации, извлекаемойиз сети. Это количество, очевидно, равно нулю, если начальныйпаттерн совпадает с восстанавливаемым эталоном (потому что эталон ужеполностью определен), в то время как игнорирование информации, даннойначальным паттерном, приводит к ненулевой оценке для количества информации,извлекаемой из сети. Информация, содержащаяся относительно эталонав начальном паттерне, учитывается в наших работах (например, [11])и в работе [16]. Аналогично, в большинстве статей (например [16]) информацияо восстанавливаемом эталоне, содержащаяся в начальном паттерне,игнорируется при оценке финальной неопределенности в восстанавливаемомэталоне. То есть, вместо условной энтропии H(X l |X in , X f ) в (8)используется H(X l |X f ). Для совпадения этих условных энтропий достаточновыполнения двух условий. Во-первых, начальный паттерн являетсястатистически независимым от эталона (т. е. q 1 = q 0 = p) и, во-вторых,активность нейронов в финальном паттерне не зависит от их активностив начальном паттерне (т. е. p 11 = p 10 = p 1 и p 01 = p 00 = p 0 ). ТогдаH(X l |X in , X f ) = H(X l |X f ) = Nh ′ f , гдеh ′ f = ph(p 1 ) + (1 − p)h(p 0 ) . (16)Два члена в (16) определяют среднюю информацию, необходимую для нахождениянейронов, активных в эталоне, среди, соответственно, активныхи неактивных нейронов в финальном паттерне. Уравнение (16) совпадаетс уравнением (9), если заменить p 1 на q 1 и p 0 на q 0 .Однако, в общем случае игнорирование информации, имеющейся в начальномпаттерне, ведет к недооценке количества информации, извлекаемойиз сети. Например, если начальный паттерн совпадает с эталоном42 УДК 004.032.26 (06) Нейронные сети
А. А. ФРОЛОВ, Д. ГУСЕК, И. П. МУРАВЬЕВ(т. е. q 1 = 1, q 0 = 0) вычисление по (8) дает ожидаемое нулевое количествоинформации, в то время как при использовании H(X l |X f ) вместоH(X l |X in , X f ) нулевое количество получается, только если эталонывоспроизводятся точно (т. е. p 1 = 1, p 0 = 0). В остальных случаях онооказывается парадоксально отрицательным.Извлеченная из памяти информация о всех записанных эталонах I g =Li g и, соответственно, информационная эффективностьгдеиE = I g /N 2 = i in − i f , (17)i in = αh in /h(p) (18)i f = αh f /h(p) . (19)Когда информационная нагрузка мала, эталоны воспроизводятся точно иобласти притяжения имеют большой размер (т. е. h f = 0 и h in ≃ h(p)). Тогдаинформационная эффективность близка к α. Однако при возрастанииинформационной загрузки h in убывает (из-за убывания размера областейпритяжений) и h f возрастает (из-за уменьшения качества воспроизведения).Поэтому возрастание E за счет возрастания α преодолевается убываниемh in − h f и информационная эффективность начинает падать. Всвязи с этим, для каждого значения разреженности существует оптимальнаяинформационная нагрузка, обеспечивающая максимальную информационнуюэффективность. Ее оценка в зависимости от p является основнойцелью настоящей лекции.Аналитические подходыРазмер областей притяжения рассчитывается здесь с использованием двуханалитических подходов: одношагового приближения (SS) и статистическойнейродинамики (SN). Соответствующие нейродинамические уравнениядля нейронных сетей с разреженным кодированием были получены вработах [9] и [10].УДК 004.032.26 (06) Нейронные сети 43