ÑоÑÐ¼Ð°Ñ Adobe PDF, ÑÐ°Ð·Ð¼ÐµÑ 2173 Ðб - ÐнÑоÑмаÑионно ...
ÑоÑÐ¼Ð°Ñ Adobe PDF, ÑÐ°Ð·Ð¼ÐµÑ 2173 Ðб - ÐнÑоÑмаÑионно ... ÑоÑÐ¼Ð°Ñ Adobe PDF, ÑÐ°Ð·Ð¼ÐµÑ 2173 Ðб - ÐнÑоÑмаÑионно ...
ISBN 5–7262–0471–9ЛЕКЦИИ ПО НЕЙРОИНФОРМАТИКЕмонеты и обозначим число выпавших «орлов» как h, а «решек», соответственно,t = N −h. Совокупность всех N наблюдений обозначим символомD. Зададимся теперь целью оценить вероятность различных исходов в следующем,N + 1 испытании.В классическом подходе моделируемая система описывается однимфиксированным параметром — вероятностью выпадения «орла» θ, единственное(«правильное») значение которого нужно оценить из эксперимента.При использовании метода максимального правдоподобия эта наилучшаяоценка, очевидно, равна относительной частоте появления орлов вN экспериментах.В байесовом подходе значение параметра θ само является случайнойвеличиной, распределение которой используется при прогнозировании исходаследующего бросания монеты. Априорная (учитывающая наш опыт ξдо проведения испытаний) плотность распределения θ есть p(θ | ξ). Послепроведения серии экспериментов наши представления об этом распределенииизменятся, в соответствии с теоремой Байеса:p(θ | D, ξ) =p(D | θ, ξ) · p(θ | ξ)p(D | ξ) ∫ p(D | θ, ξ) · p(θ | ξ)dθ .Функция правдоподобия, разумеется, одна и та же и в классическом, и вбайесовом подходе, и равна биномиальному распределению:p(D | θ, ξ) ∼ θ h · (1 − θ) tПрогноз вероятности будущего эксперимента дается формулой суммирования:∫p(x N=1 = H | D, ξ) = p(x N+1 = H | θ, ξ) · p(θ | D, ξ)dθ =∫=θ · p(θ | d, ξ)dθ = 〈θ〉 p(θ|D,ξ) .Для получения интерпретируемого результата в замкнутом виде ограничимвыбор априорных распределений классом β-распределений [14]:p(θ | ξ) = β(θ | α h , α t ) Γ(α h + α t )Γ(α h ) · Γ(α t ) θα h−1 · (1 − θ) αt−1 .170 УДК 004.032.26 (06) Нейронные сети
С. А. ТЕРЕХОВПроизведение двух биномиальных распределений вновь дает биномиальныйзакон, и это проясняет суть использования β-распределения в качествеаприорного 15 .p(x N+1 = H | D, ξ) =α h + hα h + α + t + h + t .Идея состоит в формализации опыта с бросанием монет путем добавления«искусственных» (полученных в гипотетических предыдущих экспериментах)отсчетов α h «орлов» и α t «решек» в экспериментальную серию. Чембольше мы добавим в экспериментальную выборку этих априорных наблюдений,тем меньше наша оценка вероятности N + 1 испытания будетчувствовать возможные аномальные «выбросы» во множестве D. Поэтомубайесово обучение иногда называют обучением с априорной регуляризацией.Задача с одним параметром напрямую обобщается на обучение многопараметрическойбайесовой сети. Вместо бросания монеты генерируетсяслучайный вектор, составленный из всех параметров сети, при этом исходызначений разыгрываются в соответствии с распределением Дирихле (обобщающембиномиальное распределение на случай более чем двух исходов).Теперь исходом испытания будет реализация значений вектора переменныхв байесовой сети.Если D = {D 1 , . . . , D k , . . . , D S } — множество обучающих примеров(каждый элемент D k является вектором значений всех переменных сетив k-м примере), не содержащее пропущенных значений, то классическийвариант обучения состоит в максимизации правдоподобия данных,как функции матричных элементов:L = 1N · SN∑j=1 k=1S∑log [ P (x j | pa(x j ), D k ) ] .Легко видеть, что обучение в этом подходе состоит в подсчете статистикиреализаций векторов ситуаций для каждого матричного элемента в таблицахусловных вероятностей. Максимально правдоподобными (наименеепротиворечащими экспериментальным данным) будут значения вероятностей,равные нормированным экспериментальным частотам.15 Априорные распределения, которые в итоге приводят к апостериорным распределениямиз того же класса, называют сопряженными (conjugate priors).УДК 004.032.26 (06) Нейронные сети 171
- Page 120 and 121: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 122 and 123: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 124 and 125: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 126 and 127: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 128 and 129: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 130 and 131: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 132 and 133: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 134 and 135: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 136 and 137: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 138 and 139: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 140 and 141: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 142 and 143: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 144 and 145: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 146 and 147: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 148 and 149: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 150 and 151: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 152 and 153: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 154 and 155: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 156 and 157: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 158 and 159: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 160 and 161: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 162 and 163: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 164 and 165: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 166 and 167: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 168 and 169: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 172 and 173: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 174 and 175: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 176 and 177: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 178 and 179: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 180 and 181: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 182 and 183: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 184 and 185: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 186 and 187: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 188: НАУЧНАЯ СЕССИЯ МИФ
ISBN 5–7262–0471–9ЛЕКЦИИ ПО НЕЙРОИНФОРМАТИКЕмонеты и обозначим число выпавших «орлов» как h, а «решек», соответственно,t = N −h. Совокупность всех N наблюдений обозначим символомD. Зададимся теперь целью оценить вероятность различных исходов в следующем,N + 1 испытании.В классическом подходе моделируемая система описывается однимфиксированным параметром — вероятностью выпадения «орла» θ, единственное(«правильное») значение которого нужно оценить из эксперимента.При использовании метода максимального правдоподобия эта наилучшаяоценка, очевидно, равна относительной частоте появления орлов вN экспериментах.В байесовом подходе значение параметра θ само является случайнойвеличиной, распределение которой используется при прогнозировании исходаследующего бросания монеты. Априорная (учитывающая наш опыт ξдо проведения испытаний) плотность распределения θ есть p(θ | ξ). Послепроведения серии экспериментов наши представления об этом распределенииизменятся, в соответствии с теоремой Байеса:p(θ | D, ξ) =p(D | θ, ξ) · p(θ | ξ)p(D | ξ) ∫ p(D | θ, ξ) · p(θ | ξ)dθ .Функция правдоподобия, разумеется, одна и та же и в классическом, и вбайесовом подходе, и равна биномиальному распределению:p(D | θ, ξ) ∼ θ h · (1 − θ) tПрогноз вероятности будущего эксперимента дается формулой суммирования:∫p(x N=1 = H | D, ξ) = p(x N+1 = H | θ, ξ) · p(θ | D, ξ)dθ =∫=θ · p(θ | d, ξ)dθ = 〈θ〉 p(θ|D,ξ) .Для получения интерпретируемого результата в замкнутом виде ограничимвыбор априорных распределений классом β-распределений [14]:p(θ | ξ) = β(θ | α h , α t ) Γ(α h + α t )Γ(α h ) · Γ(α t ) θα h−1 · (1 − θ) αt−1 .170 УДК 004.032.26 (06) Нейронные сети