формат Adobe PDF, размер 2173 Кб - Информационно ...

формат Adobe PDF, размер 2173 Кб - Информационно ... формат Adobe PDF, размер 2173 Кб - Информационно ...

neurolectures.narod.ru
from neurolectures.narod.ru More from this publisher
11.07.2015 Views

ISBN 5–7262–0471–9ЛЕКЦИИ ПО НЕЙРОИНФОРМАТИКЕмонеты и обозначим число выпавших «орлов» как h, а «решек», соответственно,t = N −h. Совокупность всех N наблюдений обозначим символомD. Зададимся теперь целью оценить вероятность различных исходов в следующем,N + 1 испытании.В классическом подходе моделируемая система описывается однимфиксированным параметром — вероятностью выпадения «орла» θ, единственное(«правильное») значение которого нужно оценить из эксперимента.При использовании метода максимального правдоподобия эта наилучшаяоценка, очевидно, равна относительной частоте появления орлов вN экспериментах.В байесовом подходе значение параметра θ само является случайнойвеличиной, распределение которой используется при прогнозировании исходаследующего бросания монеты. Априорная (учитывающая наш опыт ξдо проведения испытаний) плотность распределения θ есть p(θ | ξ). Послепроведения серии экспериментов наши представления об этом распределенииизменятся, в соответствии с теоремой Байеса:p(θ | D, ξ) =p(D | θ, ξ) · p(θ | ξ)p(D | ξ) ∫ p(D | θ, ξ) · p(θ | ξ)dθ .Функция правдоподобия, разумеется, одна и та же и в классическом, и вбайесовом подходе, и равна биномиальному распределению:p(D | θ, ξ) ∼ θ h · (1 − θ) tПрогноз вероятности будущего эксперимента дается формулой суммирования:∫p(x N=1 = H | D, ξ) = p(x N+1 = H | θ, ξ) · p(θ | D, ξ)dθ =∫=θ · p(θ | d, ξ)dθ = 〈θ〉 p(θ|D,ξ) .Для получения интерпретируемого результата в замкнутом виде ограничимвыбор априорных распределений классом β-распределений [14]:p(θ | ξ) = β(θ | α h , α t ) Γ(α h + α t )Γ(α h ) · Γ(α t ) θα h−1 · (1 − θ) αt−1 .170 УДК 004.032.26 (06) Нейронные сети

С. А. ТЕРЕХОВПроизведение двух биномиальных распределений вновь дает биномиальныйзакон, и это проясняет суть использования β-распределения в качествеаприорного 15 .p(x N+1 = H | D, ξ) =α h + hα h + α + t + h + t .Идея состоит в формализации опыта с бросанием монет путем добавления«искусственных» (полученных в гипотетических предыдущих экспериментах)отсчетов α h «орлов» и α t «решек» в экспериментальную серию. Чембольше мы добавим в экспериментальную выборку этих априорных наблюдений,тем меньше наша оценка вероятности N + 1 испытания будетчувствовать возможные аномальные «выбросы» во множестве D. Поэтомубайесово обучение иногда называют обучением с априорной регуляризацией.Задача с одним параметром напрямую обобщается на обучение многопараметрическойбайесовой сети. Вместо бросания монеты генерируетсяслучайный вектор, составленный из всех параметров сети, при этом исходызначений разыгрываются в соответствии с распределением Дирихле (обобщающембиномиальное распределение на случай более чем двух исходов).Теперь исходом испытания будет реализация значений вектора переменныхв байесовой сети.Если D = {D 1 , . . . , D k , . . . , D S } — множество обучающих примеров(каждый элемент D k является вектором значений всех переменных сетив k-м примере), не содержащее пропущенных значений, то классическийвариант обучения состоит в максимизации правдоподобия данных,как функции матричных элементов:L = 1N · SN∑j=1 k=1S∑log [ P (x j | pa(x j ), D k ) ] .Легко видеть, что обучение в этом подходе состоит в подсчете статистикиреализаций векторов ситуаций для каждого матричного элемента в таблицахусловных вероятностей. Максимально правдоподобными (наименеепротиворечащими экспериментальным данным) будут значения вероятностей,равные нормированным экспериментальным частотам.15 Априорные распределения, которые в итоге приводят к апостериорным распределениямиз того же класса, называют сопряженными (conjugate priors).УДК 004.032.26 (06) Нейронные сети 171

ISBN 5–7262–0471–9ЛЕКЦИИ ПО НЕЙРОИНФОРМАТИКЕмонеты и обозначим число выпавших «орлов» как h, а «решек», соответственно,t = N −h. Совокупность всех N наблюдений обозначим символомD. Зададимся теперь целью оценить вероятность различных исходов в следующем,N + 1 испытании.В классическом подходе моделируемая система описывается однимфиксированным параметром — вероятностью выпадения «орла» θ, единственное(«правильное») значение которого нужно оценить из эксперимента.При использовании метода максимального правдоподобия эта наилучшаяоценка, очевидно, равна относительной частоте появления орлов вN экспериментах.В байесовом подходе значение параметра θ само является случайнойвеличиной, распределение которой используется при прогнозировании исходаследующего бросания монеты. Априорная (учитывающая наш опыт ξдо проведения испытаний) плотность распределения θ есть p(θ | ξ). Послепроведения серии экспериментов наши представления об этом распределенииизменятся, в соответствии с теоремой Байеса:p(θ | D, ξ) =p(D | θ, ξ) · p(θ | ξ)p(D | ξ) ∫ p(D | θ, ξ) · p(θ | ξ)dθ .Функция правдоподобия, разумеется, одна и та же и в классическом, и вбайесовом подходе, и равна биномиальному распределению:p(D | θ, ξ) ∼ θ h · (1 − θ) tПрогноз вероятности будущего эксперимента дается формулой суммирования:∫p(x N=1 = H | D, ξ) = p(x N+1 = H | θ, ξ) · p(θ | D, ξ)dθ =∫=θ · p(θ | d, ξ)dθ = 〈θ〉 p(θ|D,ξ) .Для получения интерпретируемого результата в замкнутом виде ограничимвыбор априорных распределений классом β-распределений [14]:p(θ | ξ) = β(θ | α h , α t ) Γ(α h + α t )Γ(α h ) · Γ(α t ) θα h−1 · (1 − θ) αt−1 .170 УДК 004.032.26 (06) Нейронные сети

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!