формат Adobe PDF, размер 2173 Кб - Информационно ...

формат Adobe PDF, размер 2173 Кб - Информационно ... формат Adobe PDF, размер 2173 Кб - Информационно ...

neurolectures.narod.ru
from neurolectures.narod.ru More from this publisher
11.07.2015 Views

ISBN 5–7262–0471–9ЛЕКЦИИ ПО НЕЙРОИНФОРМАТИКЕона может быть решена точно с использованием соотношений для условныхвероятностей. Понятие условной вероятности P (A | B) = x составляетоснову байесова подхода к анализу неопределенностей. Приведеннаяформула означает «при условии, что произошло B (и всего остального, чтоне имеет отношения к A), вероятность возникновения A равна x». Совместнаявероятность наступления событий A и B дается формулой полнойвероятности:P (A, B) = P (A | B) · P (B) .Если в нашем распоряжении имеется информация о зависимых переменных(следствиях), а суть исследования состоит в определении сравнительныхвероятностей исходных переменных (причин), то на помощь приходиттеорема Байеса.Пусть имеется условная вероятность P (A | B) наступления некоторогособытия A при условии, что наступило событие B. Теорема Байеса даетрешение для обратной задачи — какова вероятность наступления болеераннего события B, если известно что более позднее событие A наступило.Более точно, пусть A 1 , . . . , A n — набор (полная группа) несовместных взаимоисключающихсобытий (или альтернативных гипотез). Тогда апостериорнаявероятность P (A j | B) каждого их событий A j при условии, чтопроизошло событие B, выражается через априорную вероятность P (A j ):P (A j | B) =P (A j ) · P (B | A j )P (B) = ∑ nj=1 P (A j) · P (B | A j ) .Обратная вероятность P (B | A j ) называется правдоподобием (likelihood),а знаменатель P(B) в формуле Байеса — свидетельством (evidence) 5 .Совместная вероятность является наиболее полным статистическим описаниемнаблюдаемых данных. Совместное распределение представляетсяфункцией многих переменных — по числу исследуемых переменных в задаче.В общем случае это описание требует задания вероятностей всех5 Термин “evidence” не получил общеупотребительного аналога в отечественной литературе,и его чаще называют просто «знаменателем в формуле Байеса». Важность evidenceпроявляется при сравнительном теоретическом анализе различных моделей, статистическиобъясняющих наблюдаемые данные. Более предпочтительными являются модели,имеющие наибольшее значение evidence. К сожалению, на практике вычисление evidenceчасто затруднено, так как требует суммирования по всем реализациям параметров моделей.Популярным способом приближенного оценивания evidence являются специализированныеметоды Монте-Карло.158 УДК 004.032.26 (06) Нейронные сети

С. А. ТЕРЕХОВдопустимых конфигураций значений всех переменных, что мало применимодаже в случае нескольких десятков булевых переменных. В байесовыхсетях, в условиях, когда имеется дополнительная информация о степенизависимости или независимости признаков, эта функция факторизуется нафункции меньшего числа переменных:P (A 1 , . . . , A n ) = ∏ jP [ A j | pa(A j ) ] .Здесь pa(A j ) — состояния всех переменных-предков для переменной A j .Это выражение носит название цепного правила для полной вероятности.Важно, что обусловливание происходит всей совокупностью переменных-предковA j — в противном случае будет потеряна информация об эффектахсовместного влияния этих переменных.Таким образом, байесова сеть состоит из следующих понятий и компонент:• множество случайных переменных и направленных связей междупеременными;• каждая переменная может принимать одно из конечного множествавзаимоисключающих значений;• переменные вместе со связями образуют ориентированный граф безциклов;• каждой переменной-потомку A с переменными-предками B 1 , . . . , B nприписывается таблица условных вероятностей P (A | B 1 , . . . , B n ).Если переменная A не содержит предков на графе, то вместо условных вероятностей(автоматически) используются безусловные вероятности P (A).Требование отсутствия (ориентированных) петель является существенным —для графов с петлями в цепочках условных вероятностей в общем случаенет корректной схемы проведения вычислений — вследствие бесконечнойрекурсии.На практике нам необходимы распределения интересующих нас переменных,взятые по отдельности. Они могут быть получены из соотношениядля полной вероятности при помощи маргинализации — суммирования пореализациям всех переменных, кроме выбранных.Приведем пример точных вычислений в простой байесовой сети, моделирующейзадачу Шерлока Холмса. Напомним обозначения и смысл переменныхв сети (рис. 1): R — был ли дождь, S — включена ли поливальнаяУДК 004.032.26 (06) Нейронные сети 159

С. А. ТЕРЕХОВдопустимых конфигураций значений всех переменных, что мало применимодаже в случае нескольких десятков булевых переменных. В байесовыхсетях, в условиях, когда имеется дополнительная информация о степенизависимости или независимости признаков, эта функция факторизуется нафункции меньшего числа переменных:P (A 1 , . . . , A n ) = ∏ jP [ A j | pa(A j ) ] .Здесь pa(A j ) — состояния всех переменных-предков для переменной A j .Это выражение носит название цепного правила для полной вероятности.Важно, что обусловливание происходит всей совокупностью переменных-предковA j — в противном случае будет потеряна информация об эффектахсовместного влияния этих переменных.Таким образом, байесова сеть состоит из следующих понятий и компонент:• множество случайных переменных и направленных связей междупеременными;• каждая переменная может принимать одно из конечного множествавзаимоисключающих значений;• переменные вместе со связями образуют ориентированный граф безциклов;• каждой переменной-потомку A с переменными-предками B 1 , . . . , B nприписывается таблица условных вероятностей P (A | B 1 , . . . , B n ).Если переменная A не содержит предков на графе, то вместо условных вероятностей(автоматически) используются безусловные вероятности P (A).Требование отсутствия (ориентированных) петель является существенным —для графов с петлями в цепочках условных вероятностей в общем случаенет корректной схемы проведения вычислений — вследствие бесконечнойрекурсии.На практике нам необходимы распределения интересующих нас переменных,взятые по отдельности. Они могут быть получены из соотношениядля полной вероятности при помощи маргинализации — суммирования пореализациям всех переменных, кроме выбранных.Приведем пример точных вычислений в простой байесовой сети, моделирующейзадачу Шерлока Холмса. Напомним обозначения и смысл переменныхв сети (рис. 1): R — был ли дождь, S — включена ли поливальнаяУДК 004.032.26 (06) Нейронные сети 159

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!