формат Adobe PDF, размер 2173 Кб - Информационно ...

формат Adobe PDF, размер 2173 Кб - Информационно ... формат Adobe PDF, размер 2173 Кб - Информационно ...

neurolectures.narod.ru
from neurolectures.narod.ru More from this publisher
11.07.2015 Views

ISBN 5–7262–0471–9ЛЕКЦИИ ПО НЕЙРОИНФОРМАТИКЕЭто (максимальное) значение энтропии отвечает полному отсутствиюинформации о возможном значении зависимой переменной. Здесь использованопредположение о независимости и одинаковом (стационарном) характерераспределения всех отдельных наблюдений в матрице данных.Построим теперь такой процесс вероятностного вывода, при которомдополнительная информация о входных (независимых) переменных приводитк уменьшению энтропии распределения выходной переменной.Прямой путь состоит в генерации двоичного дерева, в каждом узлекоторого применяется простейшее решающее правило. Применение этогоправила разделяет исходную совокупность данных на два множества. Идеязаключается в том, чтобы суммарная энтропия распределений S 1 = S 1+S ′ ′′1в полученных множествах была меньше исходной. Другими словами, оптимальноерешающее правило выбирается таким образом, чтобы его информативностьбыла максимальной, и, соответственно, остаточная энтропияпосле его применения — минимальной 20 .Ограничимся в этой работе простым классом правил, в которых значениеодной из зависимых переменных сравнивается с порогом. Правилатакого типа широко применяются в классификаторах на основе бинарныхдеревьев [12].Оптимальное (на данном уровне иерархии) правило выбирается в процессепоследовательного решения M одномерных задач оптимизации (M —число независимых переменных X). Целевая функция — суммарная энтропиядвух подмножеств, получаемых при применении правила, изменяемаяпеременная — значения порога для правила. Выбор останавливается на правиле,обеспечившем максимальное уменьшение энтропии.Для дискретных переменных вместо решения задачи гладкой оптимизациивыполняется перебор возможных значений классов с решающим правилом«свой класс—все остальные».Иерархический процесс далее продолжается для подмножеств (дочернихветвей и соответствующих им примеров) данного узла дерева. Процессформально завершается по достижении нулевой энтропии для каждого узласамого нижнего уровня (значение зависимой переменной для всех примеровданного узла попадает в один интервал исходной дискретизации).В итоге, каждому узлу полученного дерева приписывается:20 Заметим, что традиционно используются другие критерии выбора правил при построениидеревьев, в частности, минимизируется дисперсия зависимой переменной, либокакие-то другие функционалы.174 УДК 004.032.26 (06) Нейронные сети

С. А. ТЕРЕХОВ1. Эмпирическая оценка плотности условного распределения дискретизованнойзависимой переменной (при условии отнесения примера кданному узлу).2. Оценка выборочной энтропии распределения в этом узле.3. Решающее правило, позволяющее выбрать дочернюю ветвь с дальнейшимуменьшением энтропии условного распределения.Свойства вероятностного дереваОбученная по предлагаемой методике машина предлагает в ответ на информациюо векторе независимых переменных целую серию последовательноуточняющихся приближений к оценке апостериорной плотности условногораспределения зависимой переменной.Обобщающая способность. В таком максимальном варианте дерево является,очевидно, переобученным, так как в нем полностью запомнен весьшум, содержавшийся в данных. На практике, иерархия предсказаний плотностиможет быть остановлена на более ранних уровнях (например, в узледолжно содержаться не менее определенного числа примеров обучающейвыборки, либо энтропия распределения должна быть выше порогового значения).Для оценок можно воспользоваться методикой кросс-валидации на основебутстрэп-выборок [25]. Эти простые эмпирические способы регуляризациимогут быть заменены более последовательными методами минимизациидлины описания модели и данных [2].Сходимость метода. Нетрудно убедиться, что для любого конечного набораданных размера N, после отщепления одного примера суммарная энтропияполученных двух множеств (отщепленный пример и совокупностьостальных примеров) строго меньше энтропии исходного набора. Действительно,энтропия отдельного примера равна 0, а энтропия оставшихся примеровлимитируется множителем (N − 1)/N.Тем самым, метод всегда сходится, по крайней мере за (N − 1) шагов.Практическая скорость убывания энтропии в типичных вычислительныхэкспериментах приведена на рис. 4.При этом вклад различных входных переменных в снижение энтропиивесьма неоднороден.УДК 004.032.26 (06) Нейронные сети 175

ISBN 5–7262–0471–9ЛЕКЦИИ ПО НЕЙРОИНФОРМАТИКЕЭто (максимальное) значение энтропии отвечает полному отсутствиюинформации о возможном значении зависимой переменной. Здесь использованопредположение о независимости и одинаковом (стационарном) характерераспределения всех отдельных наблюдений в матрице данных.Построим теперь такой процесс вероятностного вывода, при которомдополнительная информация о входных (независимых) переменных приводитк уменьшению энтропии распределения выходной переменной.Прямой путь состоит в генерации двоичного дерева, в каждом узлекоторого применяется простейшее решающее правило. Применение этогоправила разделяет исходную совокупность данных на два множества. Идеязаключается в том, чтобы суммарная энтропия распределений S 1 = S 1+S ′ ′′1в полученных множествах была меньше исходной. Другими словами, оптимальноерешающее правило выбирается таким образом, чтобы его информативностьбыла максимальной, и, соответственно, остаточная энтропияпосле его применения — минимальной 20 .Ограничимся в этой работе простым классом правил, в которых значениеодной из зависимых переменных сравнивается с порогом. Правилатакого типа широко применяются в классификаторах на основе бинарныхдеревьев [12].Оптимальное (на данном уровне иерархии) правило выбирается в процессепоследовательного решения M одномерных задач оптимизации (M —число независимых переменных X). Целевая функция — суммарная энтропиядвух подмножеств, получаемых при применении правила, изменяемаяпеременная — значения порога для правила. Выбор останавливается на правиле,обеспечившем максимальное уменьшение энтропии.Для дискретных переменных вместо решения задачи гладкой оптимизациивыполняется перебор возможных значений классов с решающим правилом«свой класс—все остальные».Иерархический процесс далее продолжается для подмножеств (дочернихветвей и соответствующих им примеров) данного узла дерева. Процессформально завершается по достижении нулевой энтропии для каждого узласамого нижнего уровня (значение зависимой переменной для всех примеровданного узла попадает в один интервал исходной дискретизации).В итоге, каждому узлу полученного дерева приписывается:20 Заметим, что традиционно используются другие критерии выбора правил при построениидеревьев, в частности, минимизируется дисперсия зависимой переменной, либокакие-то другие функционалы.174 УДК 004.032.26 (06) Нейронные сети

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!