ÑоÑÐ¼Ð°Ñ Adobe PDF, ÑÐ°Ð·Ð¼ÐµÑ 2173 Ðб - ÐнÑоÑмаÑионно ...
ÑоÑÐ¼Ð°Ñ Adobe PDF, ÑÐ°Ð·Ð¼ÐµÑ 2173 Ðб - ÐнÑоÑмаÑионно ... ÑоÑÐ¼Ð°Ñ Adobe PDF, ÑÐ°Ð·Ð¼ÐµÑ 2173 Ðб - ÐнÑоÑмаÑионно ...
ISBN 5–7262–0471–9ЛЕКЦИИ ПО НЕЙРОИНФОРМАТИКЕЭто (максимальное) значение энтропии отвечает полному отсутствиюинформации о возможном значении зависимой переменной. Здесь использованопредположение о независимости и одинаковом (стационарном) характерераспределения всех отдельных наблюдений в матрице данных.Построим теперь такой процесс вероятностного вывода, при которомдополнительная информация о входных (независимых) переменных приводитк уменьшению энтропии распределения выходной переменной.Прямой путь состоит в генерации двоичного дерева, в каждом узлекоторого применяется простейшее решающее правило. Применение этогоправила разделяет исходную совокупность данных на два множества. Идеязаключается в том, чтобы суммарная энтропия распределений S 1 = S 1+S ′ ′′1в полученных множествах была меньше исходной. Другими словами, оптимальноерешающее правило выбирается таким образом, чтобы его информативностьбыла максимальной, и, соответственно, остаточная энтропияпосле его применения — минимальной 20 .Ограничимся в этой работе простым классом правил, в которых значениеодной из зависимых переменных сравнивается с порогом. Правилатакого типа широко применяются в классификаторах на основе бинарныхдеревьев [12].Оптимальное (на данном уровне иерархии) правило выбирается в процессепоследовательного решения M одномерных задач оптимизации (M —число независимых переменных X). Целевая функция — суммарная энтропиядвух подмножеств, получаемых при применении правила, изменяемаяпеременная — значения порога для правила. Выбор останавливается на правиле,обеспечившем максимальное уменьшение энтропии.Для дискретных переменных вместо решения задачи гладкой оптимизациивыполняется перебор возможных значений классов с решающим правилом«свой класс—все остальные».Иерархический процесс далее продолжается для подмножеств (дочернихветвей и соответствующих им примеров) данного узла дерева. Процессформально завершается по достижении нулевой энтропии для каждого узласамого нижнего уровня (значение зависимой переменной для всех примеровданного узла попадает в один интервал исходной дискретизации).В итоге, каждому узлу полученного дерева приписывается:20 Заметим, что традиционно используются другие критерии выбора правил при построениидеревьев, в частности, минимизируется дисперсия зависимой переменной, либокакие-то другие функционалы.174 УДК 004.032.26 (06) Нейронные сети
С. А. ТЕРЕХОВ1. Эмпирическая оценка плотности условного распределения дискретизованнойзависимой переменной (при условии отнесения примера кданному узлу).2. Оценка выборочной энтропии распределения в этом узле.3. Решающее правило, позволяющее выбрать дочернюю ветвь с дальнейшимуменьшением энтропии условного распределения.Свойства вероятностного дереваОбученная по предлагаемой методике машина предлагает в ответ на информациюо векторе независимых переменных целую серию последовательноуточняющихся приближений к оценке апостериорной плотности условногораспределения зависимой переменной.Обобщающая способность. В таком максимальном варианте дерево является,очевидно, переобученным, так как в нем полностью запомнен весьшум, содержавшийся в данных. На практике, иерархия предсказаний плотностиможет быть остановлена на более ранних уровнях (например, в узледолжно содержаться не менее определенного числа примеров обучающейвыборки, либо энтропия распределения должна быть выше порогового значения).Для оценок можно воспользоваться методикой кросс-валидации на основебутстрэп-выборок [25]. Эти простые эмпирические способы регуляризациимогут быть заменены более последовательными методами минимизациидлины описания модели и данных [2].Сходимость метода. Нетрудно убедиться, что для любого конечного набораданных размера N, после отщепления одного примера суммарная энтропияполученных двух множеств (отщепленный пример и совокупностьостальных примеров) строго меньше энтропии исходного набора. Действительно,энтропия отдельного примера равна 0, а энтропия оставшихся примеровлимитируется множителем (N − 1)/N.Тем самым, метод всегда сходится, по крайней мере за (N − 1) шагов.Практическая скорость убывания энтропии в типичных вычислительныхэкспериментах приведена на рис. 4.При этом вклад различных входных переменных в снижение энтропиивесьма неоднороден.УДК 004.032.26 (06) Нейронные сети 175
- Page 124 and 125: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 126 and 127: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 128 and 129: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 130 and 131: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 132 and 133: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 134 and 135: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 136 and 137: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 138 and 139: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 140 and 141: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 142 and 143: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 144 and 145: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 146 and 147: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 148 and 149: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 150 and 151: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 152 and 153: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 154 and 155: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 156 and 157: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 158 and 159: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 160 and 161: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 162 and 163: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 164 and 165: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 166 and 167: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 168 and 169: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 170 and 171: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 172 and 173: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 176 and 177: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 178 and 179: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 180 and 181: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 182 and 183: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 184 and 185: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 186 and 187: ISBN 5-7262-0471-9ЛЕКЦИИ ПО
- Page 188: НАУЧНАЯ СЕССИЯ МИФ
ISBN 5–7262–0471–9ЛЕКЦИИ ПО НЕЙРОИНФОРМАТИКЕЭто (максимальное) значение энтропии отвечает полному отсутствиюинформации о возможном значении зависимой переменной. Здесь использованопредположение о независимости и одинаковом (стационарном) характерераспределения всех отдельных наблюдений в матрице данных.Построим теперь такой процесс вероятностного вывода, при которомдополнительная информация о входных (независимых) переменных приводитк уменьшению энтропии распределения выходной переменной.Прямой путь состоит в генерации двоичного дерева, в каждом узлекоторого применяется простейшее решающее правило. Применение этогоправила разделяет исходную совокупность данных на два множества. Идеязаключается в том, чтобы суммарная энтропия распределений S 1 = S 1+S ′ ′′1в полученных множествах была меньше исходной. Другими словами, оптимальноерешающее правило выбирается таким образом, чтобы его информативностьбыла максимальной, и, соответственно, остаточная энтропияпосле его применения — минимальной 20 .Ограничимся в этой работе простым классом правил, в которых значениеодной из зависимых переменных сравнивается с порогом. Правилатакого типа широко применяются в классификаторах на основе бинарныхдеревьев [12].Оптимальное (на данном уровне иерархии) правило выбирается в процессепоследовательного решения M одномерных задач оптимизации (M —число независимых переменных X). Целевая функция — суммарная энтропиядвух подмножеств, получаемых при применении правила, изменяемаяпеременная — значения порога для правила. Выбор останавливается на правиле,обеспечившем максимальное уменьшение энтропии.Для дискретных переменных вместо решения задачи гладкой оптимизациивыполняется перебор возможных значений классов с решающим правилом«свой класс—все остальные».Иерархический процесс далее продолжается для подмножеств (дочернихветвей и соответствующих им примеров) данного узла дерева. Процессформально завершается по достижении нулевой энтропии для каждого узласамого нижнего уровня (значение зависимой переменной для всех примеровданного узла попадает в один интервал исходной дискретизации).В итоге, каждому узлу полученного дерева приписывается:20 Заметим, что традиционно используются другие критерии выбора правил при построениидеревьев, в частности, минимизируется дисперсия зависимой переменной, либокакие-то другие функционалы.174 УДК 004.032.26 (06) Нейронные сети