Молодой учёный
Молодой учёный Молодой учёный
146 Информатика «Молодой учёный» . № 3 (50) . Март, 2013 г. При идентификации говорящего по поступающему речевому сообщению распределение кластеров оказывается похожим на эталонное для зарегистрированного пользователя, или отличающееся для злоумышленника. Классификация производится вычислением меры близости (сходства) пробных данных и уже известных, которая выражается расстоянием от вектора признаков пробного сигнала до вектора признаков уже классифицированного. В качестве меры близости для числовых атрибутов очень часто используется евклидово расстояние, которое представляет собой геометрическое расстояние в многомерном пространстве: Распространённым методом построения кодовой книги является алгоритм k-средних. Метод оперирует таким понятием как центроид. Центроид – центр масс кластера, координаты которого рассчитываются как среднее значений координат объектов кластера в пространстве данных. Алгоритм k-средних разбивает исходное множество на k кластеров, где k – предварительно заданное число. Для этого сначала значения средних инициализируются некоторыми векторами из исходного множества. Затем на каждой итерации алгоритма происходит распределение векторов в ближайшие к ним кластеры (для этого вычисляется расстояние между вектором и текущими значениями средних) и перерасчёт среднего в каждом кластере. Для каждого полученного разбиения рассчитывается некоторая оценочная функция D – средняя ошибка квантования, distortion (англ. искажение) [4, с. 13]: Алгоритм k-means стремится минимизировать суммарное отклонение точек в кластере от центров кластеров. Процесс вычисления средних и перераспределения объектов заканчивается тогда, когда кластерные центры стабилизировались, т.е. все наблюдения принадлежат кластеру, которому принадлежали до текущей итерации. Минимизация оценочной функции позволяет сделать результирующие кластеры настолько компактными и раздельными, насколько это возможно. Такое разбиение параметрического пространства является диктороспецифическим. Полученные значения средних являются кодовыми векторами, используемыми для построения шаблона – кодовой книги. Разбиение параметрического пространства на 3 кластера методом k-means показано на рисунке 1. Рис. 1. Результат кластеризации алгоритмом k-means (k=3) N = ∑ i= i - i xQx D 1 N )( 1 Метод k-means хорошо работает, когда кластеры представляют собой значительно разделённые между собой компактные области. Он эффективен для обработки Где N – количество обучающих векторов; ixQ– )( больших объёмов данных, однако не применим для обна- вектор среднего; x i – обучающий вектор, принадлеружения кластеров невыпуклой формы или сильно разлижащий кластеру с центроидом ixQ. )( чающегося размера. Литература: 1. X.Huang, A.Acero, H.Hon. Spoken Language Processing: A guide to theory, algorithm, and system development. Prentice Hall, 2001. 2. Lawrence R. Rabiner, Ronald W. Schafer Introduction to Digital Speech Processing, 2007 3. Аграновский А.В., Леднов Д.А. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов Москва: Изд-во «Радио и связь», 2004. 164 с. 4. ETSI ES 202 050 V1.1.5 (2007–01) ETSI Standard Speech Processing, Transmission and Quality Aspects (STQ); Distributed speech recognition; Advanced front-end feature extraction algorithm; Compression algorithms
“Young Scientist” . #3 (50) . March 2013 Computer Science Разработка мультипотоковой модели последовательно связанных информационных элементов Рассматриваемая в статье модель является обобщением ранее разработанной модели структурного представления текстовой информации [1], далее для удобства и краткости вместо полного названия будем использовать сокращение – текстовая модель. Мультипотоковую модель последовательно связанных информационных элементов будем именовать как MT-модель (MT – аббревиатура от англ. multi-threaded). Как уже сказано, здесь предлагается обобщение текстовой модели, оно подразумевает расширение модели для представления и обработки последовательно связанных данных произвольной природы. Если данные следуют друг за другом, их можно представить в виде потока информационных элементов. Информационный элемент в данном случае – это элементарная порция данных, которой оперирует модель. В отличие от текстовой модели информационными элементами в MT-модели могут быть не только слова, но и другие данные. Например, если мы решим моделировать транспортный поток на некотором участке дороги, то такими элементами будут автомобили (их описание, набор характеристик), проехавших по данному участку за интересующий нас промежуток времени. Поток информационных элементов в данном случае будет описывать последовательность автомобилей. Если мы решим моделировать погоду, то информационными элементами будут климатические данные, например, значения температуры. Данные могут быть любыми, главное – чтобы они были последовательно связанны. Наиболее близкий математический аналог – временной ряд [2]. В нашем случае он может состоять не только из числовых, но и нечисловых (атрибутивных, категориальных) данных. Актуальность модели обусловлена отсутствием математического аппарата для решения задач анализа и прогнозирования нечисловых последовательностей. Решение таких задач весьма актуально в области искусственного интеллекта. Значительная часть информации, нуждающаяся в интеллектуальной обработке, не имеет числовой природы. Мы можем закодировать данные, но не можем их рассчитать, используя традиционные вычислительные методы аппроксимации, интерполяции, экстраполяции и др. Наличие повторяющихся цепочек информационных элементов дает теоритическую возможность их прогнозирования (на основе факта повторения), но практически это не осуществимо в виду отсутствия подходящего математического аппарата. Данная модель нацелена на решение этой проблемы. Числовая природа данных (пример с температурой) – это частный случай, в предлагаемой модели она не является Чугреев Валерий Леонидович, кандидат технических наук Институт социально-экономического развития территорий РАН (г. Вологда) 147 основополагающей. Отказываться от нее вообще, т.е. обрабатывать все числовые данные как атрибутивные, было бы не разумно. В некоторых случаях вычислимость может значительно облегчить анализ и обработку данных, т.к. позволяет достаточно просто рассчитать меру близости/схожести между отдельными информационными элементами (позже мы еще вернемся к этому вопросу) и использовать эту меру при оценке схожести отдельных участков потока. Область применения можно определить исходя из особенностей моделирования. Если нам требуется система, на вход которой подается набор дискретных последовательно связанных информационных элементов, а на выходе мы хотим получить осмысленную реакцию системы, то использование данной модели вполне уместно и оправдано. В общем случае – это самые разные задачи интеллектуальной обработки информации, поиска зависимостей в слабо формализованных и неструктурированных массивах данных. Для удобства и простоты изложения материала рассмотрим сначала исходную текстовую модель, а затем перейдем к ее обобщению. Модель структурного представления текстовой информации Суть подхода заключается в моделировании структуры текста информационным потоком и формировании этим потоком ориентированного мультиграфа, вершинами которого являются слова, а ребрами – связи между словами в тексте. Этот мультиграф является информационной структурой текста. Информационный поток – это детерминированный поток информационных элементов, принадлежащих конечному множеству. Временной интервал между элементами нас не интересует, интересует только их последовательность. Информационные элементы – это слова, а конечное множество – это множество всех уникальных слов, присутствующих в анализируемом тексте. Информационный поток эквивалентен временному ряду категориальных величин. Под информационной структурой понимается совокупность всех слов и связей между ними. Информационный поток, по сути, моделирует динамику некоторого процесса, в данном случае текста, а информационная структура является статическим представлением информационного потока. Переход к модели структурного представления текста осуществляется следующим образом. 1) Текст рассматривается в виде информационного потока, образованного информационными элементами – словами.
- Page 102 and 103: 96 Технические наук
- Page 104 and 105: 98 Технические наук
- Page 106 and 107: 100 Технические наук
- Page 108 and 109: 102 Технические наук
- Page 110 and 111: 104 Технические наук
- Page 112 and 113: 106 Технические наук
- Page 114 and 115: 108 Технические наук
- Page 116 and 117: 110 Технические наук
- Page 118 and 119: 112 Технические наук
- Page 120 and 121: 114 Технические наук
- Page 122 and 123: 116 Технические наук
- Page 124 and 125: 118 Технические наук
- Page 126 and 127: 120 Технические наук
- Page 128 and 129: 122 Технические наук
- Page 130 and 131: 124 Технические наук
- Page 132 and 133: 126 Технические наук
- Page 134 and 135: 128 Технические наук
- Page 136 and 137: 130 Информатика «Мол
- Page 138 and 139: 132 Информатика «Мол
- Page 140 and 141: 134 Информатика «Мол
- Page 142 and 143: 136 Информатика «Мол
- Page 144 and 145: 138 Информатика «Мол
- Page 146 and 147: 140 Информатика «Мол
- Page 148 and 149: 142 Информатика «Мол
- Page 150 and 151: 144 Информатика «Мол
- Page 154 and 155: 148 Информатика «Мол
- Page 156 and 157: 150 Химия «Молодой у
- Page 158 and 159: 152 Биология «Молодо
- Page 160 and 161: 154 Биология «Молодо
- Page 162 and 163: 156 Биология «Молодо
- Page 164 and 165: 158 Биология «Молодо
- Page 166 and 167: 160 Биология «Молодо
- Page 168 and 169: 162 Экология «Молодо
- Page 170 and 171: 164 Экология «Молодо
- Page 172 and 173: 166 Экология «Молодо
- Page 174 and 175: 168 Экология «Молодо
- Page 176 and 177: 170 Экология «Молодо
- Page 178 and 179: 172 Гeография «Молод
- Page 180 and 181: 174 Гeография «Молод
- Page 182 and 183: 176 Гeография «Молод
- Page 184 and 185: 178 Гeография «Молод
- Page 186 and 187: 180 Гeография «Молод
- Page 188 and 189: 182 Гeография «Молод
- Page 190 and 191: 184 Гeография «Молод
- Page 192: Молодой ученый Еже
146 Информатика<br />
«<strong>Молодой</strong> <strong>учёный</strong>» . № 3 (50) . Март, 2013 г.<br />
При идентификации говорящего по поступающему речевому<br />
сообщению распределение кластеров оказывается<br />
похожим на эталонное для зарегистрированного пользователя,<br />
или отличающееся для злоумышленника. Классификация<br />
производится вычислением меры близости<br />
(сходства) пробных данных и уже известных, которая выражается<br />
расстоянием от вектора признаков пробного<br />
сигнала до вектора признаков уже классифицированного.<br />
В качестве меры близости для числовых атрибутов<br />
очень часто используется евклидово расстояние, которое<br />
представляет собой геометрическое расстояние в многомерном<br />
пространстве:<br />
Распространённым методом построения кодовой книги<br />
является алгоритм k-средних.<br />
Метод оперирует таким понятием как центроид. Центроид<br />
– центр масс кластера, координаты которого рассчитываются<br />
как среднее значений координат объектов<br />
кластера в пространстве данных.<br />
Алгоритм k-средних разбивает исходное множество на<br />
k кластеров, где k – предварительно заданное число. Для<br />
этого сначала значения средних инициализируются некоторыми<br />
векторами из исходного множества. Затем на<br />
каждой итерации алгоритма происходит распределение<br />
векторов в ближайшие к ним кластеры (для этого вычисляется<br />
расстояние между вектором и текущими значениями<br />
средних) и перерасчёт среднего в каждом кластере.<br />
Для каждого полученного разбиения рассчитывается некоторая<br />
оценочная функция D – средняя ошибка квантования,<br />
distortion (англ. искажение) [4, с. 13]:<br />
Алгоритм k-means стремится минимизировать суммарное<br />
отклонение точек в кластере от центров кластеров.<br />
Процесс вычисления средних и перераспределения<br />
объектов заканчивается тогда, когда кластерные центры<br />
стабилизировались, т.е. все наблюдения принадлежат<br />
кластеру, которому принадлежали до текущей итерации.<br />
Минимизация оценочной функции позволяет сделать результирующие<br />
кластеры настолько компактными и раздельными,<br />
насколько это возможно. Такое разбиение<br />
параметрического пространства является диктороспецифическим.<br />
Полученные значения средних являются кодовыми<br />
векторами, используемыми для построения шаблона –<br />
кодовой книги.<br />
Разбиение параметрического пространства на 3 кластера<br />
методом k-means показано на рисунке 1.<br />
Рис. 1. Результат кластеризации алгоритмом k-means<br />
(k=3)<br />
N<br />
= ∑ i=<br />
i - i xQx<br />
D<br />
1 N<br />
)(<br />
1<br />
Метод k-means хорошо работает, когда кластеры представляют<br />
собой значительно разделённые между собой<br />
компактные области. Он эффективен для обработки<br />
Где N – количество обучающих векторов; ixQ– )( больших объёмов данных, однако не применим для обна-<br />
вектор среднего; x i – обучающий вектор, принадлеружения кластеров невыпуклой формы или сильно разлижащий<br />
кластеру с центроидом ixQ. )(<br />
чающегося размера.<br />
Литература:<br />
1. X.Huang, A.Acero, H.Hon. Spoken Language Processing: A guide to theory, algorithm, and system development.<br />
Prentice Hall, 2001.<br />
2. Lawrence R. Rabiner, Ronald W. Schafer Introduction to Digital Speech Processing, 2007<br />
3. Аграновский А.В., Леднов Д.А. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов<br />
Москва: Изд-во «Радио и связь», 2004. 164 с.<br />
4. ETSI ES 202 050 V1.1.5 (2007–01) ETSI Standard Speech Processing, Transmission and Quality Aspects (STQ);<br />
Distributed speech recognition; Advanced front-end feature extraction algorithm; Compression algorithms