Молодой учёный

Молодой учёный Молодой учёный

magz.elibraries.eu
from magz.elibraries.eu More from this publisher
20.07.2013 Views

146 Информатика «Молодой учёный» . № 3 (50) . Март, 2013 г. При идентификации говорящего по поступающему речевому сообщению распределение кластеров оказывается похожим на эталонное для зарегистрированного пользователя, или отличающееся для злоумышленника. Классификация производится вычислением меры близости (сходства) пробных данных и уже известных, которая выражается расстоянием от вектора признаков пробного сигнала до вектора признаков уже классифицированного. В качестве меры близости для числовых атрибутов очень часто используется евклидово расстояние, которое представляет собой геометрическое расстояние в многомерном пространстве: Распространённым методом построения кодовой книги является алгоритм k-средних. Метод оперирует таким понятием как центроид. Центроид – центр масс кластера, координаты которого рассчитываются как среднее значений координат объектов кластера в пространстве данных. Алгоритм k-средних разбивает исходное множество на k кластеров, где k – предварительно заданное число. Для этого сначала значения средних инициализируются некоторыми векторами из исходного множества. Затем на каждой итерации алгоритма происходит распределение векторов в ближайшие к ним кластеры (для этого вычисляется расстояние между вектором и текущими значениями средних) и перерасчёт среднего в каждом кластере. Для каждого полученного разбиения рассчитывается некоторая оценочная функция D – средняя ошибка квантования, distortion (англ. искажение) [4, с. 13]: Алгоритм k-means стремится минимизировать суммарное отклонение точек в кластере от центров кластеров. Процесс вычисления средних и перераспределения объектов заканчивается тогда, когда кластерные центры стабилизировались, т.е. все наблюдения принадлежат кластеру, которому принадлежали до текущей итерации. Минимизация оценочной функции позволяет сделать результирующие кластеры настолько компактными и раздельными, насколько это возможно. Такое разбиение параметрического пространства является диктороспецифическим. Полученные значения средних являются кодовыми векторами, используемыми для построения шаблона – кодовой книги. Разбиение параметрического пространства на 3 кластера методом k-means показано на рисунке 1. Рис. 1. Результат кластеризации алгоритмом k-means (k=3) N = ∑ i= i - i xQx D 1 N )( 1 Метод k-means хорошо работает, когда кластеры представляют собой значительно разделённые между собой компактные области. Он эффективен для обработки Где N – количество обучающих векторов; ixQ– )( больших объёмов данных, однако не применим для обна- вектор среднего; x i – обучающий вектор, принадлеружения кластеров невыпуклой формы или сильно разлижащий кластеру с центроидом ixQ. )( чающегося размера. Литература: 1. X.Huang, A.Acero, H.Hon. Spoken Language Processing: A guide to theory, algorithm, and system development. Prentice Hall, 2001. 2. Lawrence R. Rabiner, Ronald W. Schafer Introduction to Digital Speech Processing, 2007 3. Аграновский А.В., Леднов Д.А. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов Москва: Изд-во «Радио и связь», 2004. 164 с. 4. ETSI ES 202 050 V1.1.5 (2007–01) ETSI Standard Speech Processing, Transmission and Quality Aspects (STQ); Distributed speech recognition; Advanced front-end feature extraction algorithm; Compression algorithms

“Young Scientist” . #3 (50) . March 2013 Computer Science Разработка мультипотоковой модели последовательно связанных информационных элементов Рассматриваемая в статье модель является обобщением ранее разработанной модели структурного представления текстовой информации [1], далее для удобства и краткости вместо полного названия будем использовать сокращение – текстовая модель. Мультипотоковую модель последовательно связанных информационных элементов будем именовать как MT-модель (MT – аббревиатура от англ. multi-threaded). Как уже сказано, здесь предлагается обобщение текстовой модели, оно подразумевает расширение модели для представления и обработки последовательно связанных данных произвольной природы. Если данные следуют друг за другом, их можно представить в виде потока информационных элементов. Информационный элемент в данном случае – это элементарная порция данных, которой оперирует модель. В отличие от текстовой модели информационными элементами в MT-модели могут быть не только слова, но и другие данные. Например, если мы решим моделировать транспортный поток на некотором участке дороги, то такими элементами будут автомобили (их описание, набор характеристик), проехавших по данному участку за интересующий нас промежуток времени. Поток информационных элементов в данном случае будет описывать последовательность автомобилей. Если мы решим моделировать погоду, то информационными элементами будут климатические данные, например, значения температуры. Данные могут быть любыми, главное – чтобы они были последовательно связанны. Наиболее близкий математический аналог – временной ряд [2]. В нашем случае он может состоять не только из числовых, но и нечисловых (атрибутивных, категориальных) данных. Актуальность модели обусловлена отсутствием математического аппарата для решения задач анализа и прогнозирования нечисловых последовательностей. Решение таких задач весьма актуально в области искусственного интеллекта. Значительная часть информации, нуждающаяся в интеллектуальной обработке, не имеет числовой природы. Мы можем закодировать данные, но не можем их рассчитать, используя традиционные вычислительные методы аппроксимации, интерполяции, экстраполяции и др. Наличие повторяющихся цепочек информационных элементов дает теоритическую возможность их прогнозирования (на основе факта повторения), но практически это не осуществимо в виду отсутствия подходящего математического аппарата. Данная модель нацелена на решение этой проблемы. Числовая природа данных (пример с температурой) – это частный случай, в предлагаемой модели она не является Чугреев Валерий Леонидович, кандидат технических наук Институт социально-экономического развития территорий РАН (г. Вологда) 147 основополагающей. Отказываться от нее вообще, т.е. обрабатывать все числовые данные как атрибутивные, было бы не разумно. В некоторых случаях вычислимость может значительно облегчить анализ и обработку данных, т.к. позволяет достаточно просто рассчитать меру близости/схожести между отдельными информационными элементами (позже мы еще вернемся к этому вопросу) и использовать эту меру при оценке схожести отдельных участков потока. Область применения можно определить исходя из особенностей моделирования. Если нам требуется система, на вход которой подается набор дискретных последовательно связанных информационных элементов, а на выходе мы хотим получить осмысленную реакцию системы, то использование данной модели вполне уместно и оправдано. В общем случае – это самые разные задачи интеллектуальной обработки информации, поиска зависимостей в слабо формализованных и неструктурированных массивах данных. Для удобства и простоты изложения материала рассмотрим сначала исходную текстовую модель, а затем перейдем к ее обобщению. Модель структурного представления текстовой информации Суть подхода заключается в моделировании структуры текста информационным потоком и формировании этим потоком ориентированного мультиграфа, вершинами которого являются слова, а ребрами – связи между словами в тексте. Этот мультиграф является информационной структурой текста. Информационный поток – это детерминированный поток информационных элементов, принадлежащих конечному множеству. Временной интервал между элементами нас не интересует, интересует только их последовательность. Информационные элементы – это слова, а конечное множество – это множество всех уникальных слов, присутствующих в анализируемом тексте. Информационный поток эквивалентен временному ряду категориальных величин. Под информационной структурой понимается совокупность всех слов и связей между ними. Информационный поток, по сути, моделирует динамику некоторого процесса, в данном случае текста, а информационная структура является статическим представлением информационного потока. Переход к модели структурного представления текста осуществляется следующим образом. 1) Текст рассматривается в виде информационного потока, образованного информационными элементами – словами.

146 Информатика<br />

«<strong>Молодой</strong> <strong>учёный</strong>» . № 3 (50) . Март, 2013 г.<br />

При идентификации говорящего по поступающему речевому<br />

сообщению распределение кластеров оказывается<br />

похожим на эталонное для зарегистрированного пользователя,<br />

или отличающееся для злоумышленника. Классификация<br />

производится вычислением меры близости<br />

(сходства) пробных данных и уже известных, которая выражается<br />

расстоянием от вектора признаков пробного<br />

сигнала до вектора признаков уже классифицированного.<br />

В качестве меры близости для числовых атрибутов<br />

очень часто используется евклидово расстояние, которое<br />

представляет собой геометрическое расстояние в многомерном<br />

пространстве:<br />

Распространённым методом построения кодовой книги<br />

является алгоритм k-средних.<br />

Метод оперирует таким понятием как центроид. Центроид<br />

– центр масс кластера, координаты которого рассчитываются<br />

как среднее значений координат объектов<br />

кластера в пространстве данных.<br />

Алгоритм k-средних разбивает исходное множество на<br />

k кластеров, где k – предварительно заданное число. Для<br />

этого сначала значения средних инициализируются некоторыми<br />

векторами из исходного множества. Затем на<br />

каждой итерации алгоритма происходит распределение<br />

векторов в ближайшие к ним кластеры (для этого вычисляется<br />

расстояние между вектором и текущими значениями<br />

средних) и перерасчёт среднего в каждом кластере.<br />

Для каждого полученного разбиения рассчитывается некоторая<br />

оценочная функция D – средняя ошибка квантования,<br />

distortion (англ. искажение) [4, с. 13]:<br />

Алгоритм k-means стремится минимизировать суммарное<br />

отклонение точек в кластере от центров кластеров.<br />

Процесс вычисления средних и перераспределения<br />

объектов заканчивается тогда, когда кластерные центры<br />

стабилизировались, т.е. все наблюдения принадлежат<br />

кластеру, которому принадлежали до текущей итерации.<br />

Минимизация оценочной функции позволяет сделать результирующие<br />

кластеры настолько компактными и раздельными,<br />

насколько это возможно. Такое разбиение<br />

параметрического пространства является диктороспецифическим.<br />

Полученные значения средних являются кодовыми<br />

векторами, используемыми для построения шаблона –<br />

кодовой книги.<br />

Разбиение параметрического пространства на 3 кластера<br />

методом k-means показано на рисунке 1.<br />

Рис. 1. Результат кластеризации алгоритмом k-means<br />

(k=3)<br />

N<br />

= ∑ i=<br />

i - i xQx<br />

D<br />

1 N<br />

)(<br />

1<br />

Метод k-means хорошо работает, когда кластеры представляют<br />

собой значительно разделённые между собой<br />

компактные области. Он эффективен для обработки<br />

Где N – количество обучающих векторов; ixQ– )( больших объёмов данных, однако не применим для обна-<br />

вектор среднего; x i – обучающий вектор, принадлеружения кластеров невыпуклой формы или сильно разлижащий<br />

кластеру с центроидом ixQ. )(<br />

чающегося размера.<br />

Литература:<br />

1. X.Huang, A.Acero, H.Hon. Spoken Language Processing: A guide to theory, algorithm, and system development.<br />

Prentice Hall, 2001.<br />

2. Lawrence R. Rabiner, Ronald W. Schafer Introduction to Digital Speech Processing, 2007<br />

3. Аграновский А.В., Леднов Д.А. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов<br />

Москва: Изд-во «Радио и связь», 2004. 164 с.<br />

4. ETSI ES 202 050 V1.1.5 (2007–01) ETSI Standard Speech Processing, Transmission and Quality Aspects (STQ);<br />

Distributed speech recognition; Advanced front-end feature extraction algorithm; Compression algorithms

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!