Молодой учёный

More documents

Recommendations

Info

148 Информатика «<strong>Молодой</strong> <strong>учёный</strong>» . № 3 (50) . Март, 2013 г. Если последовательно брать слова из текста, начиная с самого первого и кончая последним, то это как раз и будет информационный поток F. При этом набор всех слов в тексте можно выделить в конечное множество уникальных информационных элементов: I = {i1, i2, …, in}, где i – информационный элемент соответствующий уникальному слову текста. Информационный поток F, описывающий текст, будет представлен в виде набора этих элементов: F = (ik, …, im), mk Iii ∈ , , ik – соответствует первому, im – последнему слову в тексте. Порядок чередования информационных элементов в F зависит от их последовательности в тексте. Информационные элементы в потоке могут повторяться. Обязательное условие – однозначное соответствие информационного элемента слову из текста. Одинаковые слова в тексте соответствуют одному и тому же информационному элементу. Возьмем для примера фрагмент текста «в лесу родилась елочка, в лесу она росла» и выполним его моделирование. Всего 8 слов, знаки препинания не учитываются. Из этих 8 слов 2 слова («в», «лесу») повторяются, таким образом, у нас 6 уникальных информационных элементов: i1 = в, i2 = лесу, i3 = родилась, i4 = елочка, i5 = она, i6 = росла Информационный поток соответствующий этому фрагменту: F = (i1, i2, i3, i4, i1, i2, i5, i6). 2) Поток формирует структуру. Если учесть, что слова в тексте повторяются, то, соответственно, можно допустить, что информационный поток будет многократно проходить через одни и те же информационные элементы, формируя связанную информационную структуру текста. Для вышеприведенного примера информационная структура будет выглядеть следующим образом (рис. 1). Рис. 1. Структура, формируемая информационным потоком Для каждого повторного прохождения потока через одну и ту же пару информационных элементов, необходимо формировать дополнительные связи – ребра. Такая структура описывается в виде мультиграфа. Для удобства ото- бражения мультиграфа (рис. 1) информационный поток индексируется и каждому ребру графа, соединяющего пару вершин, приписывается множество индексов соответствующих прохождению информационного потока через данную пару. Индексация информационного потока означает, что каждому переходу между двумя информационными элементами будет поставлен в соответствие индекс, начиная с единицы, с последовательным его инкрементом. Многократное индексирование означает многократное прохождение потока, это важная характеристика, она может быть использована для прогнозирования последующего прохождения потока. MT-модель Перечислим отличительные особенности МТ-модели. 1. Как уже было сказано ранее, в качестве информационных элементов выступают последовательно связанные данные произвольной природы, которые могут быть как символьными, так и числовыми. 2. Информационный элемент может и должен иметь временную составляющую, а именно время появления (фиксации) элемента в потоке и его продолжительность. В некоторых случаях продолжительностью можно пренебречь, т.е. важен сам факт возникновения определенного информационного элемента в определенное время в информационном потоке. 3. Следующее важное дополнение – это увеличение числа потоков. Возьмем для примера моделирование колебаний курса валют. Очевидно, что такие колебания нужно рассматривать в контексте: какие решения принимает правительство, центральный банк, какая ситуация на рынках и т.д. Если оперировать терминологии данной модели, то речь идет о введение дополнительных информационных потоков, моделирующих контекст. Таким образом, у нас будет набор потоков: (F 1, …, F n). Графически это можно представить следующим образом (рис. 2). Рис. 2. Множество потоков Конечно, это предельно упрощенное представление, если учесть графовую структуру, которую формируют потоки, то реальное представление будет на порядки сложнее.
“Young Scientist” . #3 (50) . March 2013 Computer Science 4. Потоки могут быть разнородными по отношению друг к другу, но должны быть однородными по отношению к себе, т.е. наличие параллельных потоков моделирующих одновременно, допустим, экономические и демографические параметры – это нормально, но не нормально, когда эти параметры будут смешивать в одном потоке. Набор (i 1, …, i n) должен состоять из однородных информационных элементов. 5. Еще один важный момент, который стоит учесть, – это количество уникальных элементов по отношению к элементам, представленным в потоке. Если все информационные элементы уникальны, то о графе говорить не приходится. Нас интересуют повторяющиеся цепочки, именно они могут быть использованы для задач прогнозирования. Вернемся к примеру с валютой, пусть информационными элементами будут изменения курса. Очевидно, чем больше диапазон изменения и меньше дискретность, тем больше элементов. Назовем все возможные уникальные элементы словарем, тогда размер словаря (число входящих в него элементов) деленный на число событий в потоке будет характеризовать применимость, полезность данной модели. Отношение равное 1 – это случай неприменимости/бесполезности модели. 6. Числовая природа событий, как уже было отмечено выше, – это частный случай, который имеет свои особенности и их можно использовать. Продолжим рассмотрение примера с моделированием потока колебаний курса валюты. Допустим, мы выделили следующее множество уникальных событий: рост валюты на 1, 2, 3, … 10 %, уменьшение курса на 1, 2, 3, … 10 %, т.е. всего 20 информационных элементов. Это словарь, который будет описывать моделируемый поток событий (любое событие из потока имеет соответствующую запись в словаре). Представим, что зафиксирован следующий поток событий: 5↑ (рост курса на 5 %), 3↑, 1↑, 4↓ (падение курса на 4 %). Если он неоднократно повторялся, то эта цепочка обладает прогностической ценностью, встретив в следующий раз цепочку 5↑, 3↑, 1↑ мы можем с некоторой вероятностью спрогнозировать последующее падение в 4 %. А что если мы встретим цепочку 6↑, 3↑, 1↑? Она похожа на то, что уже было, различаются лишь первые события в цепочке, но различаются незначительно. Есть вероятность того, что для этой цепочки продолжение будет таким же, т.е. 4↓. Здесь мы опираемся на то, что эти числа близки друг к другу, мы считаем, что мера их близости высока. Такое Литература: 149 знание дает числовая природа событий и ее вполне можно использовать. В тех задачах, где мы может четко и однозначно оценить меру близости, мы можем ее использовать при последующем анализе модели. Если мы можем оценить меру близости для нечисловых элементов, то можем использовать и ее. Каким образом можно оценить меру близости для нечисловых элементов? С помощь категоризации. Если мы знаем, что какие-то элементы словаря могут быть отнесены к одной группе/категории объектов, то можем учесть эту связь впоследствии. Гипотезы Здесь мы сделаем ряд предположений о применимости предложенной модели для решения прогностических задач. 1. Учитывая повторяемость некоторых цепочек событий (предыстории) в рамках потока, можно прогнозировать последующее поведение потока, т.е. предсказывать возникновение тех или иных элементов (по сути, событий) с некоторой вероятностью. 2. Качество прогноза для потока зависит не только от предыстории в данном потоке, но и от предыстории в других потоках. Если, конечно, эти потоки выбраны и сведены в общую модель осмысленно, если между отдельными событиями этих потоков действительно есть зависимость. Естественно, что предыстория из разных потоков должна учитываться в одном и том же временном диапазоне. 3. Оптимальный временной диапазон, в котором необходимо учитывать предысторию будет разным для разных исходных данных и моделируемых систем. Его правильный выбор и принципы такого выбора – один из открытых вопросов, ответ на который можно получить только в процессе практического моделирования. Заключение Чтобы проверить сформулированные выше гипотезы нужно осуществить компьютерное моделирование на основе реальных данных. Это предполагает: 1) создание программной реализацию модели, 2) разработку алгоритма анализа цепочек событий для поиска их зависимостей и причинно-следственных связей применительно к сопряженным графам. Обладая практической реализацией модели и алгоритмами ее анализа, мы можем приступить непосредственно к прогнозированию, т.е. оценке его качества на разных выборках. 1. Чугреев В.Л., Модель структурного представления текстовой информации и метод ее тематического анализа на основе частотно-контекстной классификации: диссертация на соискание уч. ст. к.т.н. – СПб.: СПбГЭТУ «ЛЭТИ», 2003. – 185 с. 2. Лукашин Ю.П., Адаптивные методы краткосрочного прогнозирования временных рядов: Учеб. пособие. – М.: Финансы и статистика, 2003. – 416 с.
Page 1 and 2:
Молодой учёный № 3 (
Page 3 and 4:
“Young Scientist” . #3 (50) . M
Page 5:
“Young Scientist” . #3 (50) . M
Page 8 and 9:
2 Физика «Молодой у
Page 10 and 11:
4 Физика «Молодой у
Page 12 and 13:
6 Математика «Молод
Page 14 and 15:
8 Математика «Молод
Page 16 and 17:
10 Математика «Моло
Page 18 and 19:
12 Математика «Моло
Page 20 and 21:
14 Технические наук
Page 22 and 23:
Page 24 and 25:
Page 26 and 27:
Page 28 and 29:
Page 30 and 31:
Page 32 and 33:
Page 34 and 35:
Page 36 and 37:
Page 38 and 39:
Page 40 and 41:
Page 42 and 43:
Page 44 and 45:
Page 46 and 47:
Page 48 and 49:
Page 50 and 51:
Page 52 and 53:
Page 54 and 55:
Page 56 and 57:
Page 58 and 59:
Page 60 and 61:
Page 62 and 63:
Page 64 and 65:
Page 66 and 67:
Page 68 and 69:
Page 70 and 71:
Page 72 and 73:
Page 74 and 75:
Page 76 and 77:
Page 78 and 79:
Page 80 and 81:
Page 82 and 83:
Page 84 and 85:
Page 86 and 87:
Page 88 and 89:
Page 90 and 91:
Page 92 and 93:
Page 94 and 95:
Page 96 and 97:
Page 98 and 99:
Page 100 and 101:
Page 102 and 103:
Page 104 and 105: 98 Технические наук
Page 136 and 137: 130 Информатика «Мол
Page 156 and 157: 150 Химия «Молодой у
Page 158 and 159: 152 Биология «Молодо
Page 168 and 169: 162 Экология «Молодо
Page 178 and 179: 172 Гeография «Молод
Page 192: Молодой ученый Еже
show all

Молодой учёный

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?