You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
“Young Scientist” . #3 (50) . March 2013 Computer Science<br />
4. Потоки могут быть разнородными по отношению<br />
друг к другу, но должны быть однородными по отношению<br />
к себе, т.е. наличие параллельных потоков моделирующих<br />
одновременно, допустим, экономические и демографические<br />
параметры – это нормально, но не нормально, когда<br />
эти параметры будут смешивать в одном потоке. Набор<br />
(i 1, …, i n) должен состоять из однородных информационных<br />
элементов.<br />
5. Еще один важный момент, который стоит учесть, –<br />
это количество уникальных элементов по отношению к<br />
элементам, представленным в потоке. Если все информационные<br />
элементы уникальны, то о графе говорить не<br />
приходится. Нас интересуют повторяющиеся цепочки,<br />
именно они могут быть использованы для задач прогнозирования.<br />
Вернемся к примеру с валютой, пусть информационными<br />
элементами будут изменения курса. Очевидно, чем<br />
больше диапазон изменения и меньше дискретность, тем<br />
больше элементов. Назовем все возможные уникальные<br />
элементы словарем, тогда размер словаря (число входящих<br />
в него элементов) деленный на число событий в<br />
потоке будет характеризовать применимость, полезность<br />
данной модели. Отношение равное 1 – это случай неприменимости/бесполезности<br />
модели.<br />
6. Числовая природа событий, как уже было отмечено<br />
выше, – это частный случай, который имеет свои<br />
особенности и их можно использовать. Продолжим рассмотрение<br />
примера с моделированием потока колебаний<br />
курса валюты. Допустим, мы выделили следующее множество<br />
уникальных событий: рост валюты на 1, 2, 3, … 10<br />
%, уменьшение курса на 1, 2, 3, … 10 %, т.е. всего 20 информационных<br />
элементов. Это словарь, который будет<br />
описывать моделируемый поток событий (любое событие<br />
из потока имеет соответствующую запись в словаре).<br />
Представим, что зафиксирован следующий поток событий:<br />
5↑ (рост курса на 5 %), 3↑, 1↑, 4↓ (падение курса<br />
на 4 %). Если он неоднократно повторялся, то эта цепочка<br />
обладает прогностической ценностью, встретив в следующий<br />
раз цепочку 5↑, 3↑, 1↑ мы можем с некоторой вероятностью<br />
спрогнозировать последующее падение в<br />
4 %. А что если мы встретим цепочку 6↑, 3↑, 1↑? Она похожа<br />
на то, что уже было, различаются лишь первые события<br />
в цепочке, но различаются незначительно. Есть вероятность<br />
того, что для этой цепочки продолжение будет<br />
таким же, т.е. 4↓.<br />
Здесь мы опираемся на то, что эти числа близки друг<br />
к другу, мы считаем, что мера их близости высока. Такое<br />
Литература:<br />
149<br />
знание дает числовая природа событий и ее вполне можно<br />
использовать. В тех задачах, где мы может четко и однозначно<br />
оценить меру близости, мы можем ее использовать<br />
при последующем анализе модели. Если мы можем оценить<br />
меру близости для нечисловых элементов, то можем<br />
использовать и ее. Каким образом можно оценить меру<br />
близости для нечисловых элементов? С помощь категоризации.<br />
Если мы знаем, что какие-то элементы словаря<br />
могут быть отнесены к одной группе/категории объектов,<br />
то можем учесть эту связь впоследствии.<br />
Гипотезы<br />
Здесь мы сделаем ряд предположений о применимости<br />
предложенной модели для решения прогностических<br />
задач.<br />
1. Учитывая повторяемость некоторых цепочек событий<br />
(предыстории) в рамках потока, можно прогнозировать<br />
последующее поведение потока, т.е. предсказывать<br />
возникновение тех или иных элементов (по сути,<br />
событий) с некоторой вероятностью.<br />
2. Качество прогноза для потока зависит не только от<br />
предыстории в данном потоке, но и от предыстории в других<br />
потоках. Если, конечно, эти потоки выбраны и сведены в<br />
общую модель осмысленно, если между отдельными событиями<br />
этих потоков действительно есть зависимость. Естественно,<br />
что предыстория из разных потоков должна учитываться<br />
в одном и том же временном диапазоне.<br />
3. Оптимальный временной диапазон, в котором необходимо<br />
учитывать предысторию будет разным для разных<br />
исходных данных и моделируемых систем. Его правильный<br />
выбор и принципы такого выбора – один из открытых вопросов,<br />
ответ на который можно получить только в процессе<br />
практического моделирования.<br />
Заключение<br />
Чтобы проверить сформулированные выше гипотезы<br />
нужно осуществить компьютерное моделирование на основе<br />
реальных данных. Это предполагает: 1) создание<br />
программной реализацию модели, 2) разработку алгоритма<br />
анализа цепочек событий для поиска их зависимостей<br />
и причинно-следственных связей применительно к<br />
сопряженным графам. Обладая практической реализацией<br />
модели и алгоритмами ее анализа, мы можем приступить<br />
непосредственно к прогнозированию, т.е. оценке<br />
его качества на разных выборках.<br />
1. Чугреев В.Л., Модель структурного представления текстовой информации и метод ее тематического анализа<br />
на основе частотно-контекстной классификации: диссертация на соискание уч. ст. к.т.н. – СПб.: СПбГЭТУ<br />
«ЛЭТИ», 2003. – 185 с.<br />
2. Лукашин Ю.П., Адаптивные методы краткосрочного прогнозирования временных рядов: Учеб. пособие. – М.:<br />
Финансы и статистика, 2003. – 416 с.