20.07.2013 Views

Молодой учёный

Молодой учёный

Молодой учёный

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

“Young Scientist” . #3 (50) . March 2013 Computer Science<br />

4. Потоки могут быть разнородными по отношению<br />

друг к другу, но должны быть однородными по отношению<br />

к себе, т.е. наличие параллельных потоков моделирующих<br />

одновременно, допустим, экономические и демографические<br />

параметры – это нормально, но не нормально, когда<br />

эти параметры будут смешивать в одном потоке. Набор<br />

(i 1, …, i n) должен состоять из однородных информационных<br />

элементов.<br />

5. Еще один важный момент, который стоит учесть, –<br />

это количество уникальных элементов по отношению к<br />

элементам, представленным в потоке. Если все информационные<br />

элементы уникальны, то о графе говорить не<br />

приходится. Нас интересуют повторяющиеся цепочки,<br />

именно они могут быть использованы для задач прогнозирования.<br />

Вернемся к примеру с валютой, пусть информационными<br />

элементами будут изменения курса. Очевидно, чем<br />

больше диапазон изменения и меньше дискретность, тем<br />

больше элементов. Назовем все возможные уникальные<br />

элементы словарем, тогда размер словаря (число входящих<br />

в него элементов) деленный на число событий в<br />

потоке будет характеризовать применимость, полезность<br />

данной модели. Отношение равное 1 – это случай неприменимости/бесполезности<br />

модели.<br />

6. Числовая природа событий, как уже было отмечено<br />

выше, – это частный случай, который имеет свои<br />

особенности и их можно использовать. Продолжим рассмотрение<br />

примера с моделированием потока колебаний<br />

курса валюты. Допустим, мы выделили следующее множество<br />

уникальных событий: рост валюты на 1, 2, 3, … 10<br />

%, уменьшение курса на 1, 2, 3, … 10 %, т.е. всего 20 информационных<br />

элементов. Это словарь, который будет<br />

описывать моделируемый поток событий (любое событие<br />

из потока имеет соответствующую запись в словаре).<br />

Представим, что зафиксирован следующий поток событий:<br />

5↑ (рост курса на 5 %), 3↑, 1↑, 4↓ (падение курса<br />

на 4 %). Если он неоднократно повторялся, то эта цепочка<br />

обладает прогностической ценностью, встретив в следующий<br />

раз цепочку 5↑, 3↑, 1↑ мы можем с некоторой вероятностью<br />

спрогнозировать последующее падение в<br />

4 %. А что если мы встретим цепочку 6↑, 3↑, 1↑? Она похожа<br />

на то, что уже было, различаются лишь первые события<br />

в цепочке, но различаются незначительно. Есть вероятность<br />

того, что для этой цепочки продолжение будет<br />

таким же, т.е. 4↓.<br />

Здесь мы опираемся на то, что эти числа близки друг<br />

к другу, мы считаем, что мера их близости высока. Такое<br />

Литература:<br />

149<br />

знание дает числовая природа событий и ее вполне можно<br />

использовать. В тех задачах, где мы может четко и однозначно<br />

оценить меру близости, мы можем ее использовать<br />

при последующем анализе модели. Если мы можем оценить<br />

меру близости для нечисловых элементов, то можем<br />

использовать и ее. Каким образом можно оценить меру<br />

близости для нечисловых элементов? С помощь категоризации.<br />

Если мы знаем, что какие-то элементы словаря<br />

могут быть отнесены к одной группе/категории объектов,<br />

то можем учесть эту связь впоследствии.<br />

Гипотезы<br />

Здесь мы сделаем ряд предположений о применимости<br />

предложенной модели для решения прогностических<br />

задач.<br />

1. Учитывая повторяемость некоторых цепочек событий<br />

(предыстории) в рамках потока, можно прогнозировать<br />

последующее поведение потока, т.е. предсказывать<br />

возникновение тех или иных элементов (по сути,<br />

событий) с некоторой вероятностью.<br />

2. Качество прогноза для потока зависит не только от<br />

предыстории в данном потоке, но и от предыстории в других<br />

потоках. Если, конечно, эти потоки выбраны и сведены в<br />

общую модель осмысленно, если между отдельными событиями<br />

этих потоков действительно есть зависимость. Естественно,<br />

что предыстория из разных потоков должна учитываться<br />

в одном и том же временном диапазоне.<br />

3. Оптимальный временной диапазон, в котором необходимо<br />

учитывать предысторию будет разным для разных<br />

исходных данных и моделируемых систем. Его правильный<br />

выбор и принципы такого выбора – один из открытых вопросов,<br />

ответ на который можно получить только в процессе<br />

практического моделирования.<br />

Заключение<br />

Чтобы проверить сформулированные выше гипотезы<br />

нужно осуществить компьютерное моделирование на основе<br />

реальных данных. Это предполагает: 1) создание<br />

программной реализацию модели, 2) разработку алгоритма<br />

анализа цепочек событий для поиска их зависимостей<br />

и причинно-следственных связей применительно к<br />

сопряженным графам. Обладая практической реализацией<br />

модели и алгоритмами ее анализа, мы можем приступить<br />

непосредственно к прогнозированию, т.е. оценке<br />

его качества на разных выборках.<br />

1. Чугреев В.Л., Модель структурного представления текстовой информации и метод ее тематического анализа<br />

на основе частотно-контекстной классификации: диссертация на соискание уч. ст. к.т.н. – СПб.: СПбГЭТУ<br />

«ЛЭТИ», 2003. – 185 с.<br />

2. Лукашин Ю.П., Адаптивные методы краткосрочного прогнозирования временных рядов: Учеб. пособие. – М.:<br />

Финансы и статистика, 2003. – 416 с.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!