19.11.2014 Views

На правах рукописи

На правах рукописи

На правах рукописи

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

дельного рассмотрения. Связано это, очевидно, с тем, что при увеличении размеров<br />

фрагментов число их типов, а, следовательно, и число фрагментных дескрипторов<br />

резко возрастает. В то же время, при прочих равных условиях (т.е.<br />

при одинаковой ошибке на обучающей выборке и одинаковом числе отобранных<br />

дескрипторов), как следует из целого ряда математических теорий (см. ниже),<br />

прогнозирующая способность статистической модели ухудшается с увеличением<br />

первоначального числа дескрипторов, из которого производится отбор.<br />

Действительно, согласно статистической теории прогнозирования Вапника-<br />

Червоненкиса [411], минимальный размер выборки соединений, необходимый<br />

для достижения заданного качества прогнозирования зависит как от числа отобранных<br />

дескрипторов, так и от первоначального числа дескрипторов, причем в<br />

последнем случае для бинарных дескрипторов (т.н. признаков) показан логарифмический<br />

характер зависимости минимального размера выборки от логарифма<br />

числа первоначальных дескрипторов. Следовательно, при фиксированном<br />

размере выборки качество модели ухудшается при увеличении первоначального<br />

числа дескрипторов. Таким образом, эффективное число дескрипторов<br />

в статистической модели (т.н. размерность Вапника-Червоненкиса) в общем<br />

случае не равно числу отобранных дескрипторов и зависит также от первоначального<br />

числа дескрипторов, из которого производился их отбор. К аналогичным<br />

выводам приходит и теория индуктивных выводов [412, 413]. Согласно<br />

Риcсанену, ожидаемая ошибка статистической модели на данных, не входящих<br />

в обучающую выборку, определяется степенью сжатия информации с помощью<br />

этой модели. Чем меньше суммарная длина описания данных с помощью модели<br />

и описания самой модели, тем ниже ошибка предсказаний при помощи этой<br />

модели. Длина описания модели M равна количеству информации, необходимой<br />

для выбора этой модели из множества с априорным распределением вероятностей<br />

P(M), что равно величине –log P(M). Ясно, что чем из большего первоначального<br />

числа отбираются дескрипторы, тем меньше априорная вероятность<br />

получаемой модели, и, следовательно, тем больше длина описания модели<br />

и, следовательно, ожидаемая ошибка прогноза.<br />

210

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!