19.11.2014 Views

На правах рукописи

На правах рукописи

На правах рукописи

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

таться внешней по отношению к этой модели, а ошибка прогнозирования на<br />

ней – для объективной оценки прогнозирующей способности этой модели.<br />

Иными словами, если критерий минимума средней ошибки на контрольной выборке<br />

используется для выбора статистической модели, то само это значение<br />

является искаженным в оптимистическую сторону оценкой прогнозирующей<br />

способности отобранной модели. Ниже изложено предложенное нами в 1995 г.<br />

эффективное решение этой проблемы [341].<br />

4.1.3. Трехвыборочный подход<br />

Для решения вышеизложенной проблемы, связанной с некорректностью<br />

использования одной и той же контрольной выборки для отбора модели и<br />

оценки ее прогнозирующей способности, предлагается использовать трехвыборочный<br />

подход, согласно которому производится деление всего набора данных<br />

на 3 выборки: обучающую (training set), внутреннюю контрольную (validation<br />

set) и внешнюю контрольную (prediction set). По обучающей выборке производится<br />

построение последовательности моделей с возрастающей сложностью<br />

(емкостью класса моделей). В случае линейно-регрессионных моделей, формируемых<br />

путем наращивания числа отбираемых дескрипторов, в качестве такого<br />

критерия сложности может выступать число отобранных дескрипторов, а при<br />

обучении нейросети – номер шага (эпохи) обучения. Для определения оптимальной<br />

сложности модели (и тем самым отбора модели с оптимальной сложностью)<br />

используется критерий минимума среднеквадратичной ошибки прогнозирования,<br />

вычисляемой для внутренней контрольной выборки. Поскольку<br />

информация из внешней контрольной выборки никаким образом не участвует<br />

ни в построении, ни в отборе моделей, то среднеквадратичная ошибка прогнозирования<br />

на ней может быть использована для оценки прогнозирующей способности<br />

отобранной модели. Разбивку набора данных на три выборки можно<br />

осуществлять либо случайным образом, либо систематично в рамках процедуры<br />

скользящего контроля.<br />

115

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!