Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
таться внешней по отношению к этой модели, а ошибка прогнозирования на<br />
ней – для объективной оценки прогнозирующей способности этой модели.<br />
Иными словами, если критерий минимума средней ошибки на контрольной выборке<br />
используется для выбора статистической модели, то само это значение<br />
является искаженным в оптимистическую сторону оценкой прогнозирующей<br />
способности отобранной модели. Ниже изложено предложенное нами в 1995 г.<br />
эффективное решение этой проблемы [341].<br />
4.1.3. Трехвыборочный подход<br />
Для решения вышеизложенной проблемы, связанной с некорректностью<br />
использования одной и той же контрольной выборки для отбора модели и<br />
оценки ее прогнозирующей способности, предлагается использовать трехвыборочный<br />
подход, согласно которому производится деление всего набора данных<br />
на 3 выборки: обучающую (training set), внутреннюю контрольную (validation<br />
set) и внешнюю контрольную (prediction set). По обучающей выборке производится<br />
построение последовательности моделей с возрастающей сложностью<br />
(емкостью класса моделей). В случае линейно-регрессионных моделей, формируемых<br />
путем наращивания числа отбираемых дескрипторов, в качестве такого<br />
критерия сложности может выступать число отобранных дескрипторов, а при<br />
обучении нейросети – номер шага (эпохи) обучения. Для определения оптимальной<br />
сложности модели (и тем самым отбора модели с оптимальной сложностью)<br />
используется критерий минимума среднеквадратичной ошибки прогнозирования,<br />
вычисляемой для внутренней контрольной выборки. Поскольку<br />
информация из внешней контрольной выборки никаким образом не участвует<br />
ни в построении, ни в отборе моделей, то среднеквадратичная ошибка прогнозирования<br />
на ней может быть использована для оценки прогнозирующей способности<br />
отобранной модели. Разбивку набора данных на три выборки можно<br />
осуществлять либо случайным образом, либо систематично в рамках процедуры<br />
скользящего контроля.<br />
115