Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Трехвыборочный метод был нами впервые представлен в 1995 г. в рамках<br />
приглашенного пленарного доклада на конференции по интеллектуальной обработке<br />
данных (г. Оберн, штат Алабама, США) и был положительно воспринят<br />
сообществом математиков, специализирующихся в области нейросетей.<br />
Почти одновременно с нами и независимо от нас сходные идеи были также<br />
опубликованы И.Тетко с соавт. [339] и впоследствии легли в основу разработанного<br />
им позже метода ассоциативных нейронных сетей [342]. С тех пор<br />
трехвыборочный метод превратился в обязательный атрибут нейросетевых исследований<br />
в данной области.<br />
Трехвыборочный метод, в сочетании с идеями ансамблевого подхода к<br />
построению QSAR/QSPR-моделей, лег в основу как более ранней методики, изложенной<br />
в подразделе 6.3.1 (т.н. одноуровневого комбинаторного подхода),<br />
так и более поздней разработки – процедуры двойного скользящего контроля,<br />
примененной в целом ряде разделов данной диссертационной работы.<br />
4.1.4. Процедура двойного скользящего контроля<br />
Для построения и объективной оценки прогнозирующей способности<br />
линейно-регрессионных и нейросетевых моделей нами была предложена<br />
процедура Nx(N-1) - кратного двойного скользящего контроля [343]. В этом<br />
подходе исходная база данных систематически разбивается на 3 части:<br />
обучающую, внутреннюю контрольную и внешнюю контрольную выборки в<br />
соотношении (N-2):1:1. Информация из внутренней контрольной выборки<br />
используется для отбора моделей с наилучшей прогнозирующей способностью.<br />
Информация из внешней контрольной выборки никаким образом не<br />
используется при построении и отборе моделей, и поэтому ошибка<br />
прогнозирования на ней (как среднеквадратичная, так и средняя абсолютная)<br />
может быть использована для оценки реальной прогнозирующей способности<br />
моделей. При таких разбиениях каждое соединение из исходной базы данных<br />
попадает в обучающую выборку N 2 -3N+2 раза, во внутреннюю контрольную<br />
выборку - N-1 раз и во внешнюю контрольную выборку - также N-1 раз.<br />
116