На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

Трехвыборочный метод был нами впервые представлен в 1995 г. в рамках приглашенного пленарного доклада на конференции по интеллектуальной обработке данных (г. Оберн, штат Алабама, США) и был положительно воспринят сообществом математиков, специализирующихся в области нейросетей. Почти одновременно с нами и независимо от нас сходные идеи были также опубликованы И.Тетко с соавт. [339] и впоследствии легли в основу разработанного им позже метода ассоциативных нейронных сетей [342]. С тех пор трехвыборочный метод превратился в обязательный атрибут нейросетевых исследований в данной области. Трехвыборочный метод, в сочетании с идеями ансамблевого подхода к построению QSAR/QSPR-моделей, лег в основу как более ранней методики, изложенной в подразделе 6.3.1 (т.н. одноуровневого комбинаторного подхода), так и более поздней разработки – процедуры двойного скользящего контроля, примененной в целом ряде разделов данной диссертационной работы. 4.1.4. Процедура двойного скользящего контроля Для построения и объективной оценки прогнозирующей способности линейно-регрессионных и нейросетевых моделей нами была предложена процедура Nx(N-1) - кратного двойного скользящего контроля [343]. В этом подходе исходная база данных систематически разбивается на 3 части: обучающую, внутреннюю контрольную и внешнюю контрольную выборки в соотношении (N-2):1:1. Информация из внутренней контрольной выборки используется для отбора моделей с наилучшей прогнозирующей способностью. Информация из внешней контрольной выборки никаким образом не используется при построении и отборе моделей, и поэтому ошибка прогнозирования на ней (как среднеквадратичная, так и средняя абсолютная) может быть использована для оценки реальной прогнозирующей способности моделей. При таких разбиениях каждое соединение из исходной базы данных попадает в обучающую выборку N 2 -3N+2 раза, во внутреннюю контрольную выборку - N-1 раз и во внешнюю контрольную выборку - также N-1 раз. 116

Предсказанное значение свойства для каждого соединения вычисляется как среднее из предсказанных значений при всех N-1 разбиениях, при которых оно попадает во внешнюю контрольную выборку, тогда как дисперсия предсказанных значений может быть использована для оценки точности прогноза для данного соединения. На Рис. 26 представлена диаграмма разбиения исследуемых баз данных для N = 5. - обучающая выборка - внутренняя контрольная выборка - внешняя контрольная выборка Рис. 26. Схема 5х4-кратного двойного скользящего контроля В результате на основе усреднения Nx(N-1) частных моделей, выводимых при разных разбиениях исходной базы данных, получаются соответствующие комбинированные модели. Вычисляемые статистические характеристики включают: (1) Q 2 DCV - параметр Q 2 (Q 2 =(SS-PSS)/SS, где PSS сумма квадратов ошибок прогноза свойства, SS - сумма квадратов отклонения свойства от среднего значения) для усредненных спрогнозированных значений, (2) RMSE DCV - среднеквадратичная ошибка прогнозирования, (3) MAE DCV - средняя абсолютная ошибка прогнозирования. Метод двойного скользящего контроля обеспечивает объективную оценку реальной прогнозирующей способности моделей, процедура отбора которых предполагает использование контрольной выборки либо процедуры скользящего контроля. Он не только позволяет эффективно предотвращать «переучивание» нейросетей (благодаря трехвыборочному подходу), но и обращает стохастические свойства нейросетевых моделей из кажущегося недостатка в преимущество, поскольку благодаря этому позволяет оценивать 117

Предсказанное значение свойства для каждого соединения вычисляется как<br />

среднее из предсказанных значений при всех N-1 разбиениях, при которых оно<br />

попадает во внешнюю контрольную выборку, тогда как дисперсия<br />

предсказанных значений может быть использована для оценки точности<br />

прогноза для данного соединения. На Рис. 26 представлена диаграмма<br />

разбиения исследуемых баз данных для N = 5.<br />

- обучающая выборка<br />

- внутренняя контрольная выборка<br />

- внешняя контрольная выборка<br />

Рис. 26. Схема 5х4-кратного двойного скользящего контроля<br />

В результате на основе усреднения Nx(N-1) частных моделей, выводимых<br />

при разных разбиениях исходной базы данных, получаются соответствующие<br />

комбинированные модели. Вычисляемые статистические характеристики<br />

включают: (1) Q 2 DCV - параметр Q 2 (Q 2 =(SS-PSS)/SS, где PSS сумма квадратов<br />

ошибок прогноза свойства, SS - сумма квадратов отклонения свойства от<br />

среднего значения) для усредненных спрогнозированных значений, (2)<br />

RMSE DCV - среднеквадратичная ошибка прогнозирования, (3) MAE DCV - средняя<br />

абсолютная ошибка прогнозирования.<br />

Метод двойного скользящего контроля обеспечивает объективную<br />

оценку реальной прогнозирующей способности моделей, процедура отбора<br />

которых предполагает использование контрольной выборки либо процедуры<br />

скользящего контроля. Он не только позволяет эффективно предотвращать<br />

«переучивание» нейросетей (благодаря трехвыборочному подходу), но и<br />

обращает стохастические свойства нейросетевых моделей из кажущегося<br />

недостатка в преимущество, поскольку благодаря этому позволяет оценивать<br />

117

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!