Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Трехвыборочный метод был нами впервые представлен в 1995 г. в рамках приглашенного пленарного доклада на конференции по интеллектуальной обработке данных (г. Оберн, штат Алабама, США) и был положительно воспринят сообществом математиков, специализирующихся в области нейросетей. Почти одновременно с нами и независимо от нас сходные идеи были также опубликованы И.Тетко с соавт. [339] и впоследствии легли в основу разработанного им позже метода ассоциативных нейронных сетей [342]. С тех пор трехвыборочный метод превратился в обязательный атрибут нейросетевых исследований в данной области. Трехвыборочный метод, в сочетании с идеями ансамблевого подхода к построению QSAR/QSPR-моделей, лег в основу как более ранней методики, изложенной в подразделе 6.3.1 (т.н. одноуровневого комбинаторного подхода), так и более поздней разработки – процедуры двойного скользящего контроля, примененной в целом ряде разделов данной диссертационной работы. 4.1.4. Процедура двойного скользящего контроля Для построения и объективной оценки прогнозирующей способности линейно-регрессионных и нейросетевых моделей нами была предложена процедура Nx(N-1) - кратного двойного скользящего контроля [343]. В этом подходе исходная база данных систематически разбивается на 3 части: обучающую, внутреннюю контрольную и внешнюю контрольную выборки в соотношении (N-2):1:1. Информация из внутренней контрольной выборки используется для отбора моделей с наилучшей прогнозирующей способностью. Информация из внешней контрольной выборки никаким образом не используется при построении и отборе моделей, и поэтому ошибка прогнозирования на ней (как среднеквадратичная, так и средняя абсолютная) может быть использована для оценки реальной прогнозирующей способности моделей. При таких разбиениях каждое соединение из исходной базы данных попадает в обучающую выборку N 2 -3N+2 раза, во внутреннюю контрольную выборку - N-1 раз и во внешнюю контрольную выборку - также N-1 раз. 116
Предсказанное значение свойства для каждого соединения вычисляется как среднее из предсказанных значений при всех N-1 разбиениях, при которых оно попадает во внешнюю контрольную выборку, тогда как дисперсия предсказанных значений может быть использована для оценки точности прогноза для данного соединения. На Рис. 26 представлена диаграмма разбиения исследуемых баз данных для N = 5. - обучающая выборка - внутренняя контрольная выборка - внешняя контрольная выборка Рис. 26. Схема 5х4-кратного двойного скользящего контроля В результате на основе усреднения Nx(N-1) частных моделей, выводимых при разных разбиениях исходной базы данных, получаются соответствующие комбинированные модели. Вычисляемые статистические характеристики включают: (1) Q 2 DCV - параметр Q 2 (Q 2 =(SS-PSS)/SS, где PSS сумма квадратов ошибок прогноза свойства, SS - сумма квадратов отклонения свойства от среднего значения) для усредненных спрогнозированных значений, (2) RMSE DCV - среднеквадратичная ошибка прогнозирования, (3) MAE DCV - средняя абсолютная ошибка прогнозирования. Метод двойного скользящего контроля обеспечивает объективную оценку реальной прогнозирующей способности моделей, процедура отбора которых предполагает использование контрольной выборки либо процедуры скользящего контроля. Он не только позволяет эффективно предотвращать «переучивание» нейросетей (благодаря трехвыборочному подходу), но и обращает стохастические свойства нейросетевых моделей из кажущегося недостатка в преимущество, поскольку благодаря этому позволяет оценивать 117
- Page 65 and 66: му типу биологичес
- Page 67 and 68: тему опубликовано
- Page 69 and 70: В настоящее время п
- Page 71 and 72: ниях QSPR/QSAR/SAR. И дейс
- Page 73 and 74: В качестве характе
- Page 75 and 76: Некоторые типы ЦАФ
- Page 77 and 78: кроме того, они сно
- Page 79 and 80: Следует упомянуть
- Page 81 and 82: зисных графов, пред
- Page 83 and 84: рой равен 1 только в
- Page 85 and 86: множества различны
- Page 87 and 88: при проведении вир
- Page 89 and 90: 21 01 12 12 21 01 Рис. 17. Ре
- Page 91 and 92: ределенных атомных
- Page 93 and 94: элементам, что може
- Page 95 and 96: наличие или отсутс
- Page 97 and 98: использовались в н
- Page 99 and 100: ложенные в 1985 г. ато
- Page 101 and 102: 2.3. Ограничения фра
- Page 103 and 104: ГЛАВА 3. МАТЕМАТИЧЕ
- Page 105 and 106: качестве меток исп
- Page 107 and 108: ной нумерации граф
- Page 109 and 110: нейронной сети с пр
- Page 111 and 112: ГЛАВА 4. РАЗРАБОТКА
- Page 113 and 114: линейные комбинаци
- Page 115: таться внешней по о
- Page 119 and 120: рипторе, то он пере
- Page 121 and 122: Для решения этой пр
- Page 123 and 124: • D x - среднее значе
- Page 125 and 126: R 1 R 2 R 1 R 2 X R 6 X R N + 3 (CH
- Page 127 and 128: В соответствии с вы
- Page 129 and 130: зовании рассмотрен
- Page 131 and 132: R4 R5 R3 R6 N (a) R2 6 N 2 6 2 6 2
- Page 133 and 134: f ( x, y) ≡ f ( y, x) ⇔ f ( x,
- Page 135 and 136: R3 R2 R5 R6 Общая формул
- Page 137 and 138: ко, эта разница все
- Page 139 and 140: переставленными эк
- Page 141 and 142: лей приведен в рабо
- Page 143 and 144: деленными» атомами
- Page 145 and 146: 5.1.2. Иерархическая
- Page 147 and 148: водородного соседа
- Page 149 and 150: Атом кислорода в со
- Page 151 and 152: PA1 -PH 2 Атом фосфора,
- Page 153 and 154: Br2 -Br= Формально нез
- Page 155 and 156: то в дальнейшем буд
- Page 157 and 158: После нахождения п
- Page 159 and 160: 5.2.1. Прогнозировани
- Page 161 and 162: зей, а также учитыв
- Page 163 and 164: Эксперимент 50 40 30 20
- Page 165 and 166: Построение QSPR-моде
Предсказанное значение свойства для каждого соединения вычисляется как<br />
среднее из предсказанных значений при всех N-1 разбиениях, при которых оно<br />
попадает во внешнюю контрольную выборку, тогда как дисперсия<br />
предсказанных значений может быть использована для оценки точности<br />
прогноза для данного соединения. На Рис. 26 представлена диаграмма<br />
разбиения исследуемых баз данных для N = 5.<br />
- обучающая выборка<br />
- внутренняя контрольная выборка<br />
- внешняя контрольная выборка<br />
Рис. 26. Схема 5х4-кратного двойного скользящего контроля<br />
В результате на основе усреднения Nx(N-1) частных моделей, выводимых<br />
при разных разбиениях исходной базы данных, получаются соответствующие<br />
комбинированные модели. Вычисляемые статистические характеристики<br />
включают: (1) Q 2 DCV - параметр Q 2 (Q 2 =(SS-PSS)/SS, где PSS сумма квадратов<br />
ошибок прогноза свойства, SS - сумма квадратов отклонения свойства от<br />
среднего значения) для усредненных спрогнозированных значений, (2)<br />
RMSE DCV - среднеквадратичная ошибка прогнозирования, (3) MAE DCV - средняя<br />
абсолютная ошибка прогнозирования.<br />
Метод двойного скользящего контроля обеспечивает объективную<br />
оценку реальной прогнозирующей способности моделей, процедура отбора<br />
которых предполагает использование контрольной выборки либо процедуры<br />
скользящего контроля. Он не только позволяет эффективно предотвращать<br />
«переучивание» нейросетей (благодаря трехвыборочному подходу), но и<br />
обращает стохастические свойства нейросетевых моделей из кажущегося<br />
недостатка в преимущество, поскольку благодаря этому позволяет оценивать<br />
117