Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
ожидаемую ошибку прогноза. Из описанных в математической литературе метод двойного скользящего контроля больше всего похож на процедуру вложенного скользящего контроля (nested cross-validation), однако между ними имеются принципиальные отличия в критериях отбора моделей, не позволяющие использовать последнюю для аналогичной работы с нейросетями. Подчеркнем также, что то, что иногда в литературе называется «процедурой двойного скользящего контроля» (double cross-validation), на деле является обычной процедурой двукратного скользящего контроля. 4.1.5. Быстрая пошаговая множественная линейная регрессия Трехвыборочный подход применен нами также и в рамках метода быстрой пошаговой множественной линейной регрессии (БПМЛР) – специального линейно-регрессионного метода, разработанного нами для предварительного отбора дескрипторов для нейросетей. В данном случае внутренняя контрольная выборка используется для определения оптимального числа включаемых в модель дескрипторов. В рамках метода БПМЛР текущий вектор ошибок (невязок) инициализируется экспериментальными значениями свойств соединений из обучающей выборки. На каждой итерации дескриптор, наилучшим образом коррелирующий с текущим вектором ошибок на обучающей выборке, добавляется к текущему набору отобранных дескрипторов, а соответствующая регрессионная модель, построенная на этом дескрипторе, используется для пересчета текущего вектора ошибок, который уже используется на следующей итерации для отбора следующего дескриптора и т.д. Интересной и нетривиальной особенностью этого приема является то, что каждый дескриптор может быть включен в модель несколько раз на разных итерациях. При добавлении очередного дескриптора регрессионный коэффициент при свободном члене из построенного на нем регрессионного уравнения суммируется с текущим коэффициентом при свободном члене в многомерной (т.е. включающей множество дескрипторов) модели. Что касается регрессионного коэффициента при самом деск- 118
рипторе, то он переносится в многомерную модель, если дескриптор включается в нее в первый раз, либо суммируется с уже имеющимся значением при последующем включении его в модель. Процесс пошагового отбора дескрипторов и построения результирующей модели останавливается по достижению наименьшей ошибки прогнозирования на внутренней контрольной выборке, тогда как ошибка прогнозирования на внешней контрольной выборке, информация из которой никаким образом не используется в проводимом статистическом анализе, используется для оценки прогнозирующей способности результирующей многомерной линейной регрессионной модели. Хотя метод БПМЛР первоначально был предназначен только для предварительного отбора дескрипторов для построения нейросетевых моделей, однако за время эксплуатации он успел себя зарекомендовать как самостоятельный мощный метод статистического анализа, обладающий очень высокой производительностью и позволяющий даже на персональном компьютере эффективно обрабатывать выборки огромного размера как по числу дескрипторов (миллионы) так и соединений. Последнее свойство очень важно при работе с фрагментными дескрипторами ввиду их очень большого числа. Из существующих методов регрессионного анализа самый близкий к БПМЛР подход – это аддитивная регрессия, однако между ними есть существенные различия. 4.2. Подход к интерпретации нейросетевых моделей Одной из основных проблем, возникающих при применении нейросетей для выявления количественных соотношений «структура-свойство» и «структура-активность», обычно считалась неинтерпретируемость нейросетевых моделей. Нейросеть обычно рассматривалась как «черный ящик», способный осуществлять прогноз, но не предоставляющий никакой возможности понять, как он это делает (см., например, [344]). Именно это и считалось основным недостатком применения нейросетевой методологии в химических исследованиях, поскольку для обоснованного использования построенных моделей часто 119
- Page 67 and 68: тему опубликовано
- Page 69 and 70: В настоящее время п
- Page 71 and 72: ниях QSPR/QSAR/SAR. И дейс
- Page 73 and 74: В качестве характе
- Page 75 and 76: Некоторые типы ЦАФ
- Page 77 and 78: кроме того, они сно
- Page 79 and 80: Следует упомянуть
- Page 81 and 82: зисных графов, пред
- Page 83 and 84: рой равен 1 только в
- Page 85 and 86: множества различны
- Page 87 and 88: при проведении вир
- Page 89 and 90: 21 01 12 12 21 01 Рис. 17. Ре
- Page 91 and 92: ределенных атомных
- Page 93 and 94: элементам, что може
- Page 95 and 96: наличие или отсутс
- Page 97 and 98: использовались в н
- Page 99 and 100: ложенные в 1985 г. ато
- Page 101 and 102: 2.3. Ограничения фра
- Page 103 and 104: ГЛАВА 3. МАТЕМАТИЧЕ
- Page 105 and 106: качестве меток исп
- Page 107 and 108: ной нумерации граф
- Page 109 and 110: нейронной сети с пр
- Page 111 and 112: ГЛАВА 4. РАЗРАБОТКА
- Page 113 and 114: линейные комбинаци
- Page 115 and 116: таться внешней по о
- Page 117: Предсказанное знач
- Page 121 and 122: Для решения этой пр
- Page 123 and 124: • D x - среднее значе
- Page 125 and 126: R 1 R 2 R 1 R 2 X R 6 X R N + 3 (CH
- Page 127 and 128: В соответствии с вы
- Page 129 and 130: зовании рассмотрен
- Page 131 and 132: R4 R5 R3 R6 N (a) R2 6 N 2 6 2 6 2
- Page 133 and 134: f ( x, y) ≡ f ( y, x) ⇔ f ( x,
- Page 135 and 136: R3 R2 R5 R6 Общая формул
- Page 137 and 138: ко, эта разница все
- Page 139 and 140: переставленными эк
- Page 141 and 142: лей приведен в рабо
- Page 143 and 144: деленными» атомами
- Page 145 and 146: 5.1.2. Иерархическая
- Page 147 and 148: водородного соседа
- Page 149 and 150: Атом кислорода в со
- Page 151 and 152: PA1 -PH 2 Атом фосфора,
- Page 153 and 154: Br2 -Br= Формально нез
- Page 155 and 156: то в дальнейшем буд
- Page 157 and 158: После нахождения п
- Page 159 and 160: 5.2.1. Прогнозировани
- Page 161 and 162: зей, а также учитыв
- Page 163 and 164: Эксперимент 50 40 30 20
- Page 165 and 166: Построение QSPR-моде
- Page 167 and 168: работе [268], но с при
ожидаемую ошибку прогноза.<br />
Из описанных в математической литературе метод двойного скользящего<br />
контроля больше всего похож на процедуру вложенного скользящего контроля<br />
(nested cross-validation), однако между ними имеются принципиальные отличия<br />
в критериях отбора моделей, не позволяющие использовать последнюю для<br />
аналогичной работы с нейросетями. Подчеркнем также, что то, что иногда в<br />
литературе называется «процедурой двойного скользящего контроля» (double<br />
cross-validation), на деле является обычной процедурой двукратного<br />
скользящего контроля.<br />
4.1.5. Быстрая пошаговая множественная линейная регрессия<br />
Трехвыборочный подход применен нами также и в рамках метода быстрой<br />
пошаговой множественной линейной регрессии (БПМЛР) – специального<br />
линейно-регрессионного метода, разработанного нами для предварительного<br />
отбора дескрипторов для нейросетей. В данном случае внутренняя контрольная<br />
выборка используется для определения оптимального числа включаемых в модель<br />
дескрипторов. В рамках метода БПМЛР текущий вектор ошибок (невязок)<br />
инициализируется экспериментальными значениями свойств соединений из<br />
обучающей выборки. На каждой итерации дескриптор, наилучшим образом<br />
коррелирующий с текущим вектором ошибок на обучающей выборке, добавляется<br />
к текущему набору отобранных дескрипторов, а соответствующая регрессионная<br />
модель, построенная на этом дескрипторе, используется для пересчета<br />
текущего вектора ошибок, который уже используется на следующей итерации<br />
для отбора следующего дескриптора и т.д. Интересной и нетривиальной особенностью<br />
этого приема является то, что каждый дескриптор может быть<br />
включен в модель несколько раз на разных итерациях. При добавлении очередного<br />
дескриптора регрессионный коэффициент при свободном члене из построенного<br />
на нем регрессионного уравнения суммируется с текущим коэффициентом<br />
при свободном члене в многомерной (т.е. включающей множество дескрипторов)<br />
модели. Что касается регрессионного коэффициента при самом деск-<br />
118