На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

ожидаемую ошибку прогноза. Из описанных в математической литературе метод двойного скользящего контроля больше всего похож на процедуру вложенного скользящего контроля (nested cross-validation), однако между ними имеются принципиальные отличия в критериях отбора моделей, не позволяющие использовать последнюю для аналогичной работы с нейросетями. Подчеркнем также, что то, что иногда в литературе называется «процедурой двойного скользящего контроля» (double cross-validation), на деле является обычной процедурой двукратного скользящего контроля. 4.1.5. Быстрая пошаговая множественная линейная регрессия Трехвыборочный подход применен нами также и в рамках метода быстрой пошаговой множественной линейной регрессии (БПМЛР) – специального линейно-регрессионного метода, разработанного нами для предварительного отбора дескрипторов для нейросетей. В данном случае внутренняя контрольная выборка используется для определения оптимального числа включаемых в модель дескрипторов. В рамках метода БПМЛР текущий вектор ошибок (невязок) инициализируется экспериментальными значениями свойств соединений из обучающей выборки. На каждой итерации дескриптор, наилучшим образом коррелирующий с текущим вектором ошибок на обучающей выборке, добавляется к текущему набору отобранных дескрипторов, а соответствующая регрессионная модель, построенная на этом дескрипторе, используется для пересчета текущего вектора ошибок, который уже используется на следующей итерации для отбора следующего дескриптора и т.д. Интересной и нетривиальной особенностью этого приема является то, что каждый дескриптор может быть включен в модель несколько раз на разных итерациях. При добавлении очередного дескриптора регрессионный коэффициент при свободном члене из построенного на нем регрессионного уравнения суммируется с текущим коэффициентом при свободном члене в многомерной (т.е. включающей множество дескрипторов) модели. Что касается регрессионного коэффициента при самом деск- 118

рипторе, то он переносится в многомерную модель, если дескриптор включается в нее в первый раз, либо суммируется с уже имеющимся значением при последующем включении его в модель. Процесс пошагового отбора дескрипторов и построения результирующей модели останавливается по достижению наименьшей ошибки прогнозирования на внутренней контрольной выборке, тогда как ошибка прогнозирования на внешней контрольной выборке, информация из которой никаким образом не используется в проводимом статистическом анализе, используется для оценки прогнозирующей способности результирующей многомерной линейной регрессионной модели. Хотя метод БПМЛР первоначально был предназначен только для предварительного отбора дескрипторов для построения нейросетевых моделей, однако за время эксплуатации он успел себя зарекомендовать как самостоятельный мощный метод статистического анализа, обладающий очень высокой производительностью и позволяющий даже на персональном компьютере эффективно обрабатывать выборки огромного размера как по числу дескрипторов (миллионы) так и соединений. Последнее свойство очень важно при работе с фрагментными дескрипторами ввиду их очень большого числа. Из существующих методов регрессионного анализа самый близкий к БПМЛР подход – это аддитивная регрессия, однако между ними есть существенные различия. 4.2. Подход к интерпретации нейросетевых моделей Одной из основных проблем, возникающих при применении нейросетей для выявления количественных соотношений «структура-свойство» и «структура-активность», обычно считалась неинтерпретируемость нейросетевых моделей. Нейросеть обычно рассматривалась как «черный ящик», способный осуществлять прогноз, но не предоставляющий никакой возможности понять, как он это делает (см., например, [344]). Именно это и считалось основным недостатком применения нейросетевой методологии в химических исследованиях, поскольку для обоснованного использования построенных моделей часто 119

ожидаемую ошибку прогноза.<br />

Из описанных в математической литературе метод двойного скользящего<br />

контроля больше всего похож на процедуру вложенного скользящего контроля<br />

(nested cross-validation), однако между ними имеются принципиальные отличия<br />

в критериях отбора моделей, не позволяющие использовать последнюю для<br />

аналогичной работы с нейросетями. Подчеркнем также, что то, что иногда в<br />

литературе называется «процедурой двойного скользящего контроля» (double<br />

cross-validation), на деле является обычной процедурой двукратного<br />

скользящего контроля.<br />

4.1.5. Быстрая пошаговая множественная линейная регрессия<br />

Трехвыборочный подход применен нами также и в рамках метода быстрой<br />

пошаговой множественной линейной регрессии (БПМЛР) – специального<br />

линейно-регрессионного метода, разработанного нами для предварительного<br />

отбора дескрипторов для нейросетей. В данном случае внутренняя контрольная<br />

выборка используется для определения оптимального числа включаемых в модель<br />

дескрипторов. В рамках метода БПМЛР текущий вектор ошибок (невязок)<br />

инициализируется экспериментальными значениями свойств соединений из<br />

обучающей выборки. На каждой итерации дескриптор, наилучшим образом<br />

коррелирующий с текущим вектором ошибок на обучающей выборке, добавляется<br />

к текущему набору отобранных дескрипторов, а соответствующая регрессионная<br />

модель, построенная на этом дескрипторе, используется для пересчета<br />

текущего вектора ошибок, который уже используется на следующей итерации<br />

для отбора следующего дескриптора и т.д. Интересной и нетривиальной особенностью<br />

этого приема является то, что каждый дескриптор может быть<br />

включен в модель несколько раз на разных итерациях. При добавлении очередного<br />

дескриптора регрессионный коэффициент при свободном члене из построенного<br />

на нем регрессионного уравнения суммируется с текущим коэффициентом<br />

при свободном члене в многомерной (т.е. включающей множество дескрипторов)<br />

модели. Что касается регрессионного коэффициента при самом деск-<br />

118

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!