Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
где: N – количество примеров в обучающей выборке; M – размерность входных<br />
векторов (т.е. количество дескрипторов при QSAR/QSPR-анализе); x i – входной<br />
вектор для i-ого примера из обучающей выборки (т.е. вектор дескрипторов для<br />
i-ого соединения); y i – известное значение выходной величины y для i-ого примера<br />
(т.е. экспериментальное значение прогнозируемого свойства y для i-ого<br />
соединения); σ – единый параметр, соответствующий ширине Гауссовых функций,<br />
и называемый в контексте регрессионного анализа параметром сглаживания.<br />
При известной функции f(x,y) наиболее вероятное значение (т.е. математическое<br />
ожидание) y для произвольного вектора x может быть найдено по<br />
формуле:<br />
+∞<br />
∫<br />
yf ( x,<br />
y)<br />
dy<br />
yˆ ( x)<br />
= E(<br />
y | x)<br />
= . (42)<br />
−∞<br />
+∞<br />
∫<br />
−∞<br />
f ( x,<br />
y)<br />
dy<br />
Подставляя (41) в (42) после некоторых преобразований можно получить<br />
окончательное выражение оценки y для произвольного x:<br />
yˆ(<br />
x)<br />
=<br />
N<br />
∑<br />
i=<br />
1<br />
N<br />
∑<br />
i=<br />
1<br />
T<br />
⎡ ( x − xi<br />
) ( x −<br />
yi<br />
exp⎢−<br />
2<br />
⎣ 2σ<br />
T<br />
⎡ ( x − xi<br />
) ( x − x<br />
exp⎢−<br />
2<br />
⎣ 2σ<br />
x ⎤<br />
i<br />
)<br />
⎥<br />
⎦<br />
⎤<br />
i<br />
)<br />
⎥<br />
⎦<br />
. (43)<br />
Легко заметить, что числители стоящих в экспоненте дробей представляют<br />
собой квадраты Эвклидовых расстояний между произвольным вектором x и<br />
вектором x i из i-ого примера обучающей выборки:<br />
2<br />
T<br />
x − x ≡ ( x − x ) ( x − x ) . (44)<br />
i<br />
i<br />
i<br />
Заметим, однако, что при наличии существенных корреляций между компонентами<br />
входных векторов x более корректно в статистическом плане (хотя и<br />
более трудоемко в вычислительном плане) использовать в формуле (43) вместо<br />
квадратов расстояний Эвклида квадраты расстояний Махаланобиса (x-x i ) T Σ -1 (xx<br />
i ), где Σ – матрица ковариации компонентов векторов x. Таким образом, согласно<br />
формуле (43), наиболее вероятное значение y для произвольного вектора<br />
x прогнозируется как взвешенная сумма значений y i для всех примеров из обу-<br />
44