19.11.2014 Views

На правах рукописи

На правах рукописи

На правах рукописи

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

где: N – количество примеров в обучающей выборке; M – размерность входных<br />

векторов (т.е. количество дескрипторов при QSAR/QSPR-анализе); x i – входной<br />

вектор для i-ого примера из обучающей выборки (т.е. вектор дескрипторов для<br />

i-ого соединения); y i – известное значение выходной величины y для i-ого примера<br />

(т.е. экспериментальное значение прогнозируемого свойства y для i-ого<br />

соединения); σ – единый параметр, соответствующий ширине Гауссовых функций,<br />

и называемый в контексте регрессионного анализа параметром сглаживания.<br />

При известной функции f(x,y) наиболее вероятное значение (т.е. математическое<br />

ожидание) y для произвольного вектора x может быть найдено по<br />

формуле:<br />

+∞<br />

∫<br />

yf ( x,<br />

y)<br />

dy<br />

yˆ ( x)<br />

= E(<br />

y | x)<br />

= . (42)<br />

−∞<br />

+∞<br />

∫<br />

−∞<br />

f ( x,<br />

y)<br />

dy<br />

Подставляя (41) в (42) после некоторых преобразований можно получить<br />

окончательное выражение оценки y для произвольного x:<br />

yˆ(<br />

x)<br />

=<br />

N<br />

∑<br />

i=<br />

1<br />

N<br />

∑<br />

i=<br />

1<br />

T<br />

⎡ ( x − xi<br />

) ( x −<br />

yi<br />

exp⎢−<br />

2<br />

⎣ 2σ<br />

T<br />

⎡ ( x − xi<br />

) ( x − x<br />

exp⎢−<br />

2<br />

⎣ 2σ<br />

x ⎤<br />

i<br />

)<br />

⎥<br />

⎦<br />

⎤<br />

i<br />

)<br />

⎥<br />

⎦<br />

. (43)<br />

Легко заметить, что числители стоящих в экспоненте дробей представляют<br />

собой квадраты Эвклидовых расстояний между произвольным вектором x и<br />

вектором x i из i-ого примера обучающей выборки:<br />

2<br />

T<br />

x − x ≡ ( x − x ) ( x − x ) . (44)<br />

i<br />

i<br />

i<br />

Заметим, однако, что при наличии существенных корреляций между компонентами<br />

входных векторов x более корректно в статистическом плане (хотя и<br />

более трудоемко в вычислительном плане) использовать в формуле (43) вместо<br />

квадратов расстояний Эвклида квадраты расстояний Махаланобиса (x-x i ) T Σ -1 (xx<br />

i ), где Σ – матрица ковариации компонентов векторов x. Таким образом, согласно<br />

формуле (43), наиболее вероятное значение y для произвольного вектора<br />

x прогнозируется как взвешенная сумма значений y i для всех примеров из обу-<br />

44

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!