Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
простые и сложные эфиры, кетоны, альдегиды, карбоновые кислоты, нитрилы,<br />
имины, амины, амиды, галоген- и серосодержащие соединения, нитросоединения)),<br />
разбивалась 10-ю разными способами на три выборки: обучающую<br />
(293 соединений), контрольную (37 соединение) и выборку для оценки<br />
прогнозирующей способности (37 соединение). Согласно описанной выше схеме,<br />
с помощью процедуры БПМЛР из рассчитанного множества дескрипторов<br />
проводился их отбор для 10 различных вариантов разбивки базы данных. В<br />
процессе построения каждой линейной регрессионной модели проводилось последовательное<br />
включение дескрипторов до достижения наименьшей среднеквадратической<br />
ошибки на внутренней контрольной выборке.<br />
Табл. 11. Усредненные статистические характеристики линейно-регрессионных<br />
моделей при варьировании максимального размера дескрипторов<br />
Общее количество<br />
Среднее<br />
МЛР<br />
Количество<br />
количество<br />
дескрипторов<br />
дескрипто-<br />
отобранных<br />
RMS<br />
атомов<br />
R обу RMS конт RMS пре<br />
обуч<br />
ч<br />
р<br />
д<br />
ров<br />
1 146 38±20 0,9204 0,2172 0,2366 0,2407<br />
2 531 53±12 0,9740 0,1260 0,1857 0,1853<br />
3 1757 46±16 0,9794 0,1113 0,1950 0,2119<br />
4 1974 42±22 0,9593 0,1336 0,2079 0,2341<br />
5 2183 34±21 0,9531 0,1470 0,2113 0,2330<br />
6 2413 36±21 0,9681 0,1307 0,1960 0,2207<br />
7 2566 33±19 0,9662 0,1302 0,2088 0,2392<br />
8 2649 35±22 0,9656 0,1337 0,2075 0,2305<br />
9 2703 33±20 0,9652 0,1348 0,2077 0,2322<br />
10 2732 35±22 0,9658 0,1330 0,2081 0,2316<br />
11 2945 35±22 0,9657 0,1331 0,2044 0,2297<br />
12 2759 35±22 0,9657 0,1331 0,2044 0,2297<br />
13 2770 35±22 0,9657 0,1331 0,2044 0,2297<br />
МЛР – множественная линейная регрессия; R ср – коэффициент корреляции;<br />
RMS обуч , RMS контр , RMS предск - среднеквадратичная ошибка на обучающей, контрольной<br />
выборках и на выборке для оценки предсказательной способности,<br />
соответственно.<br />
208