На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

простые и сложные эфиры, кетоны, альдегиды, карбоновые кислоты, нитрилы, имины, амины, амиды, галоген- и серосодержащие соединения, нитросоединения)), разбивалась 10-ю разными способами на три выборки: обучающую (293 соединений), контрольную (37 соединение) и выборку для оценки прогнозирующей способности (37 соединение). Согласно описанной выше схеме, с помощью процедуры БПМЛР из рассчитанного множества дескрипторов проводился их отбор для 10 различных вариантов разбивки базы данных. В процессе построения каждой линейной регрессионной модели проводилось последовательное включение дескрипторов до достижения наименьшей среднеквадратической ошибки на внутренней контрольной выборке. Табл. 11. Усредненные статистические характеристики линейно-регрессионных моделей при варьировании максимального размера дескрипторов Общее количество Среднее МЛР Количество количество дескрипторов дескрипто- отобранных RMS атомов R обу RMS конт RMS пре обуч ч р д ров 1 146 38±20 0,9204 0,2172 0,2366 0,2407 2 531 53±12 0,9740 0,1260 0,1857 0,1853 3 1757 46±16 0,9794 0,1113 0,1950 0,2119 4 1974 42±22 0,9593 0,1336 0,2079 0,2341 5 2183 34±21 0,9531 0,1470 0,2113 0,2330 6 2413 36±21 0,9681 0,1307 0,1960 0,2207 7 2566 33±19 0,9662 0,1302 0,2088 0,2392 8 2649 35±22 0,9656 0,1337 0,2075 0,2305 9 2703 33±20 0,9652 0,1348 0,2077 0,2322 10 2732 35±22 0,9658 0,1330 0,2081 0,2316 11 2945 35±22 0,9657 0,1331 0,2044 0,2297 12 2759 35±22 0,9657 0,1331 0,2044 0,2297 13 2770 35±22 0,9657 0,1331 0,2044 0,2297 МЛР – множественная линейная регрессия; R ср – коэффициент корреляции; RMS обуч , RMS контр , RMS предск - среднеквадратичная ошибка на обучающей, контрольной выборках и на выборке для оценки предсказательной способности, соответственно. 208

0,25 Результаты полученных линейно-регрессионных моделей для 13 наборов дескрипторов с различным максимальным размером фрагментов (130 моделей) представлены в Табл. 11 и на Рис. 43. Как видно из Рис. 43, минимумы для обучающей и контрольной выборок, а также для выборки для оценки прогнозирующей способности приходятся на множество дескрипторов с максимальным числом атомов, равным 2, 3 и 6, соответственно. Однако, при построении нейросетевых моделей наилучшие статистические характеристики были получены для множества дескрипторов с максимальным размером фрагментов, равным трем. Выбор оптимального набора дескрипторов проводился по значению среднеквадратичной ошибки для внутренней контрольной выборки, поскольку некорректно ориентироваться как на минимум для обучающей выборки (во избежание построения переопределенных моделей), так и на внешнюю контрольную выборку (поскольку данные для этой выборки следует использовать только для оценки предсказательной способности, а не для построения и отбора моделей). Среднеквадратичная ошибка 0,20 0,15 0,10 Максимальное количество атомов 1 3 Обучающая выборка Контрольная выборка Выборка для прогноза 5 7 9 11 13 Обучающая выборка Выборка для прогноза Рис. 43. Гистограмма зависимости среднеквадратичной ошибки от максимального размера фрагментных дескрипторов Само по себе наличие оптимального значения максимального размера, обеспечивающего наилучшую прогнозирующую способность моделей, для генерируемых фрагментов не является очевидным, и поэтому заслуживает от- 209

0,25<br />

Результаты полученных линейно-регрессионных моделей для 13 наборов<br />

дескрипторов с различным максимальным размером фрагментов (130 моделей)<br />

представлены в Табл. 11 и на Рис. 43. Как видно из Рис. 43, минимумы для обучающей<br />

и контрольной выборок, а также для выборки для оценки прогнозирующей<br />

способности приходятся на множество дескрипторов с максимальным<br />

числом атомов, равным 2, 3 и 6, соответственно. Однако, при построении нейросетевых<br />

моделей наилучшие статистические характеристики были получены<br />

для множества дескрипторов с максимальным размером фрагментов, равным<br />

трем. Выбор оптимального набора дескрипторов проводился по значению<br />

среднеквадратичной ошибки для внутренней контрольной выборки, поскольку<br />

некорректно ориентироваться как на минимум для обучающей выборки (во избежание<br />

построения переопределенных моделей), так и на внешнюю контрольную<br />

выборку (поскольку данные для этой выборки следует использовать только<br />

для оценки предсказательной способности, а не для построения и отбора моделей).<br />

Среднеквадратичная<br />

ошибка<br />

0,20<br />

0,15<br />

0,10<br />

Максимальное количество<br />

атомов<br />

1<br />

3<br />

Обучающая выборка<br />

Контрольная выборка<br />

Выборка для прогноза<br />

5<br />

7<br />

9<br />

11 13<br />

Обучающая<br />

выборка<br />

Выборка для<br />

прогноза<br />

Рис. 43. Гистограмма зависимости среднеквадратичной ошибки от максимального<br />

размера фрагментных дескрипторов<br />

Само по себе наличие оптимального значения максимального размера,<br />

обеспечивающего наилучшую прогнозирующую способность моделей, для генерируемых<br />

фрагментов не является очевидным, и поэтому заслуживает от-<br />

209

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!