На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

Табл. 13. Статистические показатели полученных моделей для вязкости органических соединений Статистические показатели моделей Название этапа исследования R RMSE t RMSE v RMSE p Линейно-регрессионные модели 0,9794 0,111 0,195 0,212 Средние значения показателей по всем индивидуальным нейросетевым 0,9815 0,105 0,189 0,219 моделям Показатели ансамблевой модели, усредняющей прогнозы индивидуальных нейросетевых моделей 0,9904 0,078 0,177 0,208 lg(Вязкости) расч. 4,0 3,0 2,0 1,0 0,0 0,0 2,0 4,0 lg(Вязкости) расч. 4,0 3,0 2,0 1,0 0,0 -1,0 0,0 2,0 4,0 lg(Вязкости) эксп. lg(Вязкости) эксп. (а) Рис. 44. Результаты нейросетевого моделирования вязкости: (а) корреляция экспериментальных значений с результатами прогноза, полученными путем усреднения по всем моделям, при построении которых данные соединения входили в обучающие выборки; (б) корреляция экспериментальных значений с результатами прогноза, полученными путем усреднения по всем моделям, при построении которых данные соединения входили во внешние контрольные выборки (б) Из Табл. 13 видно, что прогнозирующая способность нейросетевых моделей (которую наиболее корректно оценивать по среднеквадратичным ошибкам для внешних контрольных выборок, превосходит аналогичные показатели линейных (они являются линейными по отношению к регрессионным коэффициентам, но нелинейными по отношению к значениям дескрипторов) регрессионных моделей. Кроме того, построенные в ходе данной работы модели для предсказания вязкости жидких органических соединений существенно превосходят по всем показателям наилучшие из ранее опубликованных моделей (см. [410, 212

414]). Следует также обратить внимание на заметное различие средних значений статистических показателей по ансамблю нейросетевых моделей и статистических показателей ансамблевой модели, усредняющей прогнозы, даваемые этими моделями. То, что вторые существенно лучше первых, свидетельствует о больших преимуществах использования ансамблей нейросетевых моделей по сравнению с индивидуальными моделями. 6.3.3. Моделирование плотности жидких органических соединений В качестве источника для формирования использованной в данной работе базы был взят электронный каталог органических соединений фирмы Fluka [415], содержащий 16793 записи. База данных была автоматически из него отобрана путем задания следующих условий: 1) наличие в каталоге значения плотности для соединения; 2) чистота образца 98% и выше; 3) наличие значения показателя преломления (что означает, что данные приведены для жидкости). Сформированная таким образом база данных содержала 803 соединения, относящиеся ко следующим классам: алканы, алкины, арены, аллены, спирты, простые и сложные эфиры, нитро-соединения, альдегиды, карбоновые кислоты, кетоны, нитрилы, амины, имины, амиды, гетероциклические соединения, моно-, би- и трициклические структуры. При обработке базы данных была применена рассмотренная выше (см. подраздел 6.3.1) методика. Каждый раз база разбивалась на обучающую выборку (641 соединение), контрольную выборку (81 соединение) и выборку для оценки предсказательной способности (81 соединение). Из четырех указаных выше модификаций дескрипторов было использовано три: 1) квадрат значения дескриптора; 2) квадратный корень из значения дескриптора; и 3) отношение значения дескриптора к числу неводородных атомов в молекуле. Для определения оптимального размера фрагментов нами было сгенерировано 11 наборов фрагментных дескрипторов при варьировании максимального размера фрагмента от 1 до 11 атомов. Для каждого из этих наборов дескрипторов было построено по методу БПМЛР по одной (линейной по регрессион- 213

414]). Следует также обратить внимание на заметное различие средних значений<br />

статистических показателей по ансамблю нейросетевых моделей и статистических<br />

показателей ансамблевой модели, усредняющей прогнозы, даваемые<br />

этими моделями. То, что вторые существенно лучше первых, свидетельствует о<br />

больших преимуществах использования ансамблей нейросетевых моделей по<br />

сравнению с индивидуальными моделями.<br />

6.3.3. Моделирование плотности жидких органических соединений<br />

В качестве источника для формирования использованной в данной работе<br />

базы был взят электронный каталог органических соединений фирмы Fluka<br />

[415], содержащий 16793 записи. База данных была автоматически из него отобрана<br />

путем задания следующих условий: 1) наличие в каталоге значения плотности<br />

для соединения; 2) чистота образца 98% и выше; 3) наличие значения показателя<br />

преломления (что означает, что данные приведены для жидкости).<br />

Сформированная таким образом база данных содержала 803 соединения, относящиеся<br />

ко следующим классам: алканы, алкины, арены, аллены, спирты, простые<br />

и сложные эфиры, нитро-соединения, альдегиды, карбоновые кислоты, кетоны,<br />

нитрилы, амины, имины, амиды, гетероциклические соединения, моно-,<br />

би- и трициклические структуры.<br />

При обработке базы данных была применена рассмотренная выше (см.<br />

подраздел 6.3.1) методика. Каждый раз база разбивалась на обучающую выборку<br />

(641 соединение), контрольную выборку (81 соединение) и выборку для<br />

оценки предсказательной способности (81 соединение). Из четырех указаных<br />

выше модификаций дескрипторов было использовано три: 1) квадрат значения<br />

дескриптора; 2) квадратный корень из значения дескриптора; и 3) отношение<br />

значения дескриптора к числу неводородных атомов в молекуле.<br />

Для определения оптимального размера фрагментов нами было сгенерировано<br />

11 наборов фрагментных дескрипторов при варьировании максимального<br />

размера фрагмента от 1 до 11 атомов. Для каждого из этих наборов дескрипторов<br />

было построено по методу БПМЛР по одной (линейной по регрессион-<br />

213

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!