На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

Данные таблицы также свидетельствуют о преимуществах использования ансамблей нейросетевых моделей по сравнению с индивидуальными моделями. 6.3.4. Моделирование давления насыщенных паров Моделирование давления насыщенных паров велось по созданной на основе опубликованных данных [417] выборке из 352 соединений (углеводороды и галогенуглеводороды), которая в процессе работы разбивалась 10 разными способами на три выборки: обучающую (279 соединений), контрольную (36 соединений) и выборку для оценки предсказательной способности (36 соединений). На первом этапе по методу БПМЛР производился отбор дескрипторов, причем, как оказалось, наилучшим моделям соответствует множество фрагментных дескрипторов с максимальным числом атомов во фрагменте, равным 6. При моделировании давления паров среди наиболее значимых дескрипторов, присутствующих практически во всех моделях, оказались: квадрат числа углеродных атомов (n 2 (C)); логарифм общего числа неводородных атомов (lg n a ); количество атомов галогенов, связанных с углеродным атомом, входящим в состав шестичленных ароматических циклов (n[C Ar -Hal]); количество метиленовых групп, связанных с углеродным атомом, входящим в состав шестичленных ароматических циклов (n[C Ar -CH 2 ]); квадратный корень от количества атомов фтора (√n[F]); количество простых углерод-углеродных связей (n(C-C)/n a ); количество двухатомных углерод-углеродных фрагментов ароматических систем (n[C Ar ÷C Ar ]) и др. Подобный набор наиболее важных дескрипторов, повидимому, обусловлен доминирующей ролью ван-дер-ваальсовых взаимодействий. При построении нейросетевых моделей с различным числом скрытых нейронов (от 2 до 8) был проведен анализ зависимости статистических показателей моделей от числа скрытых нейронов. Оптимальным количеством скрытых нейронов для данной выборки оказалось три. Сводные данные, содержащие основные статистические показатели построенных моделей, приведены в 216

Табл. 15. Корреляция усредненных по всему ансамблю моделей расчетных данных для давления насыщенных паров с экспериментальными значениями представлена на Рис. 46. Табл. 15. Статистические показатели полученных моделей для давления насыщенных паров органических соединений (в lg(Па)) Статистические показатели моделей Название этапа исследования R RMSE t RMSE c RMSE p Линейно-регрессионные модели 0,9902 0,198 0,248 0,258 Средние значения показателей по всем индивидуальным нейросетевым 0,9969 0,118 0,143 0,161 моделям Показатели ансамблевой модели, усредняющей прогнозы индивидуальных нейросетевых моделей 0,9979 0,095 0,140 0,158 lg(Р) расч., lg(Па) 8,0 6,0 4,0 2,0 0,0 -5,0 -2,00,0 5,0 10,0 lg(Р) эксп., lg(Па) (а) lg(Р) расч., lg(Па) 8,0 6,0 4,0 2,0 0,0 -5,0 -2,00,0 5,0 10,0 lg(Р) эксп., lg(Па) Рис. 46. Результаты моделирования давления насыщенных паров: (а) обучающая выборка; (б) внешняя контрольная выборка (б) Из Табл. 15 видно, что прогнозирующая способность нейросетевых моделей (которую корректно оценивать по значению RMSE пред , т.е. по среднеквадратичной ошибки на внешней контрольной выборке, превосходит аналогичные показатели линейных регрессионных моделей (даже содержащих нелинейные модификации дескрипторов). Точность предсказания давления насыщенных паров в построенных моделях оказалась сравнимой с моделью Голла-Джурса [417] и существенно выше других опубликованных моделей (см. [416]). 217

Табл. 15. Корреляция усредненных по всему ансамблю моделей расчетных данных<br />

для давления насыщенных паров с экспериментальными значениями представлена<br />

на Рис. 46.<br />

Табл. 15. Статистические показатели полученных моделей для давления насыщенных<br />

паров органических соединений (в lg(Па))<br />

Статистические показатели моделей<br />

Название этапа исследования<br />

R RMSE t RMSE c RMSE p<br />

Линейно-регрессионные модели 0,9902 0,198 0,248 0,258<br />

Средние значения показателей по<br />

всем индивидуальным нейросетевым 0,9969 0,118 0,143 0,161<br />

моделям<br />

Показатели ансамблевой модели, усредняющей<br />

прогнозы индивидуальных<br />

нейросетевых моделей<br />

0,9979 0,095 0,140 0,158<br />

lg(Р) расч., lg(Па)<br />

8,0<br />

6,0<br />

4,0<br />

2,0<br />

0,0<br />

-5,0 -2,00,0 5,0 10,0<br />

lg(Р) эксп., lg(Па)<br />

(а)<br />

lg(Р) расч., lg(Па)<br />

8,0<br />

6,0<br />

4,0<br />

2,0<br />

0,0<br />

-5,0 -2,00,0 5,0 10,0<br />

lg(Р) эксп., lg(Па)<br />

Рис. 46. Результаты моделирования давления насыщенных паров: (а) обучающая<br />

выборка; (б) внешняя контрольная выборка<br />

(б)<br />

Из Табл. 15 видно, что прогнозирующая способность нейросетевых моделей<br />

(которую корректно оценивать по значению RMSE пред , т.е. по среднеквадратичной<br />

ошибки на внешней контрольной выборке, превосходит аналогичные<br />

показатели линейных регрессионных моделей (даже содержащих нелинейные<br />

модификации дескрипторов). Точность предсказания давления насыщенных<br />

паров в построенных моделях оказалась сравнимой с моделью Голла-Джурса<br />

[417] и существенно выше других опубликованных моделей (см. [416]).<br />

217

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!