На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

ным коэффициентам, но нелинейных по дескрипторам) модели для каждой из 10 разбивок базы на три выборки. Из сравнения усредненных по разбивкам статистических показателей полученных моделей было найдено, что наименьшие ошибки на внутренних контрольных выборках получаются при использовании наборов фрагментных дескрипторов, сгенерированных при задании величины максимального размера фрагмента от 3 до 5 атомов. Именно эти 3 набора дескрипторов и были использованы в ходе дальнейшего моделирования. На следующем этапе было построено по 350 нейросетевых моделей (по 5 моделей для каждого количества скрытых нейронов, которое варьировалось от 2 до 8) для каждого из этих 3 наборов дескрипторов. При сравнении статистических показателей (по критерию наименьших среднеквадратичных ошибок на внутренних контрольных выборках) выявилось, что наилучшими являются модели, максимальный размер фрагментных дескрипторов в которых равен 4 атомам. Из моделей, построенных с этим набором дескрипторов, была отобрана группа из 50 моделей (5 моделей для каждой из 10 разбивок базы) с оптимальным числом скрытых нейронов, равным четырем. Следует отметить, что оптимальное число скрытых нейронов для трех типов выборок (т.е. для обучающих, внутренних и внешних контрольных выборок) различалось, поэтому этот параметр выбирался по внутренним контрольным выборкам. При анализе наборов отобранных фрагментных дескрипторов выяснилось, что наиболее важными (степень важности определялась по количеству содержащих их моделей) являются относительное число sp 3 - и sp 2 - гибридизованных атомов углерода (n(C sp 3) и n(H 2 C=)/n a ), а также относительное количество различных гетероатомов (в частности, галогенов, кислорода, азота, кремния, серы и т.д.), что можно объяснить различием масс, ковалентных и ван-дер-ваальсовых радиусов у этих элементов. Разнообразные поправки описываются такими дескрипторами как количество тройных углерод-углеродных связей, и дескрипторами, характеризующими разветвленность. Диаграммы разброса усредненных по всему массиву моделей расчетных данных для плотности жидких органических соединений по всем выборкам с экспериментальными значениями представлена на Рис. 45. 214

d расч., г/куб.см 4,0 3,0 2,0 1,0 0,0 0,0 1,0 2,0 3,0 d эксп., г/куб.см d расч., г/куб.см 3,0 2,5 2,0 1,5 1,0 0,5 0,0 0,0 1,0 2,0 3,0 d эксп., г/куб.см (а) Рис. 45. Результаты моделирования плотности: (а) обучающая выборка; (б) выборка для оценки предсказательной способности (б) Статистические показатели полученных моделей представлены в Табл. 14. Из их сравнения легко видеть, что прогнозирующая способность нейросетевых моделей (которую можно оценить по значению среднеквадратичной ошибки для внешней контрольной выборки, RMSE p ) превосходит таковую для линейных регрессионных моделей (даже построенных на основе нелинейных модификаций дескрипторов). Статистические показатели наших моделей для прогнозирования плотности жидкостей для разнородных органических соединений оказались близки к наилучшей из опубликованных моделей (см. [416]), однако наши модели построены по значительно более представительной выборке. Табл. 14. Статистические показатели полученных моделей для плотностей жидких органических соединений (в г/см 3 ) Статистические показатели моделей Название этапа исследования R RMSE t RMSE c RMSE p Линейно-регрессионные модели 0,9897 0,036 0,055 0,067 Средние значения показателей по всем индивидуальным нейросетевым 0,9911 0,034 0,052 0,061 моделям Показатели ансамблевой модели, усредняющей прогнозы индивидуальных нейросетевых моделей 0,9943 0,018 0,036 0,043 215

ным коэффициентам, но нелинейных по дескрипторам) модели для каждой из<br />

10 разбивок базы на три выборки. Из сравнения усредненных по разбивкам статистических<br />

показателей полученных моделей было найдено, что наименьшие<br />

ошибки на внутренних контрольных выборках получаются при использовании<br />

наборов фрагментных дескрипторов, сгенерированных при задании величины<br />

максимального размера фрагмента от 3 до 5 атомов. Именно эти 3 набора дескрипторов<br />

и были использованы в ходе дальнейшего моделирования.<br />

На следующем этапе было построено по 350 нейросетевых моделей (по 5<br />

моделей для каждого количества скрытых нейронов, которое варьировалось от<br />

2 до 8) для каждого из этих 3 наборов дескрипторов. При сравнении статистических<br />

показателей (по критерию наименьших среднеквадратичных ошибок на<br />

внутренних контрольных выборках) выявилось, что наилучшими являются модели,<br />

максимальный размер фрагментных дескрипторов в которых равен 4 атомам.<br />

Из моделей, построенных с этим набором дескрипторов, была отобрана<br />

группа из 50 моделей (5 моделей для каждой из 10 разбивок базы) с оптимальным<br />

числом скрытых нейронов, равным четырем. Следует отметить, что оптимальное<br />

число скрытых нейронов для трех типов выборок (т.е. для обучающих,<br />

внутренних и внешних контрольных выборок) различалось, поэтому этот параметр<br />

выбирался по внутренним контрольным выборкам.<br />

При анализе наборов отобранных фрагментных дескрипторов выяснилось,<br />

что наиболее важными (степень важности определялась по количеству<br />

содержащих их моделей) являются относительное число sp 3 - и sp 2 -<br />

гибридизованных атомов углерода (n(C sp 3) и n(H 2 C=)/n a ), а также относительное<br />

количество различных гетероатомов (в частности, галогенов, кислорода,<br />

азота, кремния, серы и т.д.), что можно объяснить различием масс, ковалентных<br />

и ван-дер-ваальсовых радиусов у этих элементов. Разнообразные поправки описываются<br />

такими дескрипторами как количество тройных углерод-углеродных<br />

связей, и дескрипторами, характеризующими разветвленность.<br />

Диаграммы разброса усредненных по всему массиву моделей расчетных<br />

данных для плотности жидких органических соединений по всем выборкам с<br />

экспериментальными значениями представлена на Рис. 45.<br />

214

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!