На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

скольку явление «переучивания» было выражено очень слабо либо вообще не наблюдалось. В Табл. 10 приведено сравнение точности прогноза для построенных линейно-регрессионных моделей. Табл. 10. Точность прогноза для линейно-регрессионных и нейросетевых моделей Свойство Подраздел MAE пред или RMSE пред * для линейнорегрессионной модели Магнитная восприимчивость. ×10 - -6 единиц Энтальпия парообразования, MAE пред или RMSE пред * для нейросетевой модели 5.2.3 7.02 6.25 5.2.4 1.57 1.77 ккал/моль Энтальпия сублимации, ккал/моль 5.2.5 2.16 1.66 Температура вспышки, o C 5.2.6 15.8* 14.6* Как видно из Табл. 10, для трех из четырех свойств (т.е. для магнитной восприимчивости, энтальпии сублимации и температуры вспышки) применение нейронных сетей приводит к уменьшению ошибок прогноза. Что же касается энтальпии парообразования, то можно предположить, что более высокая прогнозирующая способность линейно-регрессионной модели обусловлена строгим аддитивным характером этого свойства. Таким образом, в большинстве случаем применение нейронных сетей вместо аппарата множественной линейной регрессии приводит к повышению прогнозирующей способности количественных моделей «структура-свойство». 6.3. Моделирование физических свойств органических жидкостей в рамках процедуры трехвыборочного скользящего контроля 204

6.3.1. Общая методология моделирования Для демонстрации эффективности использования фрагментных дескрипторов в сочетании с аппаратом искусственных нейронных сетей при прогнозировании физических свойств самых разнообразных органических соединений было проведено как линейно-регрессионное, так и нейросетевое моделирование вязкости, плотности (для жидких веществ), давления насыщенных паров и температуры кипения на основе единой методики, которую можно назвать процедурой трехвыборочного скользящего контроля. Его разработка явилась дальнейшим развитием трехвыборочного подхода (см. подраздел 4.1.3). Основная идея метода – использование процедуры скользящего контроля и ансамбля нейросетевых моделей вместо единичной модели для того, чтобы сделать прогноз и оценку его качества более обоснованным и независящим от конкретной разбивки базы на три выборки – обучающую, внутреннюю и внешнюю контрольные. Эта процедура была нами применена только в данном цикле работ и в дальнейшем была заменена на более эффективную (вследствие генерации большего разнообразия нейросетевых моделей) процедуру двойного скользящего контроля (см. подраздел 4.1.4). Во всех случаях исследования в рамках этого подхода проводилось по следующей схеме. На первом этапе для всех соединений из базы данных, включающей информацию о структурах химических соединений и их свойствах, проводился расчет фрагментных дескрипторов (чисел вхождений структурных фрагментов в химическую структуру), причем максимальный размер фрагментов варьировался от 1 до 10 атомов. При расчете исключались фрагменты, встречающиеся в выборке менее, чем в 1 % соединений, а также статистически идентичные. Далее для каждого дескриптора были рассчитаны нелинейные модификации (квадрат (D 2 i ), квадратный корень (D 1/2 i ), десятичный логарифм (lg (D i )), отношение значения дескриптора к числу неводородных атомов в молекуле (D i /n a )). Следует отметить, что использование, наряду с фрагментными дескрипторами, их нелинейных модификаций волне оправдано. Для исследования этого 205

скольку явление «переучивания» было выражено очень слабо либо вообще не<br />

наблюдалось. В Табл. 10 приведено сравнение точности прогноза для построенных<br />

линейно-регрессионных моделей.<br />

Табл. 10. Точность прогноза для линейно-регрессионных и нейросетевых<br />

моделей<br />

Свойство Подраздел MAE пред или<br />

RMSE пред * для<br />

линейнорегрессионной<br />

модели<br />

Магнитная восприимчивость. ×10 -<br />

-6 единиц<br />

Энтальпия парообразования,<br />

MAE пред или<br />

RMSE пред * для<br />

нейросетевой<br />

модели<br />

5.2.3 7.02 6.25<br />

5.2.4 1.57 1.77<br />

ккал/моль<br />

Энтальпия сублимации, ккал/моль 5.2.5 2.16 1.66<br />

Температура вспышки, o C 5.2.6 15.8* 14.6*<br />

Как видно из Табл. 10, для трех из четырех свойств (т.е. для магнитной<br />

восприимчивости, энтальпии сублимации и температуры вспышки) применение<br />

нейронных сетей приводит к уменьшению ошибок прогноза. Что же касается<br />

энтальпии парообразования, то можно предположить, что более высокая прогнозирующая<br />

способность линейно-регрессионной модели обусловлена строгим<br />

аддитивным характером этого свойства. Таким образом, в большинстве<br />

случаем применение нейронных сетей вместо аппарата множественной линейной<br />

регрессии приводит к повышению прогнозирующей способности количественных<br />

моделей «структура-свойство».<br />

6.3. Моделирование физических свойств органических жидкостей в рамках<br />

процедуры трехвыборочного скользящего контроля<br />

204

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!