На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

скольку явление «переучивания» было выражено очень слабо либо вообще не наблюдалось. В Табл. 10 приведено сравнение точности прогноза для построенных линейно-регрессионных моделей. Табл. 10. Точность прогноза для линейно-регрессионных и нейросетевых моделей Свойство Подраздел MAE пред или RMSE пред * для линейнорегрессионной модели Магнитная восприимчивость. ×10 - -6 единиц Энтальпия парообразования, MAE пред или RMSE пред * для нейросетевой модели 5.2.3 7.02 6.25 5.2.4 1.57 1.77 ккал/моль Энтальпия сублимации, ккал/моль 5.2.5 2.16 1.66 Температура вспышки, o C 5.2.6 15.8* 14.6* Как видно из Табл. 10, для трех из четырех свойств (т.е. для магнитной восприимчивости, энтальпии сублимации и температуры вспышки) применение нейронных сетей приводит к уменьшению ошибок прогноза. Что же касается энтальпии парообразования, то можно предположить, что более высокая прогнозирующая способность линейно-регрессионной модели обусловлена строгим аддитивным характером этого свойства. Таким образом, в большинстве случаем применение нейронных сетей вместо аппарата множественной линейной регрессии приводит к повышению прогнозирующей способности количественных моделей «структура-свойство». 6.3. Моделирование физических свойств органических жидкостей в рамках процедуры трехвыборочного скользящего контроля 204

6.3.1. Общая методология моделирования Для демонстрации эффективности использования фрагментных дескрипторов в сочетании с аппаратом искусственных нейронных сетей при прогнозировании физических свойств самых разнообразных органических соединений было проведено как линейно-регрессионное, так и нейросетевое моделирование вязкости, плотности (для жидких веществ), давления насыщенных паров и температуры кипения на основе единой методики, которую можно назвать процедурой трехвыборочного скользящего контроля. Его разработка явилась дальнейшим развитием трехвыборочного подхода (см. подраздел 4.1.3). Основная идея метода – использование процедуры скользящего контроля и ансамбля нейросетевых моделей вместо единичной модели для того, чтобы сделать прогноз и оценку его качества более обоснованным и независящим от конкретной разбивки базы на три выборки – обучающую, внутреннюю и внешнюю контрольные. Эта процедура была нами применена только в данном цикле работ и в дальнейшем была заменена на более эффективную (вследствие генерации большего разнообразия нейросетевых моделей) процедуру двойного скользящего контроля (см. подраздел 4.1.4). Во всех случаях исследования в рамках этого подхода проводилось по следующей схеме. На первом этапе для всех соединений из базы данных, включающей информацию о структурах химических соединений и их свойствах, проводился расчет фрагментных дескрипторов (чисел вхождений структурных фрагментов в химическую структуру), причем максимальный размер фрагментов варьировался от 1 до 10 атомов. При расчете исключались фрагменты, встречающиеся в выборке менее, чем в 1 % соединений, а также статистически идентичные. Далее для каждого дескриптора были рассчитаны нелинейные модификации (квадрат (D 2 i ), квадратный корень (D 1/2 i ), десятичный логарифм (lg (D i )), отношение значения дескриптора к числу неводородных атомов в молекуле (D i /n a )). Следует отметить, что использование, наряду с фрагментными дескрипторами, их нелинейных модификаций волне оправдано. Для исследования этого 205

6.3.1. Общая методология моделирования<br />

Для демонстрации эффективности использования фрагментных дескрипторов<br />

в сочетании с аппаратом искусственных нейронных сетей при прогнозировании<br />

физических свойств самых разнообразных органических соединений<br />

было проведено как линейно-регрессионное, так и нейросетевое моделирование<br />

вязкости, плотности (для жидких веществ), давления насыщенных паров и температуры<br />

кипения на основе единой методики, которую можно назвать процедурой<br />

трехвыборочного скользящего контроля. Его разработка явилась дальнейшим<br />

развитием трехвыборочного подхода (см. подраздел 4.1.3). Основная<br />

идея метода – использование процедуры скользящего контроля и ансамбля<br />

нейросетевых моделей вместо единичной модели для того, чтобы сделать прогноз<br />

и оценку его качества более обоснованным и независящим от конкретной<br />

разбивки базы на три выборки – обучающую, внутреннюю и внешнюю контрольные.<br />

Эта процедура была нами применена только в данном цикле работ и<br />

в дальнейшем была заменена на более эффективную (вследствие генерации<br />

большего разнообразия нейросетевых моделей) процедуру двойного скользящего<br />

контроля (см. подраздел 4.1.4).<br />

Во всех случаях исследования в рамках этого подхода проводилось по<br />

следующей схеме. На первом этапе для всех соединений из базы данных, включающей<br />

информацию о структурах химических соединений и их свойствах,<br />

проводился расчет фрагментных дескрипторов (чисел вхождений структурных<br />

фрагментов в химическую структуру), причем максимальный размер фрагментов<br />

варьировался от 1 до 10 атомов. При расчете исключались фрагменты,<br />

встречающиеся в выборке менее, чем в 1 % соединений, а также статистически<br />

идентичные. Далее для каждого дескриптора были рассчитаны нелинейные модификации<br />

(квадрат (D 2 i ), квадратный корень (D 1/2 i ), десятичный логарифм<br />

(lg (D i )), отношение значения дескриптора к числу неводородных атомов в молекуле<br />

(D i /n a )).<br />

Следует отметить, что использование, наряду с фрагментными дескрипторами,<br />

их нелинейных модификаций волне оправдано. Для исследования этого<br />

205

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!