На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

По частотам вхождения в отбираемые при построении линейнорегрессионных моделей дескрипторов можно сделать вывод об их относительной значимости. В соответствии с этим критерием, при моделировании температуры кипения разнородных органических соединений наиболее весомыми являются вклады: метильных групп, связанных с любыми неводородными атомами (n[H 3 C-•]/n a и n[H 3 C-•]); sp 2 -гибридизованных атомов углерода (n[C sp 2]/n a ); фрагментов ароматических систем (n 2 [C Ar ÷C Ar ]); произвольных неводородных атомов (log{n[•]} и n 2 [•]). Значительный вклад также вносят группы, содержащие полярные атомы и связи, в частности: sp-, sp 2 - и sp 3 - гибридизованные атомы азота (n(N), √n[=C-N], n[=N-] и n[C sp 2-N]/n a ); гидроксильные группы, связанные с атомом углерода (n[C-OH], n 2 [HC Heterocycle -OH]); атомы кислорода при двойной связи (n[O=•]/n a ); атомы галогенов в различном структурном контексте (n[C sp 3-I]/n a , n[H 2 C-Hal], √n[C-F], n[Br]); атомы бора, кремния и серы (n 2 [B-•], n[C sp 2-N]/n a , n[Hal-Si] и n[C-S]/n a ). После построения ряда нейросетевых моделей (350 моделей) с варьированием числа скрытых нейронов было выбрано оптимальное число скрытых нейронов, равное двум (как обеспечивающее наименьшие ошибки на внутренних контрольных выборках). В Табл. 17 приведены статистические показатели построенных моделей. Табл. 17. Статистические показатели полученных моделей для температуры кипения разнородных органических соединений (ошибки приведены в o C) Статистические показатели моделей R RMSE t RMSE c RMSE p Название этапа исследования Линейно-регрессионные модели 0,9814 12,9 16,7 18,6 Средние значения показателей по всем индивидуальным нейросетевым 0,9869 11,0 16,1 17,2 моделям Показатели ансамблевой модели, усредняющей прогнозы индивидуальных нейросетевых моделей 0,9911 9,1 16,1 16,9 220

Как видно из Табл. 16 и Табл. 17, прогнозирующая способность построенных нейросетевых моделей заметно выше линейно-регрессионных. Кроме того, следует обратить внимание на тот факт, что (как и во всех других случаях, см. подразделы 6.3.2, 6.3.3 и 6.3.4) статистические показатели ансамблевой модели, усредняющей прогнозы по нейросетевому ансамблю, всегда заметно средних статистических показателей индивидуальных нейросетевых моделей в ансамбле. Это еще раз подтверждает известное из теории и практики машинного обучения утверждение о существенных преимуществах использования ансамблей нейросетевых моделей по сравнению с индивидуальными моделями. По-видимому, два основных фактора вносят вклад в это явление. Во-первых, усреднение по моделям, получаемым при разных разбивках базы данных позволяет эффективно использовать для обучения информацию из внутренних контрольных выборок, что эквивалентно увеличению эффективного размера обучающих выборок. Во-вторых, уменьшается вклад дисперсии в среднеквадратичную ошибку прогнозирования, поскольку дисперсия среднего нескольких случайных независимых переменных всегда ниже средней дисперсии каждой из этих переменных (т.е. происходит подавление «шума» при усреднении). Как известно, статистические показатели отдельно взятой модели при небольшом размере базы данных не может служить основой для вывода о качестве методики моделирования и иметь какую-либо статистическую значимость при отсутствии корректного скользящего контроля. Так, например, одна из полученных для данной базы данных статистических моделей характеризовалась следующими статистическими показателями: среднеквадратичная ошибка для обучающей выборки RMSE t равна 5.6 о С, для внутренней контрольной выборки RMSE v = 4.4 о С, а для внешней контрольной выборки RMSE p = 5.0 о С, что в несколько раз ниже усредненных показателям. Статистические показатели подобных индивидуальных моделей могут не характеризовать их истинную прогнозирующую способность, особенно когда в процессе их построения производится отбор дескрипторов. Хотя в отдельных публикациях, как, например [418], встречаются подобные результаты, ориентироваться на них нецелесообразно. Поэтому усредненные по множеству моделей результаты являются статистиче- 221

По частотам вхождения в отбираемые при построении линейнорегрессионных<br />

моделей дескрипторов можно сделать вывод об их относительной<br />

значимости. В соответствии с этим критерием, при моделировании температуры<br />

кипения разнородных органических соединений наиболее весомыми<br />

являются вклады: метильных групп, связанных с любыми неводородными атомами<br />

(n[H 3 C-•]/n a и n[H 3 C-•]); sp 2 -гибридизованных атомов углерода<br />

(n[C sp 2]/n a ); фрагментов ароматических систем (n 2 [C Ar ÷C Ar ]); произвольных неводородных<br />

атомов (log{n[•]} и n 2 [•]). Значительный вклад также вносят группы,<br />

содержащие полярные атомы и связи, в частности: sp-, sp 2 - и sp 3 -<br />

гибридизованные атомы азота (n(N), √n[=C-N], n[=N-] и n[C sp 2-N]/n a ); гидроксильные<br />

группы, связанные с атомом углерода (n[C-OH], n 2 [HC Heterocycle -OH]);<br />

атомы кислорода при двойной связи (n[O=•]/n a ); атомы галогенов в различном<br />

структурном контексте (n[C sp 3-I]/n a , n[H 2 C-Hal], √n[C-F], n[Br]); атомы бора,<br />

кремния и серы (n 2 [B-•], n[C sp 2-N]/n a , n[Hal-Si] и n[C-S]/n a ).<br />

После построения ряда нейросетевых моделей (350 моделей) с варьированием<br />

числа скрытых нейронов было выбрано оптимальное число скрытых<br />

нейронов, равное двум (как обеспечивающее наименьшие ошибки на внутренних<br />

контрольных выборках). В Табл. 17 приведены статистические показатели<br />

построенных моделей.<br />

Табл. 17. Статистические показатели полученных моделей для температуры<br />

кипения разнородных органических соединений (ошибки приведены в o C)<br />

Статистические показатели моделей<br />

R RMSE t RMSE c RMSE p<br />

Название этапа исследования<br />

Линейно-регрессионные модели 0,9814 12,9 16,7 18,6<br />

Средние значения показателей по<br />

всем индивидуальным нейросетевым 0,9869 11,0 16,1 17,2<br />

моделям<br />

Показатели ансамблевой модели, усредняющей<br />

прогнозы индивидуальных<br />

нейросетевых моделей<br />

0,9911 9,1 16,1 16,9<br />

220

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!