На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

лютная ошибка для обучающей выборки 20.6 o С, для контрольной выборки - 23.3 o С): T f расч . = - 0.826 + 0.285 fr1 + 0.497 fr2 + 0.151 fr3 – 6.718 fr4 + 0.208 fr5 + 0.130 fr6 – 1.87 fr7 + 4.50 fr8 + 0.369fr9 n = 398, R 2 = 0.8724, s = 18.8 o C, средняя ошибка (по модулю) на прогнозе 15.2 o С, где fr i равно числу следующих фрагментов в молекулах: fr1 - N, fr2 - OH , fr3 - • (произвольный атом), fr4 – CH 3 , fr5 - C-S, fr6 - C-C=O, Fr7 - •-•-• (цепочка из трех произвольных атомов), fr8 - C Ar H÷C Ar H÷C Ar R÷C Ar H (÷ - ароматическая связь), fr9 - C-C-C-Hal Расширение числа используемых фрагментных дескрипторов до 25 позволяет улучшить качество линейно-регрессионной модели практически до качества нейросетевой [386]. В их число входят дескрипторы, характеризующие количество в молекуле атомов галогенов, N, O, S; а также двух- и трехатомных фрагментов с различными типами связей (двойной, тройной, ароматической: fr1 - I, fr2 - F , fr3 - Br, fr4 – S, fr5 – N,. fr6 – OH, Fr7 - •, fr8 – C=O, fr9 - CH 3 NR 2 , fr10 – CH 2 Hal, fr11 – =CR-NHR, fr12 – =CR-OH, fr13 – CH 3 -C 3 sp , fr14 - HC Ar ÷C Ar R÷C Ar , fr15 – C-C=O, fr16 – =CR-C 3 sp -Cl, fr17 – CH 2 -CH 2 -С≡, fr18 - C- C 3 sp -Cl, fr19 – =C-C Ar ÷C Ar -OH, fr20 – C-C-C-N, fr21 –C Ar ÷C Ar ÷C Ar ÷C Ar -N, fr22 – C-C-C-S-C, fr23 – C-C-C-C-C-O, fr24 - CH 3 - C Ar (÷C Ar H) 2 , fr25 – Hal-C(-C) 2 . На Рис. 36 (стр. 179) представлена диаграмма разброса расчетных и экспериментальных значений температуры вспышки для обучающей и контрольной выборок соединений Базы 1 согласно модели, построенной на 25 фрагментных дескрипторах (R 2 = 0.9557, s = 11.4 o C, средняя абсолютная ошибка прогноза = 11.8, среднеквадратичная ошибка для обучающей выборки, RMS обуч . = 10.87 o C, среднеквадратичная ошибка прогноза RMS прог . = 15.75 o C). 178

Tf расч. о С, Tf calc. o C 300 200 100 0 -100 -100 0 100 200 300 T f эксп. о С, T f exp . o C Tf расч.. o C, Tf calc. o C 300 200 100 0 -100 -100 0 100 200 T o f эксп. C, T o f exp. C Рис. 36. Диаграмма разброса расчетных и экспериментальных значений температуры вспышки для обучающей (слева) и конторольной (справа) выборок Базы 1 согласно линейно-регрессионной модели, построенной на 25 фрагментных дескрипторах Уменьшение количества соединений в Базе 1 за счет исключения 12 структур приводит к незначительному ухудшению качества моделей для Базы 1А (ср. Модели 1 и 2, Табл. 6 на стр. 177), при этом природа используемых в модели дескрипторов остается в целом неизменной, кроме замены фрагмента (C Ar H÷C Ar H÷C Ar R÷C Ar H) на фрагмент (–O-СR=О). Далее мы использовали фрагментные дескрипторы для построения моделей для Базы 2 и “уменьшенной” Базы 2А (Табл. 6 на стр. 177, Модели 3 и 4). Как это было сделано в работе [387], для обучающей выборки, куда были включены все соединения, представленные в Базе 2, мы получили модели, по качеству не уступающие моделям 1 и 2 и превосходящие по статистическим показателям модель (см. выше), приведенную в работе [387]. Например, модель, построенная для Базы 2 на 25 дескрипторах, имеет следующие статистические показатели: R 2 = 0.9566, s = 11.2 o C, RMSE обуч . = 10.67 o C. Предсказательную способность QSPR-модели для Базы 2 мы оценили, используя ее разбивку на обучающую (179 соединений) и контрольную (89 соединений) выборки. Модель, построенная на 9 фрагментных дескрипторах, имеет весьма высокие прогнозирующие свойства (R 2 прогн. = 0.9315, средняя ошибка (по модулю) прогноза = 9.9 o C (Табл. 6 на стр. 177, Модель 5). Таким образом, нами построены на основе фрагментных дескрипторов линейно-регрессионные модели, позволяющие прогнозировать температуру 179

лютная ошибка для обучающей выборки 20.6 o С, для контрольной выборки -<br />

23.3 o С):<br />

T f расч . = - 0.826 + 0.285 fr1 + 0.497 fr2 + 0.151 fr3 – 6.718 fr4 + 0.208 fr5 +<br />

0.130 fr6 – 1.87 fr7 + 4.50 fr8 + 0.369fr9<br />

n = 398, R 2 = 0.8724, s = 18.8 o C, средняя ошибка (по модулю) на прогнозе 15.2<br />

o С, где fr i равно числу следующих фрагментов в молекулах: fr1 - N, fr2 - OH ,<br />

fr3 - • (произвольный атом), fr4 – CH 3 , fr5 - C-S, fr6 - C-C=O, Fr7 - •-•-• (цепочка<br />

из трех произвольных атомов), fr8 - C Ar H÷C Ar H÷C Ar R÷C Ar H (÷ - ароматическая<br />

связь), fr9 - C-C-C-Hal<br />

Расширение числа используемых фрагментных дескрипторов до 25 позволяет<br />

улучшить качество линейно-регрессионной модели практически до качества<br />

нейросетевой [386]. В их число входят дескрипторы, характеризующие<br />

количество в молекуле атомов галогенов, N, O, S; а также двух- и трехатомных<br />

фрагментов с различными типами связей (двойной, тройной, ароматической: fr1<br />

- I, fr2 - F , fr3 - Br, fr4 – S, fr5 – N,. fr6 – OH, Fr7 - •, fr8 – C=O, fr9 - CH 3 NR 2 ,<br />

fr10 – CH 2 Hal, fr11 – =CR-NHR, fr12 – =CR-OH, fr13 – CH 3 -C 3 sp , fr14 -<br />

HC Ar ÷C Ar R÷C Ar , fr15 – C-C=O, fr16 – =CR-C 3 sp -Cl, fr17 – CH 2 -CH 2 -С≡, fr18 - C-<br />

C 3 sp -Cl, fr19 – =C-C Ar ÷C Ar -OH, fr20 – C-C-C-N, fr21 –C Ar ÷C Ar ÷C Ar ÷C Ar -N, fr22 –<br />

C-C-C-S-C, fr23 – C-C-C-C-C-O, fr24 - CH 3 - C Ar (÷C Ar H) 2 , fr25 – Hal-C(-C) 2 . На<br />

Рис. 36 (стр. 179) представлена диаграмма разброса расчетных и экспериментальных<br />

значений температуры вспышки для обучающей и контрольной<br />

выборок соединений Базы 1 согласно модели, построенной на 25 фрагментных<br />

дескрипторах (R 2 = 0.9557, s = 11.4 o C, средняя абсолютная ошибка прогноза =<br />

11.8, среднеквадратичная ошибка для обучающей выборки, RMS обуч . = 10.87 o C,<br />

среднеквадратичная ошибка прогноза RMS прог . = 15.75 o C).<br />

178

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!