На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

тур, идентичные работе [268]. Из Табл. 4 видно, что статистические характеристики модели 1 немного уступают вышеприведенным литературным данным. Тем не менее, эта модель имеет неплохую прогнозирующую способность: так, средняя ошибка на прогнозе для модели 1, построенной с использованием 4 дескрипторов, составляет даже 7.5 (10 -6 единиц). Далее мы исследовали смешанные модели с единичным включением дескрипторов другого типа, обратив особое внимание на простоту вычисления таких добавочных дескрипторов. Оказалось, что добавление в модель такого простого дескриптора, как молекулярная масса, позволяет несколько улучшить качество QSPR-модели (Табл. 4, модель 2). Этот дескриптор включается в QSPRмодель, построенную с помощью пошаговой регрессии, вторым, что приводит к улучшению качества прогноза (средняя ошибка на прогнозе достигает 7-6.3). Однако существенное улучшение качества модели было достигнуто при включении в уравнение, полученное на основе фрагментных дескрипторов, дескриптора V x [374]. Этот дескриптор был введен для описания молекулярного объема при учете сольватационных эффектов. Использование этого дескриптора приводит к резкому улучшению даже однопараметровой модели (Табл. 4 на стр. 165, модель 3). Модель, включающая 5 дескрипторов, имеет превосходные статистические характеристики уменьшает среднюю ошибку на прогнозе до 4.8. Ниже приведено уравнение этой модели: -χ M ×10 6 = - 2.91 + 0.82 V x + 3.42 ƒr 1 + 6.40 ƒr 2 -4.88 ƒr 3 - 2.99 ƒr 4 (2) n = 355, R 2 = 0.9856, s = 3.7 (10 -6 единиц), F = 3104, средняя ошибка (по модулю) на прогнозе 4.82, где fr i равно числу следующих фрагментов в молекулах: ƒr 1 – Br, ƒr 2 – Hal, ƒr 3 – • = • , (• − произвольный атом), ƒr 4 – C(Hal) 2 . Рассмотрим теперь ароматические соединения. Литературная QSPRмодель для ароматических структур [268] (85 соединений в обучающей и 20 соединений в контрольной выборках, 5 дескрипторов) имела следующие статистические характеристики: R 2 = 0.9604, s = 3.82 (10 -6 единиц), средняя ошибка при скользящем контроле 4.12 (10 -6 единиц), среднеквадратичная ошибка на прогнозе 4.00. Модель 4 (Табл. 4, стр. 233) построена на тех же данных, что и в 166

работе [268], но с применением фрагментных дескрипторов. Как и в случае алифатических соединений, для ароматической выборки (обучающая - 85 соединений, контрольная - 20 соединений) статистические параметры модели 4 (Табл. 4, стр. 165), построенной на фрагментных дескрипторах, немного уступают литературным данным. Тем не менее, ее прогнозирующая способность выше. Bключение в модель дескриптора молекулярной массы существенно не улучшает ни статистических показателей модели, ни ее прогнозирующей способности. Напротив, использование дескриптора V x приводит к резкому улучшению QSPR- модели (Табл. 4 на стр. 233, модель 5). Модель, содержащая 6 дескрипторов, имеет превосходные статистические характеристики (s = 1.99 × 10 -6 единиц) и уменьшает среднюю ошибку на прогнозе до 6.6 (10 -6 единиц). Для построения QSPR-модели ароматических соединений была использована обучающая и контрольная выборка ароматических структур, составленные по данным работы [268]. Как видно из данных Табл. 4 на стр. 165, модель 6, построенная только на фрагментных дескрипторах, имеет достаточно хорошие статистические характеристики и обладает хорошей предсказательной силой. Применение дескриптора V x также приводит к резкому улучшению QSPR-модели (Табл. 4 на стр. 233, модель 7). Модель, включающая 8 дескрипторов, имеет превосходные статистические характеристики (s = 5.44 × 10 -6 единиц) и уменьшает среднюю ошибку на прогнозе до 7.8 × 10 -6 единиц. Уравнение для этой модели приведено ниже: -χ M ×10 6 = - 4.87+ 0.823 V x – 6.64 ƒr 1 + 11.8 ƒr 2 – 8.05 ƒr 3 – 6.09 ƒr4 – 2.20 ƒr 5 + 1.08 ƒr 6 + 9.85 ƒr 7 (3) n = 378, R 2 = 0.9908, s = 5.44 (× 10 -6 единиц), средняя ошибка (по модулю)на прогнозе 7.87, где fr i равно числу следующих фрагментов в молекулах: ƒr 1 – Сl, ƒr 2 – Hal, ƒr 3 – N–O, ƒr 4 – C=O, ƒr 5 – •–•÷•–•=• , (÷- ароматическая связь), ƒr 6 – •=•–•÷•÷•÷•, ƒr 7 – RC Ar ÷C Ar (C Ar H) 2 . В задачи следующего этапа нашей работы входило исследование применимости фрагментного подхода на примере расширенной выборки органиче- 167

работе [268], но с применением фрагментных дескрипторов. Как и в случае<br />

алифатических соединений, для ароматической выборки (обучающая - 85 соединений,<br />

контрольная - 20 соединений) статистические параметры модели 4<br />

(Табл. 4, стр. 165), построенной на фрагментных дескрипторах, немного уступают<br />

литературным данным. Тем не менее, ее прогнозирующая способность<br />

выше.<br />

Bключение в модель дескриптора молекулярной массы существенно не<br />

улучшает ни статистических показателей модели, ни ее прогнозирующей способности.<br />

Напротив, использование дескриптора V x приводит к резкому улучшению<br />

QSPR- модели (Табл. 4 на стр. 233, модель 5). Модель, содержащая 6<br />

дескрипторов, имеет превосходные статистические характеристики (s = 1.99 ×<br />

10 -6 единиц) и уменьшает среднюю ошибку на прогнозе до 6.6 (10 -6 единиц).<br />

Для построения QSPR-модели ароматических соединений была использована<br />

обучающая и контрольная выборка ароматических структур, составленные<br />

по данным работы [268]. Как видно из данных Табл. 4 на стр. 165, модель 6, построенная<br />

только на фрагментных дескрипторах, имеет достаточно хорошие<br />

статистические характеристики и обладает хорошей предсказательной силой.<br />

Применение дескриптора V x также приводит к резкому улучшению<br />

QSPR-модели (Табл. 4 на стр. 233, модель 7). Модель, включающая 8 дескрипторов,<br />

имеет превосходные статистические характеристики (s = 5.44 × 10 -6 единиц)<br />

и уменьшает среднюю ошибку на прогнозе до 7.8 × 10 -6 единиц. Уравнение<br />

для этой модели приведено ниже:<br />

-χ M ×10 6 = - 4.87+ 0.823 V x – 6.64 ƒr 1 + 11.8 ƒr 2 – 8.05 ƒr 3 – 6.09 ƒr4 – 2.20<br />

ƒr 5 + 1.08 ƒr 6 + 9.85 ƒr 7 (3)<br />

n = 378, R 2 = 0.9908, s = 5.44 (× 10 -6 единиц), средняя ошибка (по модулю)на<br />

прогнозе 7.87, где fr i равно числу следующих фрагментов в молекулах:<br />

ƒr 1 – Сl, ƒr 2 – Hal, ƒr 3 – N–O, ƒr 4 – C=O, ƒr 5 – •–•÷•–•=• , (÷- ароматическая<br />

связь), ƒr 6 – •=•–•÷•÷•÷•, ƒr 7 – RC Ar ÷C Ar (C Ar H) 2 .<br />

В задачи следующего этапа нашей работы входило исследование применимости<br />

фрагментного подхода на примере расширенной выборки органиче-<br />

167

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!