На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

ских загрязнителей в атмосфере и т.д. [381-384]. Экспериментальное определение энтальпий сублимации, Δ sub H, как и других термодинамических величин, требует дорогих и длительных процедур. Поэтому, в литературе уделялось значительное внимание как расчетным теоретическим, так и эмпирическим QSPR методам. Так, например, отметим, что значения энтальпий сублимации были получены на основе расчета кристаллических упаковок [381-383]. Для QSPR использовались методы регрессионного анализа [381], нейтронные сети [381], а также 3D-QSAR (CoMFA) [384]. В случае линейного регрессионного анализа с обучающей выборкой из 62 соединений (контрольная выборка состояла из 10 соединений) было получено трехпараметровое уравнение, в котором в качестве дескрипторов использовались число атомов углерода, а также число доноров и акцепторов водородной связи [381] (подробнее см. ниже). В настоящей работе фрагментные дескрипторы применены нами для QSPR-исследования энтальпии сублимации. В качестве модельной базы экспериментальных данных по энтальпиям сублимации (База 1) были выбраны данные работы [381]: обучающая выборка из 62 соединений и контрольная выборка - 10 структур (соединения 63-72). Полная выборка включала молекулы с известной кристаллической структурой, содержащие атомы С, H, O, N, в том числе алифатические и ароматические углеводороды, их оксо- и аза-производные, карбоновые кислоты, амиды и аминокислоты, цианиды, хиноны, гетероциклы. Преимуществом данной выборки соединений является наличие для нее расчета энтальпий сублимации тремя способами: (1) теоретическим расчетом кристаллических упаковок (со следующими статистическими параметрами: n = 62, r 2 = 0.971, s = 0.939 ккал/моль, максимальная ошибка = 3.5 ккал/моль), (2) регрессионным анализом (со следующими статистическими параметрами: три дескриптора, n = 62, r 2 = 0.92, s = 1.6 ккал/моль, максимальная ошибка = 8.9 ккал/моль, средняя ошибка на прогнозе = 2.8 ккал/моль), и (3) с помощью нейронной сети (со следующими параметрами для лучшей модели: семь скрытых нейронов, n = 62, r 2 = 0.865, s = 2.2 ккал/моль, максимальная ошибка = 10.1 ккал/моль, средняя ошибка на прогнозе = 3.6 ккал/моль). Это дает хорошую основу для сравнения, хотя сама выборка и не очень велика. 172

База 2 (88 соединений) была создана путем добавления в Базу 1 экспериментальных данных работы [382] и исключения дубликатов, а База 3 – путем добавления в Базу 2 экспериментальных данных работы [384] по хлорированным дифенилам (15 структур) и после исключения дубликатов База 3 в результате включала 104 соединения. Включение хлорированных дифенилов обусловлено как важностью данного типа соединений, находящих широкое применение в качестве изоляционных материалов и замедлителей горения, так и желанием расширить структурное разнообразие выборки на хлорсодержащие соединения. QSPR моделирование проводилась с использованием наших QSAR программ EMMA (см. раздел 8.1) и NASAWIN (см. раздел 8.2). Фрагментные дескрипторы вычислялись блоком FRAGMENT (см. раздел 8.3), на работу которого налагались следующие ограничения: длина цепочек составляла 1-6, отбор фрагментных дескрипторов осуществляли как в автоматическом режиме, так и вручную, при отборе из группы скоррелированных друг с другом дескрипторов выбирались наиболее коррелирующие с активностью. Рассмотрим теперь сравнительные QSPR результаты. В Табл. 5 представлены характеристики моделей, полученных на основе фрагментных дескрипторов. Прежде всего, мы построили QSPR-модель (Модель 1, Табл. 5), используя ту же выборку, что и в работе [381], то есть взяли 62 соединения в качестве обучающей выборки и 10 соединений для прогноза (База 1). Из Табл. 5 видно, что на 3 фрагментных дескрипторах, получается удовлетворительная статиcтика, сравнимая с данными работы [381] и дающая разумный прогноз (Модель 1). Интересно, что первый дескриптор (число неводородных атомов) моделирует первый дескриптор работы [381], а два последующих фрагментных дескриптора непрямым образом моделируют число центров, образующих водородные связи (как и в работе [381]). 173

ских загрязнителей в атмосфере и т.д. [381-384]. Экспериментальное определение<br />

энтальпий сублимации, Δ sub H, как и других термодинамических величин,<br />

требует дорогих и длительных процедур. Поэтому, в литературе уделялось значительное<br />

внимание как расчетным теоретическим, так и эмпирическим QSPR<br />

методам. Так, например, отметим, что значения энтальпий сублимации были<br />

получены на основе расчета кристаллических упаковок [381-383]. Для QSPR<br />

использовались методы регрессионного анализа [381], нейтронные сети [381], а<br />

также 3D-QSAR (CoMFA) [384]. В случае линейного регрессионного анализа с<br />

обучающей выборкой из 62 соединений (контрольная выборка состояла из 10<br />

соединений) было получено трехпараметровое уравнение, в котором в качестве<br />

дескрипторов использовались число атомов углерода, а также число доноров и<br />

акцепторов водородной связи [381] (подробнее см. ниже).<br />

В настоящей работе фрагментные дескрипторы применены нами для<br />

QSPR-исследования энтальпии сублимации. В качестве модельной базы экспериментальных<br />

данных по энтальпиям сублимации (База 1) были выбраны данные<br />

работы [381]: обучающая выборка из 62 соединений и контрольная выборка<br />

- 10 структур (соединения 63-72). Полная выборка включала молекулы с известной<br />

кристаллической структурой, содержащие атомы С, H, O, N, в том числе<br />

алифатические и ароматические углеводороды, их оксо- и аза-производные,<br />

карбоновые кислоты, амиды и аминокислоты, цианиды, хиноны, гетероциклы.<br />

Преимуществом данной выборки соединений является наличие для нее расчета<br />

энтальпий сублимации тремя способами: (1) теоретическим расчетом кристаллических<br />

упаковок (со следующими статистическими параметрами: n = 62, r 2 =<br />

0.971, s = 0.939 ккал/моль, максимальная ошибка = 3.5 ккал/моль), (2) регрессионным<br />

анализом (со следующими статистическими параметрами: три дескриптора,<br />

n = 62, r 2 = 0.92, s = 1.6 ккал/моль, максимальная ошибка = 8.9 ккал/моль,<br />

средняя ошибка на прогнозе = 2.8 ккал/моль), и (3) с помощью нейронной сети<br />

(со следующими параметрами для лучшей модели: семь скрытых нейронов, n =<br />

62, r 2 = 0.865, s = 2.2 ккал/моль, максимальная ошибка = 10.1 ккал/моль, средняя<br />

ошибка на прогнозе = 3.6 ккал/моль). Это дает хорошую основу для сравнения,<br />

хотя сама выборка и не очень велика.<br />

172

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!