На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

машинного обучения (ассоциативные нейронные сети, машины опорных векторов, метод ближайших соседей, метод частичных наименьших квадратов, нейронные сети обратного распространения и множественная линейная регрессия), реализованные в нескольких программных комплексах (VCCLAB, ISIDA и NASAWIN [см. раздел 8.2]), в сочетании с разнообразными типами дескрипторов (несколько типов фрагментных дескрипторов, псевдофрагментные дескрипторы типа FRAGPROP [см. разделы 5.4 и 8.4], дескрипторы на основе электроно-топологических состояний атомов, а также все виды дескрипторов, генерируемых программой DRAGON) были впервые применены для обработки больших и структурно разнородных баз по температурам плавления ионных жидкостей [401]. В данной работе были построены QSPR-модели для четырех выборок (см. Рис. 48), включающих: (1) 126 бромидов производных пиридинов (PYR, IV и V); (2) 384 бромидов производных имидазолов и бензимидазолов (IMZ, VI и VII); (3) 207 бромидов четвертичных аммониев (QUAT, VIII); (4) 717 соединений, входящих во все вышеупомянутые наборы (FULL). R 2 R 2 N + NR 1 R 1 R 2 R 3 N N + R 1 N + R 1 N + R 1 R 2 R 4 N+ R 2 R 3 R 3 Br- Br- Br- Br- Br- IV V VI VII VIII Рис. 48. Структуры ионных жидкостей Оценка прогнозирующей способности построенных моделей проводилась при помощи процедуры 5-кратного внешнего (т.е. при котором информация из контрольных выборок никак не может участвовать в отборе лучших моделей) скользящего контроля по трем показателям (Q 2 , RMSE, MAE) для четырех выборок. В нашей части этой большой совместной работы в качестве методов машинного обучения мы использовали реализованные в программном комплексе 224

NASAWIN (см. раздел 8.2) нейросети обратного распространения (BPNN, см. подраздел 1.2.4), метод БПМЛР (FSMLR, см. подраздел 4.1.5) и метод частичных наименьших квадратов (PLS), а в качестве дескрипторов – набор фрагментных дескрипторов, вычисляемых блоком FRAGMENT (см. раздел 8.3), к которым был примешен набор псевдофрагментных дескрипторов (см. раздел 5.4), вычисляемых блоком FRAGPROP (см. раздел 8.4). Использование псевдофрагментных дескрипторов было обусловлено тем, что как показали предварительные вычислительные эксперименты, они в данном случае значительно повышают прогнозирующую способность построенных моделей. Кроме того, следует отметить, что обучение нейросети велось на полном наборе дескрипторов (попытки использовать процедуру БПМЛР для их предварительного отбора заканчивались значительным падением прогнозирующей способности модели). Вследствие этого всякий раз проводился визуальный контроль синапсов нейросети и в случае «паралича» процедура обучения вручную останавливалась и перезапускалась заново. В Табл. 18 представлены значения средней абсолютной ошибки прогнозирования (MAE), вычисленной при 5-кратном внешнем скользящем контроле. Отметим, что нейросеть обратного распространения приводит к построению лучших моделей по сравнению с БПМЛР и методом частичных наименьших квадратов PLS. Табл. 18. Значения средней абсолютной ошибки прогнозирования температуры плавления ионных жидкостей (в градусах) PYR IMZ QUAT FULL BPNN 26.2 32.4 30.3 31.5 FSMLR 34.8 36.2 36.1 33.7 PLS 32.5 31.9 31.8 31.9 Для сравнения QSPR-моделей, получаемых разными методами, каждой комбинации выборки и статистического показателя оценивалось среднее значение этих показателей, и каждой модели присваивался ранг “0”, если по всем трем показателям она оказывалась лучше средней, и “1” если хотя бы по одному показателю она уступала среднему. Далее ранги полученных моделей скла- 225

машинного обучения (ассоциативные нейронные сети, машины опорных векторов,<br />

метод ближайших соседей, метод частичных наименьших квадратов, нейронные<br />

сети обратного распространения и множественная линейная регрессия),<br />

реализованные в нескольких программных комплексах (VCCLAB, ISIDA и<br />

NASAWIN [см. раздел 8.2]), в сочетании с разнообразными типами дескрипторов<br />

(несколько типов фрагментных дескрипторов, псевдофрагментные дескрипторы<br />

типа FRAGPROP [см. разделы 5.4 и 8.4], дескрипторы на основе электроно-топологических<br />

состояний атомов, а также все виды дескрипторов, генерируемых<br />

программой DRAGON) были впервые применены для обработки<br />

больших и структурно разнородных баз по температурам плавления ионных<br />

жидкостей [401].<br />

В данной работе были построены QSPR-модели для четырех выборок (см.<br />

Рис. 48), включающих: (1) 126 бромидов производных пиридинов (PYR, IV и<br />

V); (2) 384 бромидов производных имидазолов и бензимидазолов (IMZ, VI и<br />

VII); (3) 207 бромидов четвертичных аммониев (QUAT, VIII); (4) 717 соединений,<br />

входящих во все вышеупомянутые наборы (FULL).<br />

R 2<br />

R 2<br />

N + NR 1<br />

R 1<br />

R 2<br />

R 3<br />

N<br />

N +<br />

R 1<br />

N +<br />

R 1<br />

N +<br />

R 1<br />

R 2<br />

R 4 N+ R 2<br />

R 3<br />

R 3<br />

Br-<br />

Br-<br />

Br-<br />

Br-<br />

Br-<br />

IV V VI VII VIII<br />

Рис. 48. Структуры ионных жидкостей<br />

Оценка прогнозирующей способности построенных моделей проводилась<br />

при помощи процедуры 5-кратного внешнего (т.е. при котором информация из<br />

контрольных выборок никак не может участвовать в отборе лучших моделей)<br />

скользящего контроля по трем показателям (Q 2 , RMSE, MAE) для четырех выборок.<br />

В нашей части этой большой совместной работы в качестве методов машинного<br />

обучения мы использовали реализованные в программном комплексе<br />

224

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!