На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

0.4 0.35 0.3 0.25 Повышение Q2 0.2 0.15 0.1 0.05 0 0 -0.05 50 100 150 -0.1 Размер выборки Рис. 62. Повышение Q 2 при переходе к многозадачному обучению в зависимости от размера выборки Таким образом, при дефиците экспериментальных данных многозадачное обучение приводит к существенному росту прогнозирующей способности моделей «структура-свойство» по сравнению с традиционной методологией построения изолированных моделей. 7.4. Нейронное устройство для проведения прямых корреляций «структурасвойство» 7.4.1. Введение В настоящее время поиск количественных соотношений между структурами и свойствами органических соединений в значительной мере основан на использовании инвариантов молекулярных графов, базисом которых, как было нами показано выше (см. раздел 3.2), являются ФД. Проблемой, однако, является наличие слишком большого числа ФД, что не дает возможность рассматривать их все в процессе моделирования, В определенной мере процедура БПМЛР (см. подраздел 4.1.5) дает решение этой проблемы за счет предварительного отбора дескрипторов, однако ни одна процедура отбора дескрипторов не может в 274

принципе гарантировать оптимального решения, поскольку при этом обедняется описание химической структуры. Одним из наиболее перспективных направлений в решении этой проблемы мы видим в том, чтобы вместо отбора дескрипторов из заранее взятого их набора использовать процедуру извлечения непосредственно из структур химических соединений наиболее ценных для моделирования исследуемого свойства дескрипторов ∗ . Это привело нас к разработке альтернативного подхода к проблеме «структура-свойство», основанного на процедуре поиска зависимости исследуемого свойства непосредственно от элементов матрицы смежности молекулярного графа, однозначно идентифицирующей структуру органического соединения, либо, в более общем случае, от элементов матрицы, описывающей свойства атомов и их пар (например, характеристики связей). В качестве статистического метода анализа зависимости свойств органических соединений от их структуры нами выбран аппарат искусственных нейронных сетей, поскольку с его помощью можно выявлять зависимости между переменными вне рамок каких-либо заранее выбранных моделей. Универсальность аппроксимирующей способности в этом случае обеспечивается промежуточным формированием ФД либо псевдофрагментных дескрипторов в процессе анализа структуры. Принципиальным же отличием от сочетания ИНС с ФД является то, что вместо использования предварительно отобранных дескрипторов, набор которых скорее всего является неоптимальным, происходит направленное «извлечение» наиболее ценных для построения моделей «структура-свойство» дескрипторов непосредственно из первичного описания молекул в виде графа. Упомянем несколько подходов, связанных с анализом матрицы смежности молекулярного графа при помощи ИНС. Эльрод, Маггиора и Тренари [486, 487] использовали BE-матрицу Уги-Дугуджи [306] для формального представления химической структуры при нейросетевом прогнозировании реакционной ∗ В настоящее время вокруг решения подобных задач сформировалось специальное направление в теории машинного обучения, называемое «интеллектуальным анализом структурных данных» (structural data mining), и, как частный случай, «интеллектуальным анализом графов» (graph mining). Рассматриваемая в данном разделе работа была нами опубликована раньше появления первых публикаций в этом направлении в математической литературе. 275

принципе гарантировать оптимального решения, поскольку при этом обедняется<br />

описание химической структуры. Одним из наиболее перспективных направлений<br />

в решении этой проблемы мы видим в том, чтобы вместо отбора дескрипторов<br />

из заранее взятого их набора использовать процедуру извлечения<br />

непосредственно из структур химических соединений наиболее ценных для моделирования<br />

исследуемого свойства дескрипторов ∗ .<br />

Это привело нас к разработке альтернативного подхода к проблеме<br />

«структура-свойство», основанного на процедуре поиска зависимости исследуемого<br />

свойства непосредственно от элементов матрицы смежности молекулярного<br />

графа, однозначно идентифицирующей структуру органического соединения,<br />

либо, в более общем случае, от элементов матрицы, описывающей<br />

свойства атомов и их пар (например, характеристики связей). В качестве статистического<br />

метода анализа зависимости свойств органических соединений от<br />

их структуры нами выбран аппарат искусственных нейронных сетей, поскольку<br />

с его помощью можно выявлять зависимости между переменными вне рамок<br />

каких-либо заранее выбранных моделей. Универсальность аппроксимирующей<br />

способности в этом случае обеспечивается промежуточным формированием<br />

ФД либо псевдофрагментных дескрипторов в процессе анализа структуры.<br />

Принципиальным же отличием от сочетания ИНС с ФД является то, что вместо<br />

использования предварительно отобранных дескрипторов, набор которых скорее<br />

всего является неоптимальным, происходит направленное «извлечение»<br />

наиболее ценных для построения моделей «структура-свойство» дескрипторов<br />

непосредственно из первичного описания молекул в виде графа.<br />

Упомянем несколько подходов, связанных с анализом матрицы смежности<br />

молекулярного графа при помощи ИНС. Эльрод, Маггиора и Тренари [486,<br />

487] использовали BE-матрицу Уги-Дугуджи [306] для формального представления<br />

химической структуры при нейросетевом прогнозировании реакционной<br />

∗ В настоящее время вокруг решения подобных задач сформировалось специальное направление<br />

в теории машинного обучения, называемое «интеллектуальным анализом структурных<br />

данных» (structural data mining), и, как частный случай, «интеллектуальным анализом графов»<br />

(graph mining). Рассматриваемая в данном разделе работа была нами опубликована<br />

раньше появления первых публикаций в этом направлении в математической литературе.<br />

275

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!