Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
0.4 0.35 0.3 0.25 Повышение Q2 0.2 0.15 0.1 0.05 0 0 -0.05 50 100 150 -0.1 Размер выборки Рис. 62. Повышение Q 2 при переходе к многозадачному обучению в зависимости от размера выборки Таким образом, при дефиците экспериментальных данных многозадачное обучение приводит к существенному росту прогнозирующей способности моделей «структура-свойство» по сравнению с традиционной методологией построения изолированных моделей. 7.4. Нейронное устройство для проведения прямых корреляций «структурасвойство» 7.4.1. Введение В настоящее время поиск количественных соотношений между структурами и свойствами органических соединений в значительной мере основан на использовании инвариантов молекулярных графов, базисом которых, как было нами показано выше (см. раздел 3.2), являются ФД. Проблемой, однако, является наличие слишком большого числа ФД, что не дает возможность рассматривать их все в процессе моделирования, В определенной мере процедура БПМЛР (см. подраздел 4.1.5) дает решение этой проблемы за счет предварительного отбора дескрипторов, однако ни одна процедура отбора дескрипторов не может в 274
принципе гарантировать оптимального решения, поскольку при этом обедняется описание химической структуры. Одним из наиболее перспективных направлений в решении этой проблемы мы видим в том, чтобы вместо отбора дескрипторов из заранее взятого их набора использовать процедуру извлечения непосредственно из структур химических соединений наиболее ценных для моделирования исследуемого свойства дескрипторов ∗ . Это привело нас к разработке альтернативного подхода к проблеме «структура-свойство», основанного на процедуре поиска зависимости исследуемого свойства непосредственно от элементов матрицы смежности молекулярного графа, однозначно идентифицирующей структуру органического соединения, либо, в более общем случае, от элементов матрицы, описывающей свойства атомов и их пар (например, характеристики связей). В качестве статистического метода анализа зависимости свойств органических соединений от их структуры нами выбран аппарат искусственных нейронных сетей, поскольку с его помощью можно выявлять зависимости между переменными вне рамок каких-либо заранее выбранных моделей. Универсальность аппроксимирующей способности в этом случае обеспечивается промежуточным формированием ФД либо псевдофрагментных дескрипторов в процессе анализа структуры. Принципиальным же отличием от сочетания ИНС с ФД является то, что вместо использования предварительно отобранных дескрипторов, набор которых скорее всего является неоптимальным, происходит направленное «извлечение» наиболее ценных для построения моделей «структура-свойство» дескрипторов непосредственно из первичного описания молекул в виде графа. Упомянем несколько подходов, связанных с анализом матрицы смежности молекулярного графа при помощи ИНС. Эльрод, Маггиора и Тренари [486, 487] использовали BE-матрицу Уги-Дугуджи [306] для формального представления химической структуры при нейросетевом прогнозировании реакционной ∗ В настоящее время вокруг решения подобных задач сформировалось специальное направление в теории машинного обучения, называемое «интеллектуальным анализом структурных данных» (structural data mining), и, как частный случай, «интеллектуальным анализом графов» (graph mining). Рассматриваемая в данном разделе работа была нами опубликована раньше появления первых публикаций в этом направлении в математической литературе. 275
- Page 223 and 224: нием ошибки примен
- Page 225 and 226: NASAWIN (см. раздел 8.2) н
- Page 227 and 228: ГЛАВА 7. РАЗРАБОТКА
- Page 229 and 230: ного моделирования
- Page 231 and 232: ля и даже более сов
- Page 233 and 234: ного цианинового к
- Page 235 and 236: Значения констант
- Page 237 and 238: делена на обучающу
- Page 239 and 240: ность. Основной цел
- Page 241 and 242: На Рис. 50 приводятс
- Page 243 and 244: молекул с конденси
- Page 245 and 246: 7.1.4. Прогнозировани
- Page 247 and 248: сивов разрозненных
- Page 249 and 250: используются как т
- Page 251 and 252: были модифицирован
- Page 253 and 254: зависимости давлен
- Page 255 and 256: Объединенный набор
- Page 257 and 258: Оба механизма вклю
- Page 259 and 260: творителя, а также
- Page 261 and 262: Табл. 29. Характерис
- Page 263 and 264: набора дескрипторо
- Page 265 and 266: угодно сложные зав
- Page 267 and 268: симостей «структур
- Page 269 and 270: лей, хотя все модел
- Page 271 and 272: одновременно решае
- Page 273: Как видно приведен
- Page 277 and 278: мерации атомов дос
- Page 279 and 280: бор сигналов, соотв
- Page 281 and 282: только с атомных се
- Page 283 and 284: 7.4.3. Примеры разных
- Page 285 and 286: Рис. 66. Минимальная
- Page 287 and 288: ров» ведет к ухудше
- Page 289 and 290: бензол, было отброш
- Page 291 and 292: на атому. После 4000 э
- Page 293 and 294: фов), то и все нейро
- Page 295 and 296: проведения линейно
- Page 297 and 298: тате чего NASAWIN прев
- Page 299 and 300: 8.2.3. Химически-орие
- Page 301 and 302: 8.2.7. Нейросетевые п
- Page 303 and 304: 8.2.11. Кластеризация
- Page 305 and 306: нейросетевом прогр
- Page 307 and 308: 18 p1_Nlp Количество не
- Page 309 and 310: 43 p 4 _ SPR = ∑ R( a ) ⋅ R( a
- Page 311 and 312: делей. Программа та
- Page 313 and 314: позволяющая прогно
- Page 315 and 316: ЛИТЕРАТУРА 1. Гилле
- Page 317 and 318: 31. Aoyama T.; Ichikawa H. Neural N
- Page 319 and 320: 54. Karelson M.; Dobchev D.A.; Kuls
- Page 321 and 322: 79. Carpenter G.A.; Grossberg S. A
- Page 323 and 324: 103. Ежов А.А.; Токаев
принципе гарантировать оптимального решения, поскольку при этом обедняется<br />
описание химической структуры. Одним из наиболее перспективных направлений<br />
в решении этой проблемы мы видим в том, чтобы вместо отбора дескрипторов<br />
из заранее взятого их набора использовать процедуру извлечения<br />
непосредственно из структур химических соединений наиболее ценных для моделирования<br />
исследуемого свойства дескрипторов ∗ .<br />
Это привело нас к разработке альтернативного подхода к проблеме<br />
«структура-свойство», основанного на процедуре поиска зависимости исследуемого<br />
свойства непосредственно от элементов матрицы смежности молекулярного<br />
графа, однозначно идентифицирующей структуру органического соединения,<br />
либо, в более общем случае, от элементов матрицы, описывающей<br />
свойства атомов и их пар (например, характеристики связей). В качестве статистического<br />
метода анализа зависимости свойств органических соединений от<br />
их структуры нами выбран аппарат искусственных нейронных сетей, поскольку<br />
с его помощью можно выявлять зависимости между переменными вне рамок<br />
каких-либо заранее выбранных моделей. Универсальность аппроксимирующей<br />
способности в этом случае обеспечивается промежуточным формированием<br />
ФД либо псевдофрагментных дескрипторов в процессе анализа структуры.<br />
Принципиальным же отличием от сочетания ИНС с ФД является то, что вместо<br />
использования предварительно отобранных дескрипторов, набор которых скорее<br />
всего является неоптимальным, происходит направленное «извлечение»<br />
наиболее ценных для построения моделей «структура-свойство» дескрипторов<br />
непосредственно из первичного описания молекул в виде графа.<br />
Упомянем несколько подходов, связанных с анализом матрицы смежности<br />
молекулярного графа при помощи ИНС. Эльрод, Маггиора и Тренари [486,<br />
487] использовали BE-матрицу Уги-Дугуджи [306] для формального представления<br />
химической структуры при нейросетевом прогнозировании реакционной<br />
∗ В настоящее время вокруг решения подобных задач сформировалось специальное направление<br />
в теории машинного обучения, называемое «интеллектуальным анализом структурных<br />
данных» (structural data mining), и, как частный случай, «интеллектуальным анализом графов»<br />
(graph mining). Рассматриваемая в данном разделе работа была нами опубликована<br />
раньше появления первых публикаций в этом направлении в математической литературе.<br />
275