Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
рена возможность формирования такого поднабора дескрипторов, внутри которого отсутствует линейная попарная зависимость между ними, что часто позволяет резко сократить число используемых дескрипторов. Кроме того, во многих задачах прогнозирования физико-химических свойств химических соединений степень нелинейности их зависимости от значений дескрипторов оказывается не очень высокой, хотя и существенной для максимально точного прогнозирования, что дает возможность использовать быстрые линейно-регрессионные методы отбора дескрипторов. Хотя в общем случае сформированный таким образом набор отобранных дескрипторов может оказаться неоптимальным, в реальных задачах по изучению зависимости «структура-свойство» (когда число подструктурных дескрипторов может составить тысячи и даже десятки тысяч, что делает проблематичным использование чистых нейросетевых методов отбора дескрипторов) такой подход часто оказывается единственно возможным. Для обеспечения этого в «NASAWIN» предусмотрена специальная интерактивная процедура пошаговой линейной регрессии (БПМЛР, см. подраздел 4.1.5), которая позволяет пользователю быстро сформировать небольшой набор ценных дескрипторов, который в дальнейшем может быть использован для обучения нейронной сети. 8.2.6. Построение классификационных моделей структура-активность Очень часто, особенно при работе с биологическими данными, значения свойств представлены на качественном уровне (1 - есть активность, 0 - нет активности). Программа «NASAWIN» способна самостоятельно различать типы представления исходных данных и в зависимости от этого строить классификационные либо регрессионные. Кроме того, предусмотрена возможность ручного разбиения массива исследуемых соединений по каждому конкретному свойству на активные и неактивные, с последующим построением классификационных моделей. Пользователь может изменять пороговую величину для такого разбиения. Подчеркнем, что в данную диссертационную работу включено использование только регрессионных методов. 300
8.2.7. Нейросетевые парадигмы Программный комплекс «NASAWIN» основан главным образом на использовании нейросетей обратного распространения (см. подраздел 1.2.4). Основные алгоритмы обучения, реализованные в NASAWIN, это «обобщенное дельта-правило» (см. пункт 1.2.4.4) и метод эластичного распространения (см. пункт 1.2.4.5). Поскольку последний метод обучения проявил себя при эксплуатации программы значительно лучше первого, то именно он и используется по умолчанию. Для уменьшения «переучивания» при обучении может быть включен один из четырех типов регуляризаторов. Кроме того, в «NASAWIN» реализованы также самоорганизующиеся карты Кохонена (см. пункт 1.2.5.1), которые могут быть использованы кластеризации базы данных, а также специальная динамически наращиваемая сеть для решения классификационных задач распознавания образов. Использование последних двух нейросетевых парадигм выходит за рамки данной диссертационной работы. 8.2.8. Интерпретация нейросетевых моделей В ходе построения нейросетевых моделей рассчитываются все описанные выше статистические параметры (см. раздел 4.2), предназначенные для анализа вкладов входных параметров нейросети в получаемые модели. Эти данные представляются в числовом виде в диалоговых окнах, а также графически: на каждой итерации обучения нейросеть перерисовывается в соответствии с данными о значимости дескрипторов и величинах весовых коэффициентов связей. 8.2.9. Отбор дескрипторов в ходе обучения нейросети Рассчитанные характеристики значимости дескрипторов могут использоваться для отбора наиболее важных дескрипторов в ходе обучения нейросети. Для более четкого выявления значимых дескрипторов предусмотрена дополнительная возможность отсева малозначимых весовых коэффициентов. Для того, 301
- Page 249 and 250: используются как т
- Page 251 and 252: были модифицирован
- Page 253 and 254: зависимости давлен
- Page 255 and 256: Объединенный набор
- Page 257 and 258: Оба механизма вклю
- Page 259 and 260: творителя, а также
- Page 261 and 262: Табл. 29. Характерис
- Page 263 and 264: набора дескрипторо
- Page 265 and 266: угодно сложные зав
- Page 267 and 268: симостей «структур
- Page 269 and 270: лей, хотя все модел
- Page 271 and 272: одновременно решае
- Page 273 and 274: Как видно приведен
- Page 275 and 276: принципе гарантиро
- Page 277 and 278: мерации атомов дос
- Page 279 and 280: бор сигналов, соотв
- Page 281 and 282: только с атомных се
- Page 283 and 284: 7.4.3. Примеры разных
- Page 285 and 286: Рис. 66. Минимальная
- Page 287 and 288: ров» ведет к ухудше
- Page 289 and 290: бензол, было отброш
- Page 291 and 292: на атому. После 4000 э
- Page 293 and 294: фов), то и все нейро
- Page 295 and 296: проведения линейно
- Page 297 and 298: тате чего NASAWIN прев
- Page 299: 8.2.3. Химически-орие
- Page 303 and 304: 8.2.11. Кластеризация
- Page 305 and 306: нейросетевом прогр
- Page 307 and 308: 18 p1_Nlp Количество не
- Page 309 and 310: 43 p 4 _ SPR = ∑ R( a ) ⋅ R( a
- Page 311 and 312: делей. Программа та
- Page 313 and 314: позволяющая прогно
- Page 315 and 316: ЛИТЕРАТУРА 1. Гилле
- Page 317 and 318: 31. Aoyama T.; Ichikawa H. Neural N
- Page 319 and 320: 54. Karelson M.; Dobchev D.A.; Kuls
- Page 321 and 322: 79. Carpenter G.A.; Grossberg S. A
- Page 323 and 324: 103. Ежов А.А.; Токаев
- Page 325 and 326: 126. Benson S.W.; Buss J.H. Additiv
- Page 327 and 328: 148. Fisanick W.; Lipkus A.H.; Rusi
- Page 329 and 330: 169. Klopman G.; Macina O.T.; Levin
- Page 331 and 332: 189. Nilakantan R.; Bauman N.; Dixo
- Page 333 and 334: 209. Татевский В.М. Кл
- Page 335 and 336: ces and Related Descriptors in QSAR
- Page 337 and 338: 248. MOE, Molecular Operating Envir
- Page 339 and 340: 269. Estrada E.; Gonzalez H. What A
- Page 341 and 342: 288. Saigo H.; Kadowaki T.; Tsuda K
- Page 343 and 344: 309. Vladutz G. Modern Approaches t
- Page 345 and 346: 331. Rouvray D.H. Predicting Chemis
- Page 347 and 348: 352. Корн Г.; Корн Т. С
- Page 349 and 350: 374. Abraham M.H.; McGowan J.C. The
8.2.7. Нейросетевые парадигмы<br />
Программный комплекс «NASAWIN» основан главным образом на использовании<br />
нейросетей обратного распространения (см. подраздел 1.2.4). Основные<br />
алгоритмы обучения, реализованные в NASAWIN, это «обобщенное<br />
дельта-правило» (см. пункт 1.2.4.4) и метод эластичного распространения (см.<br />
пункт 1.2.4.5). Поскольку последний метод обучения проявил себя при эксплуатации<br />
программы значительно лучше первого, то именно он и используется по<br />
умолчанию. Для уменьшения «переучивания» при обучении может быть включен<br />
один из четырех типов регуляризаторов. Кроме того, в «NASAWIN» реализованы<br />
также самоорганизующиеся карты Кохонена (см. пункт 1.2.5.1), которые<br />
могут быть использованы кластеризации базы данных, а также специальная<br />
динамически наращиваемая сеть для решения классификационных задач распознавания<br />
образов. Использование последних двух нейросетевых парадигм выходит<br />
за рамки данной диссертационной работы.<br />
8.2.8. Интерпретация нейросетевых моделей<br />
В ходе построения нейросетевых моделей рассчитываются все описанные<br />
выше статистические параметры (см. раздел 4.2), предназначенные для анализа<br />
вкладов входных параметров нейросети в получаемые модели. Эти данные<br />
представляются в числовом виде в диалоговых окнах, а также графически: на<br />
каждой итерации обучения нейросеть перерисовывается в соответствии с данными<br />
о значимости дескрипторов и величинах весовых коэффициентов связей.<br />
8.2.9. Отбор дескрипторов в ходе обучения нейросети<br />
Рассчитанные характеристики значимости дескрипторов могут использоваться<br />
для отбора наиболее важных дескрипторов в ходе обучения нейросети.<br />
Для более четкого выявления значимых дескрипторов предусмотрена дополнительная<br />
возможность отсева малозначимых весовых коэффициентов. Для того,<br />
301