На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

рена возможность формирования такого поднабора дескрипторов, внутри которого отсутствует линейная попарная зависимость между ними, что часто позволяет резко сократить число используемых дескрипторов. Кроме того, во многих задачах прогнозирования физико-химических свойств химических соединений степень нелинейности их зависимости от значений дескрипторов оказывается не очень высокой, хотя и существенной для максимально точного прогнозирования, что дает возможность использовать быстрые линейно-регрессионные методы отбора дескрипторов. Хотя в общем случае сформированный таким образом набор отобранных дескрипторов может оказаться неоптимальным, в реальных задачах по изучению зависимости «структура-свойство» (когда число подструктурных дескрипторов может составить тысячи и даже десятки тысяч, что делает проблематичным использование чистых нейросетевых методов отбора дескрипторов) такой подход часто оказывается единственно возможным. Для обеспечения этого в «NASAWIN» предусмотрена специальная интерактивная процедура пошаговой линейной регрессии (БПМЛР, см. подраздел 4.1.5), которая позволяет пользователю быстро сформировать небольшой набор ценных дескрипторов, который в дальнейшем может быть использован для обучения нейронной сети. 8.2.6. Построение классификационных моделей структура-активность Очень часто, особенно при работе с биологическими данными, значения свойств представлены на качественном уровне (1 - есть активность, 0 - нет активности). Программа «NASAWIN» способна самостоятельно различать типы представления исходных данных и в зависимости от этого строить классификационные либо регрессионные. Кроме того, предусмотрена возможность ручного разбиения массива исследуемых соединений по каждому конкретному свойству на активные и неактивные, с последующим построением классификационных моделей. Пользователь может изменять пороговую величину для такого разбиения. Подчеркнем, что в данную диссертационную работу включено использование только регрессионных методов. 300

8.2.7. Нейросетевые парадигмы Программный комплекс «NASAWIN» основан главным образом на использовании нейросетей обратного распространения (см. подраздел 1.2.4). Основные алгоритмы обучения, реализованные в NASAWIN, это «обобщенное дельта-правило» (см. пункт 1.2.4.4) и метод эластичного распространения (см. пункт 1.2.4.5). Поскольку последний метод обучения проявил себя при эксплуатации программы значительно лучше первого, то именно он и используется по умолчанию. Для уменьшения «переучивания» при обучении может быть включен один из четырех типов регуляризаторов. Кроме того, в «NASAWIN» реализованы также самоорганизующиеся карты Кохонена (см. пункт 1.2.5.1), которые могут быть использованы кластеризации базы данных, а также специальная динамически наращиваемая сеть для решения классификационных задач распознавания образов. Использование последних двух нейросетевых парадигм выходит за рамки данной диссертационной работы. 8.2.8. Интерпретация нейросетевых моделей В ходе построения нейросетевых моделей рассчитываются все описанные выше статистические параметры (см. раздел 4.2), предназначенные для анализа вкладов входных параметров нейросети в получаемые модели. Эти данные представляются в числовом виде в диалоговых окнах, а также графически: на каждой итерации обучения нейросеть перерисовывается в соответствии с данными о значимости дескрипторов и величинах весовых коэффициентов связей. 8.2.9. Отбор дескрипторов в ходе обучения нейросети Рассчитанные характеристики значимости дескрипторов могут использоваться для отбора наиболее важных дескрипторов в ходе обучения нейросети. Для более четкого выявления значимых дескрипторов предусмотрена дополнительная возможность отсева малозначимых весовых коэффициентов. Для того, 301

8.2.7. Нейросетевые парадигмы<br />

Программный комплекс «NASAWIN» основан главным образом на использовании<br />

нейросетей обратного распространения (см. подраздел 1.2.4). Основные<br />

алгоритмы обучения, реализованные в NASAWIN, это «обобщенное<br />

дельта-правило» (см. пункт 1.2.4.4) и метод эластичного распространения (см.<br />

пункт 1.2.4.5). Поскольку последний метод обучения проявил себя при эксплуатации<br />

программы значительно лучше первого, то именно он и используется по<br />

умолчанию. Для уменьшения «переучивания» при обучении может быть включен<br />

один из четырех типов регуляризаторов. Кроме того, в «NASAWIN» реализованы<br />

также самоорганизующиеся карты Кохонена (см. пункт 1.2.5.1), которые<br />

могут быть использованы кластеризации базы данных, а также специальная<br />

динамически наращиваемая сеть для решения классификационных задач распознавания<br />

образов. Использование последних двух нейросетевых парадигм выходит<br />

за рамки данной диссертационной работы.<br />

8.2.8. Интерпретация нейросетевых моделей<br />

В ходе построения нейросетевых моделей рассчитываются все описанные<br />

выше статистические параметры (см. раздел 4.2), предназначенные для анализа<br />

вкладов входных параметров нейросети в получаемые модели. Эти данные<br />

представляются в числовом виде в диалоговых окнах, а также графически: на<br />

каждой итерации обучения нейросеть перерисовывается в соответствии с данными<br />

о значимости дескрипторов и величинах весовых коэффициентов связей.<br />

8.2.9. Отбор дескрипторов в ходе обучения нейросети<br />

Рассчитанные характеристики значимости дескрипторов могут использоваться<br />

для отбора наиболее важных дескрипторов в ходе обучения нейросети.<br />

Для более четкого выявления значимых дескрипторов предусмотрена дополнительная<br />

возможность отсева малозначимых весовых коэффициентов. Для того,<br />

301

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!