19.11.2014 Views

На правах рукописи

На правах рукописи

На правах рукописи

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

вопроса нами предварительно был проведен сравнительный анализ как линейно-регрессионных<br />

так и нейросетевых моделей (методика их построения рассмотрена<br />

ниже) для нескольких наборов дескрипторов, различающихся максимальным<br />

числом атомов во фрагментах (1 и 2) и наличием/отсутствием нелинейных<br />

модификаций дескрипторов. Анализ полученных результатов показал,<br />

что статистические характеристики построенных моделей с дескрипторами и их<br />

нелинейными модификациями заметно лучше аналогичных характеристик для<br />

моделей, построенных без включения нелинейных модификаций дескрипторов.<br />

Этот результат кажется вполне логичным для линейно-регрессионных моделей,<br />

поскольку подобные модификации в определенной мере позволяют учесть нелинейности<br />

зависимости «структура-свойство», но может показаться непонятным<br />

в случае искусственных нейронных сетей, которые сами по себе способны<br />

моделировать нелинейные зависимости. Одной из возможных причин этого явления<br />

может служить тот факт, что для предварительного отбора дескрипторов<br />

используется пошаговая процедура построения линейно-регрессионных зависимостей,<br />

и привнесение в нее нелинейности при помощи приведенных модификаций<br />

дескрипторов делает отбор дескрипторов для нелинейного метода, каковым<br />

являются искусственные нейронные сети, более обоснованным. Интересно<br />

отметить, что в литературе отсутствует описание этого явления, и потому<br />

оно заслуживает дальнейшего исследования.<br />

Далее после проведения нелинейных модификаций часть дескрипторов<br />

отбрасывалась таким образом, чтобы все парные коэффициенты корреляции r<br />

между оставшимися дескрипторами не превышали 0.97. После этого база данных<br />

разбивалась на три выборки – обучающую (80% соединений), внутреннюю<br />

контрольную (10% соединений) и внешнюю контрольную (10% соединений).<br />

Разбивка проводилась 10 разными способами таким образом, чтобы каждое соединение<br />

из базы данных присутствовало по одному разу в каждой из двух контрольных<br />

выборок. Затем для каждого первоначального набора дескрипторов<br />

(различающихся максимальным размером фрагментов) и каждой разбивки базы<br />

данных проводился отбор дескрипторов при помощи процедуры БПМЛР (см.<br />

подраздел 4.1.5). После этого из 10 первоначальных наборов дескрипторов от-<br />

206

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!