На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

заместителя в R 2 . Исходная выборка, включающая 35 соединений, была, как и в предыдущем примере, удвоена, и получившиеся 70 соединений были случайным образом разбиты на обучающую и контрольную выборки в соотношении 10:1. Как и в предыдущем примере, была использована многослойная ИНС с обратным распространением ошибок с двумя скрытыми нейронами. При обучении не наблюдался эффект «переучивания», что, как и в предыдущем примере, сделало ненужным использование третьей выборки для объективной оценки прогнозирующей способности нейросетевой модели. В результате обучения среднеквадратичная ошибка составила 0.55 логарифмических единиц на обучающей выборке (коэффициент корреляции 0.932) и 0.47 логарифмических единиц на контрольной выборке. Как и в предыдущем примере, мы повторили построение модели с использованием исходного (нерасширенного) набора данных. В этом случае уже наблюдался сильный эффект «переучивания» вследствие неблагоприятного соотношения между числом соединений и числом подстроечных параметров в нейросети. Среднеквадратичная ошибка нейросетевой модели, взятой при прохождении среднеквадратичной ошибки на контрольной выборке через минимум (т.е. до начала «переучивания»), составила 0.89 логарифмических единиц на обучающей выборке (коэффициент корреляции 0.82) и 0.54 логарифмические единицы на контрольной выборке, тогда как «переученная» нейросеть показала ошибку в 0.49 логарифмических единиц на обучающей выборке (коэффициент корреляции 0.95) и 0.98 логарифмических единиц на контрольной выборке. Обе эти модели дали близкие среднеквадратичные ошибки при прогнозировании галлюциногенной активности «клонов» исходных соединений (1.19 и 1.15 логарифмических единиц). Таким образом, расширение исходной выборки соединений за счет их «клонов» (получаемых путем перестановок эквивалентных позиций присоединения заместителей) позволило улучшить соотношение между числом соединений в выборке и числом подстроечных параметров нейросети (70:17 против 35:17), что, в свою очередь, привело к улучшению качества нейросетевой модели. Следует отметить, что построенные нами количественные модели «структура-активность» существенно лучше опубликованных (обзор известных моде- 140

лей приведен в работе [355]): все опубликованные модели построены только на небольших подмножествах использованного в нашей работе набора соединений (коэффициенты корреляции варьируются от 0.79 для выборки из 26 соединений до 0.97 для выборки из 10 соединений), и ни в одной из работ не оценивалась прогнозирующая способность моделей на контрольной выборке. Как и в предыдущем случае, все вычислительные эксперименты были повторены для разных разбивок исходных соединений на обучающую и контрольные выборки, и во всех случаях качественные результаты совпали. Выводы. Нами предложен подход (концепция обучаемой симметрии), позволяющий осуществлять построение количественных моделей «структураактивность» в рамках основанного на параметрах заместителей «классического» подхода для однородных наборов химических соединений с симметричных общим скелетом, позволяющий обходиться без произвольных симметрических функций от констант заместителей. Нейронная сеть в этом случае обучается на только воспроизводить зависимость биологической активности от значений дескрипторов, но и воспроизводить необходимые свойства симметрии в количественных соотношениях «структура-активность». Следует также отметить, что разработанная методология применима не только к «классическому» подходу, основанному на использовании констант заместителей в качестве дескрипторов: она применима к любому исследованию, в котором требуется аппроксимировать количественную зависимость «структура-свойство» или «структураактивность» для симметрично построенных химических систем (при небольшом порядке группы симметрии). Таким образом, концепция обучаемой симметрии позволяет улучшать прогнозирующую способность количественных нейросетевых моделей «структура-активность» и «структура-свойство» за счет использования дополнительной информации о свойствах симметрии этих соотношений. 141

заместителя в R 2 . Исходная выборка, включающая 35 соединений, была, как и в<br />

предыдущем примере, удвоена, и получившиеся 70 соединений были случайным<br />

образом разбиты на обучающую и контрольную выборки в соотношении<br />

10:1. Как и в предыдущем примере, была использована многослойная ИНС с<br />

обратным распространением ошибок с двумя скрытыми нейронами. При обучении<br />

не наблюдался эффект «переучивания», что, как и в предыдущем примере,<br />

сделало ненужным использование третьей выборки для объективной оценки<br />

прогнозирующей способности нейросетевой модели. В результате обучения<br />

среднеквадратичная ошибка составила 0.55 логарифмических единиц на обучающей<br />

выборке (коэффициент корреляции 0.932) и 0.47 логарифмических<br />

единиц на контрольной выборке. Как и в предыдущем примере, мы повторили<br />

построение модели с использованием исходного (нерасширенного) набора данных.<br />

В этом случае уже наблюдался сильный эффект «переучивания» вследствие<br />

неблагоприятного соотношения между числом соединений и числом подстроечных<br />

параметров в нейросети. Среднеквадратичная ошибка нейросетевой<br />

модели, взятой при прохождении среднеквадратичной ошибки на контрольной<br />

выборке через минимум (т.е. до начала «переучивания»), составила 0.89 логарифмических<br />

единиц на обучающей выборке (коэффициент корреляции 0.82) и<br />

0.54 логарифмические единицы на контрольной выборке, тогда как «переученная»<br />

нейросеть показала ошибку в 0.49 логарифмических единиц на обучающей<br />

выборке (коэффициент корреляции 0.95) и 0.98 логарифмических единиц на<br />

контрольной выборке. Обе эти модели дали близкие среднеквадратичные<br />

ошибки при прогнозировании галлюциногенной активности «клонов» исходных<br />

соединений (1.19 и 1.15 логарифмических единиц). Таким образом, расширение<br />

исходной выборки соединений за счет их «клонов» (получаемых путем<br />

перестановок эквивалентных позиций присоединения заместителей) позволило<br />

улучшить соотношение между числом соединений в выборке и числом подстроечных<br />

параметров нейросети (70:17 против 35:17), что, в свою очередь,<br />

привело к улучшению качества нейросетевой модели.<br />

Следует отметить, что построенные нами количественные модели «структура-активность»<br />

существенно лучше опубликованных (обзор известных моде-<br />

140

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!