Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
заместителя в R 2 . Исходная выборка, включающая 35 соединений, была, как и в предыдущем примере, удвоена, и получившиеся 70 соединений были случайным образом разбиты на обучающую и контрольную выборки в соотношении 10:1. Как и в предыдущем примере, была использована многослойная ИНС с обратным распространением ошибок с двумя скрытыми нейронами. При обучении не наблюдался эффект «переучивания», что, как и в предыдущем примере, сделало ненужным использование третьей выборки для объективной оценки прогнозирующей способности нейросетевой модели. В результате обучения среднеквадратичная ошибка составила 0.55 логарифмических единиц на обучающей выборке (коэффициент корреляции 0.932) и 0.47 логарифмических единиц на контрольной выборке. Как и в предыдущем примере, мы повторили построение модели с использованием исходного (нерасширенного) набора данных. В этом случае уже наблюдался сильный эффект «переучивания» вследствие неблагоприятного соотношения между числом соединений и числом подстроечных параметров в нейросети. Среднеквадратичная ошибка нейросетевой модели, взятой при прохождении среднеквадратичной ошибки на контрольной выборке через минимум (т.е. до начала «переучивания»), составила 0.89 логарифмических единиц на обучающей выборке (коэффициент корреляции 0.82) и 0.54 логарифмические единицы на контрольной выборке, тогда как «переученная» нейросеть показала ошибку в 0.49 логарифмических единиц на обучающей выборке (коэффициент корреляции 0.95) и 0.98 логарифмических единиц на контрольной выборке. Обе эти модели дали близкие среднеквадратичные ошибки при прогнозировании галлюциногенной активности «клонов» исходных соединений (1.19 и 1.15 логарифмических единиц). Таким образом, расширение исходной выборки соединений за счет их «клонов» (получаемых путем перестановок эквивалентных позиций присоединения заместителей) позволило улучшить соотношение между числом соединений в выборке и числом подстроечных параметров нейросети (70:17 против 35:17), что, в свою очередь, привело к улучшению качества нейросетевой модели. Следует отметить, что построенные нами количественные модели «структура-активность» существенно лучше опубликованных (обзор известных моде- 140
лей приведен в работе [355]): все опубликованные модели построены только на небольших подмножествах использованного в нашей работе набора соединений (коэффициенты корреляции варьируются от 0.79 для выборки из 26 соединений до 0.97 для выборки из 10 соединений), и ни в одной из работ не оценивалась прогнозирующая способность моделей на контрольной выборке. Как и в предыдущем случае, все вычислительные эксперименты были повторены для разных разбивок исходных соединений на обучающую и контрольные выборки, и во всех случаях качественные результаты совпали. Выводы. Нами предложен подход (концепция обучаемой симметрии), позволяющий осуществлять построение количественных моделей «структураактивность» в рамках основанного на параметрах заместителей «классического» подхода для однородных наборов химических соединений с симметричных общим скелетом, позволяющий обходиться без произвольных симметрических функций от констант заместителей. Нейронная сеть в этом случае обучается на только воспроизводить зависимость биологической активности от значений дескрипторов, но и воспроизводить необходимые свойства симметрии в количественных соотношениях «структура-активность». Следует также отметить, что разработанная методология применима не только к «классическому» подходу, основанному на использовании констант заместителей в качестве дескрипторов: она применима к любому исследованию, в котором требуется аппроксимировать количественную зависимость «структура-свойство» или «структураактивность» для симметрично построенных химических систем (при небольшом порядке группы симметрии). Таким образом, концепция обучаемой симметрии позволяет улучшать прогнозирующую способность количественных нейросетевых моделей «структура-активность» и «структура-свойство» за счет использования дополнительной информации о свойствах симметрии этих соотношений. 141
- Page 89 and 90: 21 01 12 12 21 01 Рис. 17. Ре
- Page 91 and 92: ределенных атомных
- Page 93 and 94: элементам, что може
- Page 95 and 96: наличие или отсутс
- Page 97 and 98: использовались в н
- Page 99 and 100: ложенные в 1985 г. ато
- Page 101 and 102: 2.3. Ограничения фра
- Page 103 and 104: ГЛАВА 3. МАТЕМАТИЧЕ
- Page 105 and 106: качестве меток исп
- Page 107 and 108: ной нумерации граф
- Page 109 and 110: нейронной сети с пр
- Page 111 and 112: ГЛАВА 4. РАЗРАБОТКА
- Page 113 and 114: линейные комбинаци
- Page 115 and 116: таться внешней по о
- Page 117 and 118: Предсказанное знач
- Page 119 and 120: рипторе, то он пере
- Page 121 and 122: Для решения этой пр
- Page 123 and 124: • D x - среднее значе
- Page 125 and 126: R 1 R 2 R 1 R 2 X R 6 X R N + 3 (CH
- Page 127 and 128: В соответствии с вы
- Page 129 and 130: зовании рассмотрен
- Page 131 and 132: R4 R5 R3 R6 N (a) R2 6 N 2 6 2 6 2
- Page 133 and 134: f ( x, y) ≡ f ( y, x) ⇔ f ( x,
- Page 135 and 136: R3 R2 R5 R6 Общая формул
- Page 137 and 138: ко, эта разница все
- Page 139: переставленными эк
- Page 143 and 144: деленными» атомами
- Page 145 and 146: 5.1.2. Иерархическая
- Page 147 and 148: водородного соседа
- Page 149 and 150: Атом кислорода в со
- Page 151 and 152: PA1 -PH 2 Атом фосфора,
- Page 153 and 154: Br2 -Br= Формально нез
- Page 155 and 156: то в дальнейшем буд
- Page 157 and 158: После нахождения п
- Page 159 and 160: 5.2.1. Прогнозировани
- Page 161 and 162: зей, а также учитыв
- Page 163 and 164: Эксперимент 50 40 30 20
- Page 165 and 166: Построение QSPR-моде
- Page 167 and 168: работе [268], но с при
- Page 169 and 170: ляются удобным инс
- Page 171 and 172: чета этого свойств
- Page 173 and 174: База 2 (88 соединений
- Page 175 and 176: «редких фрагментов
- Page 177 and 178: пользовании 25 деск
- Page 179 and 180: Tf расч. о С, Tf calc. o C 30
- Page 181 and 182: На первом этапе раб
- Page 183 and 184: 0,935; s = 0,76 кДж·моль -1
- Page 185 and 186: пример использован
- Page 187 and 188: почечных фрагменто
- Page 189 and 190: ской структуры «ре
заместителя в R 2 . Исходная выборка, включающая 35 соединений, была, как и в<br />
предыдущем примере, удвоена, и получившиеся 70 соединений были случайным<br />
образом разбиты на обучающую и контрольную выборки в соотношении<br />
10:1. Как и в предыдущем примере, была использована многослойная ИНС с<br />
обратным распространением ошибок с двумя скрытыми нейронами. При обучении<br />
не наблюдался эффект «переучивания», что, как и в предыдущем примере,<br />
сделало ненужным использование третьей выборки для объективной оценки<br />
прогнозирующей способности нейросетевой модели. В результате обучения<br />
среднеквадратичная ошибка составила 0.55 логарифмических единиц на обучающей<br />
выборке (коэффициент корреляции 0.932) и 0.47 логарифмических<br />
единиц на контрольной выборке. Как и в предыдущем примере, мы повторили<br />
построение модели с использованием исходного (нерасширенного) набора данных.<br />
В этом случае уже наблюдался сильный эффект «переучивания» вследствие<br />
неблагоприятного соотношения между числом соединений и числом подстроечных<br />
параметров в нейросети. Среднеквадратичная ошибка нейросетевой<br />
модели, взятой при прохождении среднеквадратичной ошибки на контрольной<br />
выборке через минимум (т.е. до начала «переучивания»), составила 0.89 логарифмических<br />
единиц на обучающей выборке (коэффициент корреляции 0.82) и<br />
0.54 логарифмические единицы на контрольной выборке, тогда как «переученная»<br />
нейросеть показала ошибку в 0.49 логарифмических единиц на обучающей<br />
выборке (коэффициент корреляции 0.95) и 0.98 логарифмических единиц на<br />
контрольной выборке. Обе эти модели дали близкие среднеквадратичные<br />
ошибки при прогнозировании галлюциногенной активности «клонов» исходных<br />
соединений (1.19 и 1.15 логарифмических единиц). Таким образом, расширение<br />
исходной выборки соединений за счет их «клонов» (получаемых путем<br />
перестановок эквивалентных позиций присоединения заместителей) позволило<br />
улучшить соотношение между числом соединений в выборке и числом подстроечных<br />
параметров нейросети (70:17 против 35:17), что, в свою очередь,<br />
привело к улучшению качества нейросетевой модели.<br />
Следует отметить, что построенные нами количественные модели «структура-активность»<br />
существенно лучше опубликованных (обзор известных моде-<br />
140