Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
по ходу обучения в обеих фазах. В то же время, для соединений, отсутствующих в обучающей выборке, среднеквадратичная ошибка прогнозирования сначала уменьшается по ходу обучения в фазе «обобщения», но потом начинает расти в последующей фазе «запоминания». В результате этого «переобученная» нейросеть хорошо воспроизводит свойства соединений из обучающей выборки, но плохо прогнозирует свойства любых других соединений, например, содержащихся в контрольных выборках. Эффект «переучивания» схематически показан на Рис. 25. Рис. 25. Эффект "переучивания" нейросети. Нижняя кривая показывает ход изменения (при обучении нейросети) ошибки прогнозирования для соединений, входящих в обучающую выборку, а верхняя – в контрольную выборку. Восклицательным знаком отмечена точка перехода из фазы «обобщения» в фазу «запоминания». Природу эффекта «переучивания» обычно связывают с постепенным увеличением эффективного числа дескрипторов (а вместе с этим и сложности модели) по мере обучения нейросети (см. [18, 338]). Настраиваемые параметры нейросети, каковыми являются значения всех синаптических весов и порогов активации, перед началом обучения инициализируются обычно случайными числами, близкими к нулю. В этом случае во всех нейронах функция активации срабатывает при значениях аргумента, близких к нулю. Поскольку в окрестностях нуля любая нелинейная непрерывная функция приближается к линейной, то и нейросеть в самом начале обучения формирует на выходе сигналы, связанные со входными сигналами зависимостями, близкими к линейным. Таким образом, на начальном этапе обучения выходные сигналы представляют собой 112
линейные комбинации входных. В этом случае эффективное число дескрипторов равно числу линейно независимых дескрипторов в базе, и это число не может превышать числа входных нейронов. По мере обучения нейросети значения настраиваемых параметров растут по абсолютной величине, и в разложении в ряд Тейлора-Маклорена функции активации все большую роль начинают играть члены со второй, третьей и более высокими степенями. В результате этого нейросеть постепенно переходит к моделированию квадратичных, кубических и более сложных зависимостей, которые описываются все более возрастающим числом параметров. Таким образом, по ходу обучения нейросети эффективное число параметров постоянно возрастает, пока не достигает определенного максимального числа, которое равно числу настраиваемых параметров нейросети (т.е. суммарного числа синаптических весов и порогов активации), деленному на порядок группы автоморфизмов помеченного графа, соответствующего нейросети. Параллельно с эффективным числом дескрипторов при обучении нейросети растет и емкость класса моделируемых функций, которая в теории статистического обучения выражается размерностью Вапника-Червоненкиса. Упрощенно можно сказать, что в тот момент времени, когда емкость этого класса начнет превышать объем используемых для обучения данных, и наступает «переучивание». 4.1.2. Методы предотвращения «переучивания» нейросетей В литературе описано несколько методов предотвращения «переучивания» [338]. Наиболее простым из них является уменьшение общего числа настраиваемых параметров нейросети за счет уменьшения числа входных и скрытых нейронов. В исследованиях, проведенных в рамках настоящей диссертационной работы, уменьшение числа входных нейронов осуществлялось за счет предварительного отбора дескрипторов при помощи линейно-регрессионного метода БПМЛР (см. подраздел 4.1.5), а числа скрытых нейронов – за счет варьирования их числа и определения из них оптимального. Тем не менее, этот метод предотвращения «переучивания» не является панацеей – его недостатком 113
- Page 61 and 62: чем в качестве прог
- Page 63 and 64: ГЛАВА 2. ФРАГМЕНТНЫ
- Page 65 and 66: му типу биологичес
- Page 67 and 68: тему опубликовано
- Page 69 and 70: В настоящее время п
- Page 71 and 72: ниях QSPR/QSAR/SAR. И дейс
- Page 73 and 74: В качестве характе
- Page 75 and 76: Некоторые типы ЦАФ
- Page 77 and 78: кроме того, они сно
- Page 79 and 80: Следует упомянуть
- Page 81 and 82: зисных графов, пред
- Page 83 and 84: рой равен 1 только в
- Page 85 and 86: множества различны
- Page 87 and 88: при проведении вир
- Page 89 and 90: 21 01 12 12 21 01 Рис. 17. Ре
- Page 91 and 92: ределенных атомных
- Page 93 and 94: элементам, что може
- Page 95 and 96: наличие или отсутс
- Page 97 and 98: использовались в н
- Page 99 and 100: ложенные в 1985 г. ато
- Page 101 and 102: 2.3. Ограничения фра
- Page 103 and 104: ГЛАВА 3. МАТЕМАТИЧЕ
- Page 105 and 106: качестве меток исп
- Page 107 and 108: ной нумерации граф
- Page 109 and 110: нейронной сети с пр
- Page 111: ГЛАВА 4. РАЗРАБОТКА
- Page 115 and 116: таться внешней по о
- Page 117 and 118: Предсказанное знач
- Page 119 and 120: рипторе, то он пере
- Page 121 and 122: Для решения этой пр
- Page 123 and 124: • D x - среднее значе
- Page 125 and 126: R 1 R 2 R 1 R 2 X R 6 X R N + 3 (CH
- Page 127 and 128: В соответствии с вы
- Page 129 and 130: зовании рассмотрен
- Page 131 and 132: R4 R5 R3 R6 N (a) R2 6 N 2 6 2 6 2
- Page 133 and 134: f ( x, y) ≡ f ( y, x) ⇔ f ( x,
- Page 135 and 136: R3 R2 R5 R6 Общая формул
- Page 137 and 138: ко, эта разница все
- Page 139 and 140: переставленными эк
- Page 141 and 142: лей приведен в рабо
- Page 143 and 144: деленными» атомами
- Page 145 and 146: 5.1.2. Иерархическая
- Page 147 and 148: водородного соседа
- Page 149 and 150: Атом кислорода в со
- Page 151 and 152: PA1 -PH 2 Атом фосфора,
- Page 153 and 154: Br2 -Br= Формально нез
- Page 155 and 156: то в дальнейшем буд
- Page 157 and 158: После нахождения п
- Page 159 and 160: 5.2.1. Прогнозировани
- Page 161 and 162: зей, а также учитыв
по ходу обучения в обеих фазах. В то же время, для соединений, отсутствующих<br />
в обучающей выборке, среднеквадратичная ошибка прогнозирования сначала<br />
уменьшается по ходу обучения в фазе «обобщения», но потом начинает<br />
расти в последующей фазе «запоминания». В результате этого «переобученная»<br />
нейросеть хорошо воспроизводит свойства соединений из обучающей выборки,<br />
но плохо прогнозирует свойства любых других соединений, например, содержащихся<br />
в контрольных выборках. Эффект «переучивания» схематически показан<br />
на Рис. 25.<br />
Рис. 25. Эффект "переучивания" нейросети. Нижняя кривая показывает ход<br />
изменения (при обучении нейросети) ошибки прогнозирования для соединений,<br />
входящих в обучающую выборку, а верхняя – в контрольную выборку.<br />
Восклицательным знаком отмечена точка перехода из фазы «обобщения» в<br />
фазу «запоминания».<br />
Природу эффекта «переучивания» обычно связывают с постепенным увеличением<br />
эффективного числа дескрипторов (а вместе с этим и сложности модели)<br />
по мере обучения нейросети (см. [18, 338]). Настраиваемые параметры<br />
нейросети, каковыми являются значения всех синаптических весов и порогов<br />
активации, перед началом обучения инициализируются обычно случайными<br />
числами, близкими к нулю. В этом случае во всех нейронах функция активации<br />
срабатывает при значениях аргумента, близких к нулю. Поскольку в окрестностях<br />
нуля любая нелинейная непрерывная функция приближается к линейной,<br />
то и нейросеть в самом начале обучения формирует на выходе сигналы, связанные<br />
со входными сигналами зависимостями, близкими к линейным. Таким образом,<br />
на начальном этапе обучения выходные сигналы представляют собой<br />
112