На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

регрессионные модели, построенные с использованием одних и тех же входных данных для разных выходов, не считаются взаимосвязанными даже при наличии сильной корреляции между выходными данными, поскольку при их построении не формируется общее для них представление данных. Вследствие этого для множественной линейной регрессии многозадачное обучение эквивалентно однозадачному. В то же время, нейросети обратного распространения, благодаря наличию промежуточного слоя скрытых нейронов, оказываются способными реализовывать многозадачное обучение, осуществляя тем самым более глубокую обработку и интеграцию данных. Впервые принципиальная возможность построения взаимосвязанных моделей «структура-свойство» была, однако, продемонстрировано нами еще в 1993 г. на примере искусственной нейронной сети с семью выходами, которая способна была одновременно предсказывать семь физических свойств алканов (см. раздел 6.1). Поскольку наше исследование было проведено еще до появления вышеупомянутых первых математических работ по многозадачному обучению, тогда нами не было предпринято систематическое изучение того, какой эффект дает одновременное прогнозирования нескольких свойств нейросетью с несколькими выходами по сравнению с их прогнозированием изолированными нейросетями с одним выходом. Подобное систематическое изучение было, однако, предпринято в нашей недавней работе по прогнозированию 11 констант распределения «ткань-воздух» [477], которая была осуществлена совместно с А.Варнеком, С.Годеном и Ж.Марку из лаборатории хемоинформатики Университета им. Л.Пастера (г. Страсбург, Франция) и И.Тетко и Анил Кумар Пандеем Центра им. Гельгольца (Мюнхен, Германия). В этом исследовании для построения моделей был использован ансамбль нейросетей обратного распространения, реализованный в рамках программы ASNN [342] (а также метод PLS) и фрагментные дескрипторы. В Табл. 32 на стр. 273 для каждого сочетания типа ткани и организма приведен размер выборки, а также значения Q 2 и MAE (средняя абсолютная ошибка), полученные в результате однозадачного (11 нейросетей с одним выходом) и многозадачного (одна нейросеть с 11 выходами) обучения. 272

Как видно приведенных в таблице данных, во всех случаях, когда имеется лишь небольшой объем экспериментальных данных, применение многозадачного обучения приводит с существенному улучшению прогнозирующей способности при недостатке экспериментальных данных. Эта тенденция особенно хорошо видна на Рис. 62, на котором показан тренд зависимости увеличения показателя Q 2 при переходе к многозадачному обучению от размера выборки. На приведенной диаграмме четко видно, что при размере выборки меньше 90 соединений применение многозадачного обучения приводит к заметному росту прогнозирующей способности, которое происходит за счет неявного переноса информации, использованной для построения моделей для связанных с ними свойств, для которых выборки содержат почти 100 и больше соединений. Для этих же последних свойств применение многозадачного обучения не приводит ни к какому статистически значимому эффекту. Табл. 32. Статистические характеристики нейросетевых моделей, полученных при однозадачном и многозадачном многозадачном обучении для констант распределения «ткань-воздух» Ткань / организм Число соединений Однозадачное обучение Многозадачное обучение Q 2 MAE Q 2 MAE Жир человека 42 0.20 0.46 0.57 0.32 Мозг человека 35 0.48 0.48 0.59 0.35 Печень человека 30 0.20 0.38 0.55 0.27 Почки человека 34 0.23 0.60 0.55 0.35 Мышцы человека 38 0.37 0.55 0.51 0.43 Кровь человека 138 0.66 0.48 0.68 0.42 Жир крысы 99 0.70 0.73 0.73 0.70 Мозг крысы 59 0.25 0.25 0.43 0.43 Печень крысы 100 0.72 0.72 0.67 0.67 Почки крысы 27 0.12 0.12 0.27 0.27 Мышцы крысы 97 0.72 0.72 0.67 0.67 273

регрессионные модели, построенные с использованием одних и тех же входных<br />

данных для разных выходов, не считаются взаимосвязанными даже при наличии<br />

сильной корреляции между выходными данными, поскольку при их построении<br />

не формируется общее для них представление данных. Вследствие<br />

этого для множественной линейной регрессии многозадачное обучение эквивалентно<br />

однозадачному. В то же время, нейросети обратного распространения,<br />

благодаря наличию промежуточного слоя скрытых нейронов, оказываются способными<br />

реализовывать многозадачное обучение, осуществляя тем самым более<br />

глубокую обработку и интеграцию данных.<br />

Впервые принципиальная возможность построения взаимосвязанных моделей<br />

«структура-свойство» была, однако, продемонстрировано нами еще в<br />

1993 г. на примере искусственной нейронной сети с семью выходами, которая<br />

способна была одновременно предсказывать семь физических свойств алканов<br />

(см. раздел 6.1). Поскольку наше исследование было проведено еще до появления<br />

вышеупомянутых первых математических работ по многозадачному обучению,<br />

тогда нами не было предпринято систематическое изучение того, какой<br />

эффект дает одновременное прогнозирования нескольких свойств нейросетью с<br />

несколькими выходами по сравнению с их прогнозированием изолированными<br />

нейросетями с одним выходом. Подобное систематическое изучение было, однако,<br />

предпринято в нашей недавней работе по прогнозированию 11 констант<br />

распределения «ткань-воздух» [477], которая была осуществлена совместно с<br />

А.Варнеком, С.Годеном и Ж.Марку из лаборатории хемоинформатики Университета<br />

им. Л.Пастера (г. Страсбург, Франция) и И.Тетко и Анил Кумар Пандеем<br />

Центра им. Гельгольца (Мюнхен, Германия). В этом исследовании для построения<br />

моделей был использован ансамбль нейросетей обратного распространения,<br />

реализованный в рамках программы ASNN [342] (а также метод<br />

PLS) и фрагментные дескрипторы. В Табл. 32 на стр. 273 для каждого сочетания<br />

типа ткани и организма приведен размер выборки, а также значения Q 2 и<br />

MAE (средняя абсолютная ошибка), полученные в результате однозадачного<br />

(11 нейросетей с одним выходом) и многозадачного (одна нейросеть с 11 выходами)<br />

обучения.<br />

272

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!