Universidad Politécnica de Cartagena TESIS DOCTORAL “UNA ...

Universidad Politécnica de Cartagena TESIS DOCTORAL “UNA ... Universidad Politécnica de Cartagena TESIS DOCTORAL “UNA ...

repositorio.bib.upct.es
from repositorio.bib.upct.es More from this publisher
24.01.2013 Views

Capitulo 5. Modelo Neuronal para el aprendizaje progresivo de tareas de Agarre ' ( ) L = ∑ G ⋅ W + Ruido (5.5) k j jk k j La configuración final de la mano hace referencia a qué dedos participarán en el agarre y como se van a posicionar los dedos durante la ejecución de la preconfiguración y el agarre. Este modelo fue diseñado para comandar la mano artificial Belgrado/USC (Bekey y col, 1990), los pares de dedos índice/medio y anular/meñique se consideran entidades únicas a ser controladas. La salida C consiste de 7 subvectores separados, cada uno de ellos especificando un detalle distinto de la configuración de agarre. Tres de esos subvectores (cada uno de ellos formado de dos unidades o componentes) especifica la participación del pulgar, del dedo I/M y del dedo A/m respectivamente. Uno de estos vectores (también constituido por dos unidades) determina si el pulgar se encuentra abducido o no. Los tres vectores restantes (cada uno de ellos consistente en tres unidades, que a su vez representan las cantidades pequeña, media y grande) determinan el grado de flexión, durante la preconfiguración, del pulgar del dedo I/M y del dedo A/m. Para cada subvector, un circuito de ‘el ganador se lo lleva todo’ determina la unidad más activa del subconjunto; es decir Ck = 1 si Lk = Max{ L m} ; donde m es un índice que pertenece al conjunto de unidades pertenecientes al mismo subvector que la unidad k; y Ck = 0 en cualquier otro caso. Este es el patrón de actividad que emplea el sistema de ejecución de la tarea. En el sistema de Fagg, la ejecución de la preconfiguración antes del agarre y del propio agarre no la maneja un sistema neuronal. Tras la ejución del agarre especificado por el sistema neuronal descrito más arriba, un ‘maestro o entrenador’ evalúa la ejecución del sistema. Existen dos elementos relacionados con esta evaluación, el éxito y la eficiencia. El éxito nos dice si el movimiento de agarre implementado ha sido capaz de levantar el objeto. Si el robot no es capaz de hacer esto, entonces el maestro establece una señal de refuerzo negativo R = -0.1. Si el agarre resulta exitoso entonces el maestro establece una señal de refuerzo positivo (R = 1) con cierto descuento si el agarre resulta ineficiente. Un agarre se considera ineficiente si los dedos se preconfiguran en una apertura mayor de la necesaria para el objeto que se requiere agarrar. La señal de refuerzo se utiliza por el algoritmo de aprendizaje para actualizar las conexiones sinápticas (W) en las proyecciones desde la capa visual/tareas (V) hacia la capa de detectores de características (F/G) y las conexiones sinápticas (W’) entre esta última capa y la capa de actuadotes, con el único objetivo de conseguir que el sistema completo reciba la señal de refuerzo máxima en sus acciones. Los ajustes en las conexiones sinápticas se realizan a través de un algoritmo Hebbiano / Anti – Hebbiano tal y como se detalla a continuación: Al sistema se le presenta una entrada concreta para la cual se computa un plan de agarre que posteriormente se ejecuta. Si el maestro emite una señal de refuerzo positivo, 217

Capitulo 5. Modelo Neuronal para el aprendizaje progresivo de tareas de Agarre el algoritmo debe asegurar que cuando al sistema se le presente en el futuro la misma entrada, éste produzca el mismo plan de agarre como salida. Esto se consigue mediante • Asegurándonos de que el mismo conjunto de detectores de características se active la próxima vez que se presente la misma entrada incrementando la fuerza de conexión entre las unidades activas en la capa V y los detectores de características G activos ante esa entrada. • Incrementando el apoyo activo que ejercen los detectores de características activos sobre los programas de agarre seleccionados mediante el aumento del valor de las conexiones sinápticas entre los detectores activos G y las unidades de salida C. Por otro lado supongamos que se produce una evaluación negativa del agarre (R < 0). Esto puede deberse tanto al hecho de que la selección de detectores ha sido errónea, o a que la selección misma del programa de agarre ha sido incorrecta. Ya que no conocemos en principio a que se debe esa evaluación negativa, asumiremos que se debe a ambos factores • Debemos reducir el valor de las conexiones sinápticas entre las unidades activadas por la entrada en V con los detectores de características activos (G) de manera que en el siguiente ensayo se de la oportunidad a otros detectores para activarse. • También debemos reducir el apoyo activo que los detectores activos ejercen sobre el plan de agarre seleccionado. Esto permitirá que en el siguiente ensayo con la misma entrada, se prueben distintas configuraciones de agarre. Estas reglas se pueden escribir como ecuaciones de actualización de pesos sinápticos ∆ W = α ⋅ R ⋅V ⋅G ⋅W ij i j ij ∆ W = α ⋅ R ⋅G ⋅C ⋅W ' ' jk j k jk donde ∆Wij e ∆Wjk son los cambios en las conexiones sinápticas, α es la tasa de aprendizaje y R es la señal de refuerzo. 218 (5.6)

Capitulo 5. Mo<strong>de</strong>lo Neuronal para el aprendizaje progresivo <strong>de</strong> tareas <strong>de</strong> Agarre<br />

el algoritmo <strong>de</strong>be asegurar que cuando al sistema se le presente en el futuro la misma<br />

entrada, éste produzca el mismo plan <strong>de</strong> agarre como salida. Esto se consigue mediante<br />

• Asegurándonos <strong>de</strong> que el mismo conjunto <strong>de</strong> <strong>de</strong>tectores <strong>de</strong> características<br />

se active la próxima vez que se presente la misma entrada incrementando<br />

la fuerza <strong>de</strong> conexión entre las unida<strong>de</strong>s activas en la capa V y los<br />

<strong>de</strong>tectores <strong>de</strong> características G activos ante esa entrada.<br />

• Incrementando el apoyo activo que ejercen los <strong>de</strong>tectores <strong>de</strong> características<br />

activos sobre los programas <strong>de</strong> agarre seleccionados mediante el aumento<br />

<strong>de</strong>l valor <strong>de</strong> las conexiones sinápticas entre los <strong>de</strong>tectores activos G y las<br />

unida<strong>de</strong>s <strong>de</strong> salida C.<br />

Por otro lado supongamos que se produce una evaluación negativa <strong>de</strong>l agarre (R<br />

< 0). Esto pue<strong>de</strong> <strong>de</strong>berse tanto al hecho <strong>de</strong> que la selección <strong>de</strong> <strong>de</strong>tectores ha sido<br />

errónea, o a que la selección misma <strong>de</strong>l programa <strong>de</strong> agarre ha sido incorrecta. Ya que<br />

no conocemos en principio a que se <strong>de</strong>be esa evaluación negativa, asumiremos que se<br />

<strong>de</strong>be a ambos factores<br />

• Debemos reducir el valor <strong>de</strong> las conexiones sinápticas entre las unida<strong>de</strong>s<br />

activadas por la entrada en V con los <strong>de</strong>tectores <strong>de</strong> características activos<br />

(G) <strong>de</strong> manera que en el siguiente ensayo se <strong>de</strong> la oportunidad a otros<br />

<strong>de</strong>tectores para activarse.<br />

• También <strong>de</strong>bemos reducir el apoyo activo que los <strong>de</strong>tectores activos<br />

ejercen sobre el plan <strong>de</strong> agarre seleccionado. Esto permitirá que en el<br />

siguiente ensayo con la misma entrada, se prueben distintas<br />

configuraciones <strong>de</strong> agarre.<br />

Estas reglas se pue<strong>de</strong>n escribir como ecuaciones <strong>de</strong> actualización <strong>de</strong> pesos sinápticos<br />

∆ W = α ⋅ R ⋅V ⋅G ⋅W<br />

ij i j ij<br />

∆ W = α ⋅ R ⋅G ⋅C ⋅W<br />

' '<br />

jk j k jk<br />

don<strong>de</strong> ∆Wij e ∆Wjk son los cambios en las conexiones sinápticas, α es la tasa <strong>de</strong><br />

aprendizaje y R es la señal <strong>de</strong> refuerzo.<br />

218<br />

(5.6)

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!