Universidad Politécnica de Cartagena TESIS DOCTORAL “UNA ...

Universidad Politécnica de Cartagena TESIS DOCTORAL “UNA ... Universidad Politécnica de Cartagena TESIS DOCTORAL “UNA ...

repositorio.bib.upct.es
from repositorio.bib.upct.es More from this publisher
24.01.2013 Views

Capitulo 5. Modelo Neuronal para el aprendizaje progresivo de tareas de Agarre donde C2(y) posee un mínimo absoluto cuando las articulaciones metacarpiales MCP de los dedos y la articulación carpometacarpal (CMC) del pulgar están flexionadas al máximo, y las articulaciones interfalangeales proximales (PIP) e interfalangeal del pulgar (IP) se encuentran totalmente extendidas. El algoritmo de aprendizaje permite obtener valores de las funciones de selección que son óptimos (lo más cercanos posibles a 1) ante la entrada visual de las características de los objetos a ser agarrados. Figura 5.3. Izquierda: Red neuronal para el aprendizaje de posturas de la mano (Uno y col, 1993). Derecha: Representación interna de los objetos agarrados en base a la actividad neuronal inducida para, a) Agarre de cilindros de distinto tamaño empleando un agarre de fuerza, b) Agarre de cilindros de distinto tamaño en agarre de precisión, c) Agarre de esferas de distinto tamaño en agarre de fuerza y d) Agarre de esferas de distinto tamaño en agarre de precisión. Aprendizaje por refuerzo en la planificación del agarre En el tipo de aproximación llevada a cabo por Fagg (Fagg, 1992) más que aprender a mimetizar acciones llevadas a cabo por un sujeto humano, la red neuronal aprende a asociar propiedades intrínsecas de un objeto con posturas de agarre adecuadas mediante la observación y evaluación de sus propios actos motores. Hay que remarcar el hecho de que sigue existiendo un ‘maestro’ en el proceso, lo que ocurre es que ahora, en lugar de decirle al robot cómo llevar a cabo exactamente la tarea lo que se le dice es cómo de bien la ha realizado en su último intento. Esta aproximación permite obtener planes de agarre mejor orientados a las capacidades de actuación y de sensado del robot, propiedad que no es directamente derivable de un proceso de mimetización pura. La medida de ‘lo bien que ha hecho el robot la tarea’ también denominada ‘señal de refuerzo’ generalmente adopta la forma de un escalar. En el caso de una tarea de agarre este escalar debe medir dos parámetros: el éxito y la eficiencia del agarre. El sistema neuronal artificial propuesto por Fagg emplea esta señal de realimentación para ajustar la fuerza de las conexiones entre las distintas capas de neuronas que conforman 215

Capitulo 5. Modelo Neuronal para el aprendizaje progresivo de tareas de Agarre el modelo a través de un algoritmo de aprendizaje por refuerzo propuesto por Barto y col, 1983 y Sutton, 1988, que permite al sistema maximizar tanto el éxito como la eficiencia de los agarres. La arquitectura computacional de Fagg (Figura 5.4) puede describirse de la siguiente manera: La información visual y la información asociada al tipo de tarea constituyen las entradas al modelo y se representan como un patrón de actividad a lo largo del conjunto de neuronas V. Se emplean un total de 11 neuronas en la capa V: tres se emplean para representar el tipo de objeto (cilindro, cubo o cono), tres se emplean para codificar el tamaño del objeto (pequeño, mediano, grande), otras tres para representar su diámetro (estrecho, medio, ancho) y otras dos neuronas codifican el tipo de acción a optimizar en el agarre (manipulabilidad o estabilidad). En el mono este tipo de información visual la proporcionan regiones del córtex parietal posterior; la información relativa al tipo de tarea a realizar proviene de una serie de regiones del córtex prefrontal, del área motora suplementaria y del córtex promotor dorsal. Esta información se proyecta a lo largo de un grupo de sinapsis (W) hacia una capa de neuronas (F/G) que actúa como detector de características, y en la cual cada neurona representa una característica de mayor nivel de abstracción que en la capa anterior (por ejemplo, una característica que representa ‘cilindro’ y ‘manipulabilidad’ recibirá conexiones desde las neuronas de la capa V correspondientes). La actividad de la unidad Fj viene dad por la ecuación: donde ( ) F = ∑ V ⋅ W + Ruido (5.4) j i ij j i Fj , es la actividad de la unidad j de la capa F/G Vi , es el nivel de la actividad de la unidad de entrada i. Wij , es el valor de la conexión entre la unidad de entrada i y la unidad j F/G. Ruidoj , es una señal aleatoria que se inyecta en el detector de la características j. Estos detectores de características interaccionan a través de mecanismos de competición local para resaltar las diferencias de actividad entre todas las neuronas de la capa. En la implementación de Fagg este paso se resuelve con una operación de máximo realizada localmente. La salida G de la capa F/G se computa de la siguiente manera: Gj vale Fj si Fj = Max{ F l} ; para valores de l que están comprendidos en el intervalo [j-N j+N] y cero en cualquier otro caso. Tras esta operación los detectores de características de la capa F/G que queden activos ‘votan’ para la configuración que se impone a la mano haciendo pasar su actividad hacia las unidades de salida L: 216

Capitulo 5. Mo<strong>de</strong>lo Neuronal para el aprendizaje progresivo <strong>de</strong> tareas <strong>de</strong> Agarre<br />

el mo<strong>de</strong>lo a través <strong>de</strong> un algoritmo <strong>de</strong> aprendizaje por refuerzo propuesto por Barto y<br />

col, 1983 y Sutton, 1988, que permite al sistema maximizar tanto el éxito como la<br />

eficiencia <strong>de</strong> los agarres.<br />

La arquitectura computacional <strong>de</strong> Fagg (Figura 5.4) pue<strong>de</strong> <strong>de</strong>scribirse <strong>de</strong> la<br />

siguiente manera: La información visual y la información asociada al tipo <strong>de</strong> tarea<br />

constituyen las entradas al mo<strong>de</strong>lo y se representan como un patrón <strong>de</strong> actividad a lo<br />

largo <strong>de</strong>l conjunto <strong>de</strong> neuronas V. Se emplean un total <strong>de</strong> 11 neuronas en la capa V: tres<br />

se emplean para representar el tipo <strong>de</strong> objeto (cilindro, cubo o cono), tres se emplean<br />

para codificar el tamaño <strong>de</strong>l objeto (pequeño, mediano, gran<strong>de</strong>), otras tres para<br />

representar su diámetro (estrecho, medio, ancho) y otras dos neuronas codifican el tipo<br />

<strong>de</strong> acción a optimizar en el agarre (manipulabilidad o estabilidad). En el mono este tipo<br />

<strong>de</strong> información visual la proporcionan regiones <strong>de</strong>l córtex parietal posterior; la<br />

información relativa al tipo <strong>de</strong> tarea a realizar proviene <strong>de</strong> una serie <strong>de</strong> regiones <strong>de</strong>l<br />

córtex prefrontal, <strong>de</strong>l área motora suplementaria y <strong>de</strong>l córtex promotor dorsal. Esta<br />

información se proyecta a lo largo <strong>de</strong> un grupo <strong>de</strong> sinapsis (W) hacia una capa <strong>de</strong><br />

neuronas (F/G) que actúa como <strong>de</strong>tector <strong>de</strong> características, y en la cual cada neurona<br />

representa una característica <strong>de</strong> mayor nivel <strong>de</strong> abstracción que en la capa anterior (por<br />

ejemplo, una característica que representa ‘cilindro’ y ‘manipulabilidad’ recibirá<br />

conexiones <strong>de</strong>s<strong>de</strong> las neuronas <strong>de</strong> la capa V correspondientes). La actividad <strong>de</strong> la<br />

unidad Fj viene dad por la ecuación:<br />

don<strong>de</strong><br />

( )<br />

F = ∑ V ⋅ W + Ruido<br />

(5.4)<br />

j i ij j<br />

i<br />

Fj , es la actividad <strong>de</strong> la unidad j <strong>de</strong> la capa F/G<br />

Vi , es el nivel <strong>de</strong> la actividad <strong>de</strong> la unidad <strong>de</strong> entrada i.<br />

Wij , es el valor <strong>de</strong> la conexión entre la unidad <strong>de</strong> entrada i y la unidad j F/G.<br />

Ruidoj , es una señal aleatoria que se inyecta en el <strong>de</strong>tector <strong>de</strong> la características j.<br />

Estos <strong>de</strong>tectores <strong>de</strong> características interaccionan a través <strong>de</strong> mecanismos <strong>de</strong> competición<br />

local para resaltar las diferencias <strong>de</strong> actividad entre todas las neuronas <strong>de</strong> la capa. En la<br />

implementación <strong>de</strong> Fagg este paso se resuelve con una operación <strong>de</strong> máximo realizada<br />

localmente. La salida G <strong>de</strong> la capa F/G se computa <strong>de</strong> la siguiente manera: Gj vale Fj si Fj<br />

= Max{ F l}<br />

; para valores <strong>de</strong> l que están comprendidos en el intervalo [j-N j+N] y cero en<br />

cualquier otro caso. Tras esta operación los <strong>de</strong>tectores <strong>de</strong> características <strong>de</strong> la capa F/G<br />

que que<strong>de</strong>n activos ‘votan’ para la configuración que se impone a la mano haciendo<br />

pasar su actividad hacia las unida<strong>de</strong>s <strong>de</strong> salida L:<br />

216

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!