Universidad Politécnica de Cartagena TESIS DOCTORAL “UNA ...
Universidad Politécnica de Cartagena TESIS DOCTORAL “UNA ... Universidad Politécnica de Cartagena TESIS DOCTORAL “UNA ...
Capitulo 5. Modelo Neuronal para el aprendizaje progresivo de tareas de Agarre donde C2(y) posee un mínimo absoluto cuando las articulaciones metacarpiales MCP de los dedos y la articulación carpometacarpal (CMC) del pulgar están flexionadas al máximo, y las articulaciones interfalangeales proximales (PIP) e interfalangeal del pulgar (IP) se encuentran totalmente extendidas. El algoritmo de aprendizaje permite obtener valores de las funciones de selección que son óptimos (lo más cercanos posibles a 1) ante la entrada visual de las características de los objetos a ser agarrados. Figura 5.3. Izquierda: Red neuronal para el aprendizaje de posturas de la mano (Uno y col, 1993). Derecha: Representación interna de los objetos agarrados en base a la actividad neuronal inducida para, a) Agarre de cilindros de distinto tamaño empleando un agarre de fuerza, b) Agarre de cilindros de distinto tamaño en agarre de precisión, c) Agarre de esferas de distinto tamaño en agarre de fuerza y d) Agarre de esferas de distinto tamaño en agarre de precisión. Aprendizaje por refuerzo en la planificación del agarre En el tipo de aproximación llevada a cabo por Fagg (Fagg, 1992) más que aprender a mimetizar acciones llevadas a cabo por un sujeto humano, la red neuronal aprende a asociar propiedades intrínsecas de un objeto con posturas de agarre adecuadas mediante la observación y evaluación de sus propios actos motores. Hay que remarcar el hecho de que sigue existiendo un ‘maestro’ en el proceso, lo que ocurre es que ahora, en lugar de decirle al robot cómo llevar a cabo exactamente la tarea lo que se le dice es cómo de bien la ha realizado en su último intento. Esta aproximación permite obtener planes de agarre mejor orientados a las capacidades de actuación y de sensado del robot, propiedad que no es directamente derivable de un proceso de mimetización pura. La medida de ‘lo bien que ha hecho el robot la tarea’ también denominada ‘señal de refuerzo’ generalmente adopta la forma de un escalar. En el caso de una tarea de agarre este escalar debe medir dos parámetros: el éxito y la eficiencia del agarre. El sistema neuronal artificial propuesto por Fagg emplea esta señal de realimentación para ajustar la fuerza de las conexiones entre las distintas capas de neuronas que conforman 215
Capitulo 5. Modelo Neuronal para el aprendizaje progresivo de tareas de Agarre el modelo a través de un algoritmo de aprendizaje por refuerzo propuesto por Barto y col, 1983 y Sutton, 1988, que permite al sistema maximizar tanto el éxito como la eficiencia de los agarres. La arquitectura computacional de Fagg (Figura 5.4) puede describirse de la siguiente manera: La información visual y la información asociada al tipo de tarea constituyen las entradas al modelo y se representan como un patrón de actividad a lo largo del conjunto de neuronas V. Se emplean un total de 11 neuronas en la capa V: tres se emplean para representar el tipo de objeto (cilindro, cubo o cono), tres se emplean para codificar el tamaño del objeto (pequeño, mediano, grande), otras tres para representar su diámetro (estrecho, medio, ancho) y otras dos neuronas codifican el tipo de acción a optimizar en el agarre (manipulabilidad o estabilidad). En el mono este tipo de información visual la proporcionan regiones del córtex parietal posterior; la información relativa al tipo de tarea a realizar proviene de una serie de regiones del córtex prefrontal, del área motora suplementaria y del córtex promotor dorsal. Esta información se proyecta a lo largo de un grupo de sinapsis (W) hacia una capa de neuronas (F/G) que actúa como detector de características, y en la cual cada neurona representa una característica de mayor nivel de abstracción que en la capa anterior (por ejemplo, una característica que representa ‘cilindro’ y ‘manipulabilidad’ recibirá conexiones desde las neuronas de la capa V correspondientes). La actividad de la unidad Fj viene dad por la ecuación: donde ( ) F = ∑ V ⋅ W + Ruido (5.4) j i ij j i Fj , es la actividad de la unidad j de la capa F/G Vi , es el nivel de la actividad de la unidad de entrada i. Wij , es el valor de la conexión entre la unidad de entrada i y la unidad j F/G. Ruidoj , es una señal aleatoria que se inyecta en el detector de la características j. Estos detectores de características interaccionan a través de mecanismos de competición local para resaltar las diferencias de actividad entre todas las neuronas de la capa. En la implementación de Fagg este paso se resuelve con una operación de máximo realizada localmente. La salida G de la capa F/G se computa de la siguiente manera: Gj vale Fj si Fj = Max{ F l} ; para valores de l que están comprendidos en el intervalo [j-N j+N] y cero en cualquier otro caso. Tras esta operación los detectores de características de la capa F/G que queden activos ‘votan’ para la configuración que se impone a la mano haciendo pasar su actividad hacia las unidades de salida L: 216
- Page 167 and 168: Capitulo 4. Modelo Neuronal para la
- Page 169 and 170: Capitulo 4. Modelo Neuronal para la
- Page 171 and 172: Capitulo 4. Modelo Neuronal para la
- Page 173 and 174: Capitulo 4. Modelo Neuronal para la
- Page 175 and 176: Capitulo 4. Modelo Neuronal para la
- Page 177 and 178: Capitulo 4. Modelo Neuronal para la
- Page 179 and 180: Capitulo 4. Modelo Neuronal para la
- Page 181 and 182: Capitulo 4. Modelo Neuronal para la
- Page 183 and 184: Capitulo 4. Modelo Neuronal para la
- Page 185 and 186: Capitulo 4. Modelo Neuronal para la
- Page 187 and 188: Capitulo 4. Modelo Neuronal para la
- Page 189 and 190: Capitulo 4. Modelo Neuronal para la
- Page 191 and 192: Capitulo 4. Modelo Neuronal para la
- Page 193 and 194: Capitulo 4. Modelo Neuronal para la
- Page 195 and 196: Capitulo 4. Modelo Neuronal para la
- Page 197 and 198: Capitulo 4. Modelo Neuronal para la
- Page 199 and 200: Capitulo 4. Modelo Neuronal para la
- Page 201 and 202: Capitulo 4. Modelo Neuronal para la
- Page 203 and 204: Capitulo 4. Modelo Neuronal para la
- Page 205 and 206: Capitulo 4. Modelo Neuronal para la
- Page 207 and 208: Capitulo 4. Modelo Neuronal para la
- Page 209 and 210: Capitulo 4. Modelo Neuronal para la
- Page 211 and 212: Capitulo 5. Modelo Neuronal para el
- Page 213 and 214: Capitulo 5. Modelo Neuronal para el
- Page 215 and 216: Capitulo 5. Modelo Neuronal para el
- Page 217: Capitulo 5. Modelo Neuronal para el
- Page 221 and 222: Capitulo 5. Modelo Neuronal para el
- Page 223 and 224: Capitulo 5. Modelo Neuronal para el
- Page 225 and 226: Capitulo 5. Modelo Neuronal para el
- Page 227 and 228: Capitulo 5. Modelo Neuronal para el
- Page 229 and 230: Capitulo 5. Modelo Neuronal para el
- Page 231 and 232: Capitulo 5. Modelo Neuronal para el
- Page 233 and 234: Capitulo 5. Modelo Neuronal para el
- Page 235 and 236: Capitulo 5. Modelo Neuronal para el
- Page 237 and 238: Capitulo 5. Modelo Neuronal para el
- Page 239 and 240: Capitulo 5. Modelo Neuronal para el
- Page 241 and 242: Capitulo 5. Modelo Neuronal para el
- Page 243 and 244: Capitulo 5. Modelo Neuronal para el
- Page 245 and 246: Capitulo 5. Modelo Neuronal para el
- Page 247 and 248: Capitulo 5. Modelo Neuronal para el
- Page 249 and 250: 2.5 cm 3.0 cm 3.5 cm 2 cm Capitulo
- Page 251 and 252: Capitulo 5. Modelo Neuronal para el
- Page 253 and 254: Capitulo 5. Modelo Neuronal para el
- Page 255 and 256: Capitulo 5. Modelo Neuronal para el
- Page 257 and 258: Capitulo 5. Modelo Neuronal para el
- Page 259 and 260: Capitulo 5. Modelo Neuronal para el
- Page 261 and 262: Capitulo 5. Modelo Neuronal para el
- Page 263 and 264: Capitulo 5. Modelo Neuronal para el
- Page 265 and 266: R1 HYPBF # 1 HYPBF # 2 R2 AIP VD Mu
- Page 267 and 268: Capitulo 5. Modelo Neuronal para el
Capitulo 5. Mo<strong>de</strong>lo Neuronal para el aprendizaje progresivo <strong>de</strong> tareas <strong>de</strong> Agarre<br />
el mo<strong>de</strong>lo a través <strong>de</strong> un algoritmo <strong>de</strong> aprendizaje por refuerzo propuesto por Barto y<br />
col, 1983 y Sutton, 1988, que permite al sistema maximizar tanto el éxito como la<br />
eficiencia <strong>de</strong> los agarres.<br />
La arquitectura computacional <strong>de</strong> Fagg (Figura 5.4) pue<strong>de</strong> <strong>de</strong>scribirse <strong>de</strong> la<br />
siguiente manera: La información visual y la información asociada al tipo <strong>de</strong> tarea<br />
constituyen las entradas al mo<strong>de</strong>lo y se representan como un patrón <strong>de</strong> actividad a lo<br />
largo <strong>de</strong>l conjunto <strong>de</strong> neuronas V. Se emplean un total <strong>de</strong> 11 neuronas en la capa V: tres<br />
se emplean para representar el tipo <strong>de</strong> objeto (cilindro, cubo o cono), tres se emplean<br />
para codificar el tamaño <strong>de</strong>l objeto (pequeño, mediano, gran<strong>de</strong>), otras tres para<br />
representar su diámetro (estrecho, medio, ancho) y otras dos neuronas codifican el tipo<br />
<strong>de</strong> acción a optimizar en el agarre (manipulabilidad o estabilidad). En el mono este tipo<br />
<strong>de</strong> información visual la proporcionan regiones <strong>de</strong>l córtex parietal posterior; la<br />
información relativa al tipo <strong>de</strong> tarea a realizar proviene <strong>de</strong> una serie <strong>de</strong> regiones <strong>de</strong>l<br />
córtex prefrontal, <strong>de</strong>l área motora suplementaria y <strong>de</strong>l córtex promotor dorsal. Esta<br />
información se proyecta a lo largo <strong>de</strong> un grupo <strong>de</strong> sinapsis (W) hacia una capa <strong>de</strong><br />
neuronas (F/G) que actúa como <strong>de</strong>tector <strong>de</strong> características, y en la cual cada neurona<br />
representa una característica <strong>de</strong> mayor nivel <strong>de</strong> abstracción que en la capa anterior (por<br />
ejemplo, una característica que representa ‘cilindro’ y ‘manipulabilidad’ recibirá<br />
conexiones <strong>de</strong>s<strong>de</strong> las neuronas <strong>de</strong> la capa V correspondientes). La actividad <strong>de</strong> la<br />
unidad Fj viene dad por la ecuación:<br />
don<strong>de</strong><br />
( )<br />
F = ∑ V ⋅ W + Ruido<br />
(5.4)<br />
j i ij j<br />
i<br />
Fj , es la actividad <strong>de</strong> la unidad j <strong>de</strong> la capa F/G<br />
Vi , es el nivel <strong>de</strong> la actividad <strong>de</strong> la unidad <strong>de</strong> entrada i.<br />
Wij , es el valor <strong>de</strong> la conexión entre la unidad <strong>de</strong> entrada i y la unidad j F/G.<br />
Ruidoj , es una señal aleatoria que se inyecta en el <strong>de</strong>tector <strong>de</strong> la características j.<br />
Estos <strong>de</strong>tectores <strong>de</strong> características interaccionan a través <strong>de</strong> mecanismos <strong>de</strong> competición<br />
local para resaltar las diferencias <strong>de</strong> actividad entre todas las neuronas <strong>de</strong> la capa. En la<br />
implementación <strong>de</strong> Fagg este paso se resuelve con una operación <strong>de</strong> máximo realizada<br />
localmente. La salida G <strong>de</strong> la capa F/G se computa <strong>de</strong> la siguiente manera: Gj vale Fj si Fj<br />
= Max{ F l}<br />
; para valores <strong>de</strong> l que están comprendidos en el intervalo [j-N j+N] y cero en<br />
cualquier otro caso. Tras esta operación los <strong>de</strong>tectores <strong>de</strong> características <strong>de</strong> la capa F/G<br />
que que<strong>de</strong>n activos ‘votan’ para la configuración que se impone a la mano haciendo<br />
pasar su actividad hacia las unida<strong>de</strong>s <strong>de</strong> salida L:<br />
216