Universidad Politécnica de Cartagena TESIS DOCTORAL “UNA ...
Universidad Politécnica de Cartagena TESIS DOCTORAL “UNA ... Universidad Politécnica de Cartagena TESIS DOCTORAL “UNA ...
Capitulo 5. Modelo Neuronal para el aprendizaje progresivo de tareas de Agarre ' ( ) L = ∑ G ⋅ W + Ruido (5.5) k j jk k j La configuración final de la mano hace referencia a qué dedos participarán en el agarre y como se van a posicionar los dedos durante la ejecución de la preconfiguración y el agarre. Este modelo fue diseñado para comandar la mano artificial Belgrado/USC (Bekey y col, 1990), los pares de dedos índice/medio y anular/meñique se consideran entidades únicas a ser controladas. La salida C consiste de 7 subvectores separados, cada uno de ellos especificando un detalle distinto de la configuración de agarre. Tres de esos subvectores (cada uno de ellos formado de dos unidades o componentes) especifica la participación del pulgar, del dedo I/M y del dedo A/m respectivamente. Uno de estos vectores (también constituido por dos unidades) determina si el pulgar se encuentra abducido o no. Los tres vectores restantes (cada uno de ellos consistente en tres unidades, que a su vez representan las cantidades pequeña, media y grande) determinan el grado de flexión, durante la preconfiguración, del pulgar del dedo I/M y del dedo A/m. Para cada subvector, un circuito de ‘el ganador se lo lleva todo’ determina la unidad más activa del subconjunto; es decir Ck = 1 si Lk = Max{ L m} ; donde m es un índice que pertenece al conjunto de unidades pertenecientes al mismo subvector que la unidad k; y Ck = 0 en cualquier otro caso. Este es el patrón de actividad que emplea el sistema de ejecución de la tarea. En el sistema de Fagg, la ejecución de la preconfiguración antes del agarre y del propio agarre no la maneja un sistema neuronal. Tras la ejución del agarre especificado por el sistema neuronal descrito más arriba, un ‘maestro o entrenador’ evalúa la ejecución del sistema. Existen dos elementos relacionados con esta evaluación, el éxito y la eficiencia. El éxito nos dice si el movimiento de agarre implementado ha sido capaz de levantar el objeto. Si el robot no es capaz de hacer esto, entonces el maestro establece una señal de refuerzo negativo R = -0.1. Si el agarre resulta exitoso entonces el maestro establece una señal de refuerzo positivo (R = 1) con cierto descuento si el agarre resulta ineficiente. Un agarre se considera ineficiente si los dedos se preconfiguran en una apertura mayor de la necesaria para el objeto que se requiere agarrar. La señal de refuerzo se utiliza por el algoritmo de aprendizaje para actualizar las conexiones sinápticas (W) en las proyecciones desde la capa visual/tareas (V) hacia la capa de detectores de características (F/G) y las conexiones sinápticas (W’) entre esta última capa y la capa de actuadotes, con el único objetivo de conseguir que el sistema completo reciba la señal de refuerzo máxima en sus acciones. Los ajustes en las conexiones sinápticas se realizan a través de un algoritmo Hebbiano / Anti – Hebbiano tal y como se detalla a continuación: Al sistema se le presenta una entrada concreta para la cual se computa un plan de agarre que posteriormente se ejecuta. Si el maestro emite una señal de refuerzo positivo, 217
Capitulo 5. Modelo Neuronal para el aprendizaje progresivo de tareas de Agarre el algoritmo debe asegurar que cuando al sistema se le presente en el futuro la misma entrada, éste produzca el mismo plan de agarre como salida. Esto se consigue mediante • Asegurándonos de que el mismo conjunto de detectores de características se active la próxima vez que se presente la misma entrada incrementando la fuerza de conexión entre las unidades activas en la capa V y los detectores de características G activos ante esa entrada. • Incrementando el apoyo activo que ejercen los detectores de características activos sobre los programas de agarre seleccionados mediante el aumento del valor de las conexiones sinápticas entre los detectores activos G y las unidades de salida C. Por otro lado supongamos que se produce una evaluación negativa del agarre (R < 0). Esto puede deberse tanto al hecho de que la selección de detectores ha sido errónea, o a que la selección misma del programa de agarre ha sido incorrecta. Ya que no conocemos en principio a que se debe esa evaluación negativa, asumiremos que se debe a ambos factores • Debemos reducir el valor de las conexiones sinápticas entre las unidades activadas por la entrada en V con los detectores de características activos (G) de manera que en el siguiente ensayo se de la oportunidad a otros detectores para activarse. • También debemos reducir el apoyo activo que los detectores activos ejercen sobre el plan de agarre seleccionado. Esto permitirá que en el siguiente ensayo con la misma entrada, se prueben distintas configuraciones de agarre. Estas reglas se pueden escribir como ecuaciones de actualización de pesos sinápticos ∆ W = α ⋅ R ⋅V ⋅G ⋅W ij i j ij ∆ W = α ⋅ R ⋅G ⋅C ⋅W ' ' jk j k jk donde ∆Wij e ∆Wjk son los cambios en las conexiones sinápticas, α es la tasa de aprendizaje y R es la señal de refuerzo. 218 (5.6)
- Page 169 and 170: Capitulo 4. Modelo Neuronal para la
- Page 171 and 172: Capitulo 4. Modelo Neuronal para la
- Page 173 and 174: Capitulo 4. Modelo Neuronal para la
- Page 175 and 176: Capitulo 4. Modelo Neuronal para la
- Page 177 and 178: Capitulo 4. Modelo Neuronal para la
- Page 179 and 180: Capitulo 4. Modelo Neuronal para la
- Page 181 and 182: Capitulo 4. Modelo Neuronal para la
- Page 183 and 184: Capitulo 4. Modelo Neuronal para la
- Page 185 and 186: Capitulo 4. Modelo Neuronal para la
- Page 187 and 188: Capitulo 4. Modelo Neuronal para la
- Page 189 and 190: Capitulo 4. Modelo Neuronal para la
- Page 191 and 192: Capitulo 4. Modelo Neuronal para la
- Page 193 and 194: Capitulo 4. Modelo Neuronal para la
- Page 195 and 196: Capitulo 4. Modelo Neuronal para la
- Page 197 and 198: Capitulo 4. Modelo Neuronal para la
- Page 199 and 200: Capitulo 4. Modelo Neuronal para la
- Page 201 and 202: Capitulo 4. Modelo Neuronal para la
- Page 203 and 204: Capitulo 4. Modelo Neuronal para la
- Page 205 and 206: Capitulo 4. Modelo Neuronal para la
- Page 207 and 208: Capitulo 4. Modelo Neuronal para la
- Page 209 and 210: Capitulo 4. Modelo Neuronal para la
- Page 211 and 212: Capitulo 5. Modelo Neuronal para el
- Page 213 and 214: Capitulo 5. Modelo Neuronal para el
- Page 215 and 216: Capitulo 5. Modelo Neuronal para el
- Page 217 and 218: Capitulo 5. Modelo Neuronal para el
- Page 219: Capitulo 5. Modelo Neuronal para el
- Page 223 and 224: Capitulo 5. Modelo Neuronal para el
- Page 225 and 226: Capitulo 5. Modelo Neuronal para el
- Page 227 and 228: Capitulo 5. Modelo Neuronal para el
- Page 229 and 230: Capitulo 5. Modelo Neuronal para el
- Page 231 and 232: Capitulo 5. Modelo Neuronal para el
- Page 233 and 234: Capitulo 5. Modelo Neuronal para el
- Page 235 and 236: Capitulo 5. Modelo Neuronal para el
- Page 237 and 238: Capitulo 5. Modelo Neuronal para el
- Page 239 and 240: Capitulo 5. Modelo Neuronal para el
- Page 241 and 242: Capitulo 5. Modelo Neuronal para el
- Page 243 and 244: Capitulo 5. Modelo Neuronal para el
- Page 245 and 246: Capitulo 5. Modelo Neuronal para el
- Page 247 and 248: Capitulo 5. Modelo Neuronal para el
- Page 249 and 250: 2.5 cm 3.0 cm 3.5 cm 2 cm Capitulo
- Page 251 and 252: Capitulo 5. Modelo Neuronal para el
- Page 253 and 254: Capitulo 5. Modelo Neuronal para el
- Page 255 and 256: Capitulo 5. Modelo Neuronal para el
- Page 257 and 258: Capitulo 5. Modelo Neuronal para el
- Page 259 and 260: Capitulo 5. Modelo Neuronal para el
- Page 261 and 262: Capitulo 5. Modelo Neuronal para el
- Page 263 and 264: Capitulo 5. Modelo Neuronal para el
- Page 265 and 266: R1 HYPBF # 1 HYPBF # 2 R2 AIP VD Mu
- Page 267 and 268: Capitulo 5. Modelo Neuronal para el
- Page 269 and 270: Capitulo 6. Implantación de algori
Capitulo 5. Mo<strong>de</strong>lo Neuronal para el aprendizaje progresivo <strong>de</strong> tareas <strong>de</strong> Agarre<br />
el algoritmo <strong>de</strong>be asegurar que cuando al sistema se le presente en el futuro la misma<br />
entrada, éste produzca el mismo plan <strong>de</strong> agarre como salida. Esto se consigue mediante<br />
• Asegurándonos <strong>de</strong> que el mismo conjunto <strong>de</strong> <strong>de</strong>tectores <strong>de</strong> características<br />
se active la próxima vez que se presente la misma entrada incrementando<br />
la fuerza <strong>de</strong> conexión entre las unida<strong>de</strong>s activas en la capa V y los<br />
<strong>de</strong>tectores <strong>de</strong> características G activos ante esa entrada.<br />
• Incrementando el apoyo activo que ejercen los <strong>de</strong>tectores <strong>de</strong> características<br />
activos sobre los programas <strong>de</strong> agarre seleccionados mediante el aumento<br />
<strong>de</strong>l valor <strong>de</strong> las conexiones sinápticas entre los <strong>de</strong>tectores activos G y las<br />
unida<strong>de</strong>s <strong>de</strong> salida C.<br />
Por otro lado supongamos que se produce una evaluación negativa <strong>de</strong>l agarre (R<br />
< 0). Esto pue<strong>de</strong> <strong>de</strong>berse tanto al hecho <strong>de</strong> que la selección <strong>de</strong> <strong>de</strong>tectores ha sido<br />
errónea, o a que la selección misma <strong>de</strong>l programa <strong>de</strong> agarre ha sido incorrecta. Ya que<br />
no conocemos en principio a que se <strong>de</strong>be esa evaluación negativa, asumiremos que se<br />
<strong>de</strong>be a ambos factores<br />
• Debemos reducir el valor <strong>de</strong> las conexiones sinápticas entre las unida<strong>de</strong>s<br />
activadas por la entrada en V con los <strong>de</strong>tectores <strong>de</strong> características activos<br />
(G) <strong>de</strong> manera que en el siguiente ensayo se <strong>de</strong> la oportunidad a otros<br />
<strong>de</strong>tectores para activarse.<br />
• También <strong>de</strong>bemos reducir el apoyo activo que los <strong>de</strong>tectores activos<br />
ejercen sobre el plan <strong>de</strong> agarre seleccionado. Esto permitirá que en el<br />
siguiente ensayo con la misma entrada, se prueben distintas<br />
configuraciones <strong>de</strong> agarre.<br />
Estas reglas se pue<strong>de</strong>n escribir como ecuaciones <strong>de</strong> actualización <strong>de</strong> pesos sinápticos<br />
∆ W = α ⋅ R ⋅V ⋅G ⋅W<br />
ij i j ij<br />
∆ W = α ⋅ R ⋅G ⋅C ⋅W<br />
' '<br />
jk j k jk<br />
don<strong>de</strong> ∆Wij e ∆Wjk son los cambios en las conexiones sinápticas, α es la tasa <strong>de</strong><br />
aprendizaje y R es la señal <strong>de</strong> refuerzo.<br />
218<br />
(5.6)