Universidad Politécnica de Cartagena TESIS DOCTORAL “UNA ...

Universidad Politécnica de Cartagena TESIS DOCTORAL “UNA ... Universidad Politécnica de Cartagena TESIS DOCTORAL “UNA ...

repositorio.bib.upct.es
from repositorio.bib.upct.es More from this publisher
24.01.2013 Views

Capitulo 5. Modelo Neuronal para el aprendizaje progresivo de tareas de Agarre * ⎡ ⎤ 2 ( ) ∂H f N ∆ c = − ω ⎣ ⎦ = −2ω ∆ G x − t α i i α W ∂cα i= 1 2 T ( ) ( ) W * ∂H ⎡ f N ' α ω ⎣ ⎤ ⎦ 4ω α∑ i i α i α ∂tα i= 1 ∆ t = − = c ∆ G x − t ⋅W W x − t * ⎡ ⎤ ∑ 225 2 ( )( )( ) W ∂H f ∆ W = − ω ⎣ ∂W α = 1,..., n ⎦ = −4ωW c ∆ G x − t x − t x − t n N ∑ α ∑ i ' i α i α i α T α = 1 i= 1 donde ω es el parámetro de aprendizaje y G’ es la primera derivada de G. Interpretación de la red HYPBF (5.12) La interpretación de la red neuronal de la Figura 5.5 es la que sigue. Tras el aprendizaje los centros de las neuronas de la capa oculta o funciones de base se asimilan a puntos prototipo en el espacio multidimensional de entrada. Cada neurona computa una distancia (ponderada por la matriz W) entre la entrada x y su centro, que resulta ser una medida de su similitud y al resultado de esa medida de similitud o ‘matching’ se le aplica una función radial. En el caso de las funciones Gaussianas, una neurona poseerá un máximo en su actividad cuando la entrada se corresponda completamente con su centro. La salida de la red está formada por la combinación lineal de las actividades de todas las neuronas. Durante el aprendizaje los pesos cα, los centros tα y los pesos de la norma W se actualizan según las ecuaciones (5.12). El ‘movimiento’ de los centros durante el aprendizaje se corresponde a un proceso de clusterización de los datos de entrada. La búsqueda de los valores óptimos de W consiste en una operación de escalado de las coordenadas de entrada y se corresponde con un proceso de reducción de la dimensionalidad del problema dependiente de la tarea. 3.2 Módulo de Alcance. Aprendizaje de la Cinemática Inversa del brazo manipulador. A la hora de implementar el aprendizaje del efecto visual que produce un comando motor instanciado en un brazo antropomorfo con 3 GDL en el hombro y 1 GDL en el codo (ver Apéndice Capítulo 5) y por ende, aprender la cinemática inversa del brazo, se ha empleado una versión del modelo DIRECT que será descrita en los párrafos siguientes. Esta red aprende el mapa direccional que aparece en la Figura 5.6

Capitulo 5. Modelo Neuronal para el aprendizaje progresivo de tareas de Agarre Figura 5.6. Esquema de aprendizaje y funcionamiento del resolutor de cinemática inversa basado en el aprendizaje del sistema neuronal DIRECT que actúa como mapa direccional. El mapa direccional entre el espacio extrapersonal 3D y el espacio de articulaciones del brazo, se aprende empleando una forma de Red Neuronal de Regularización HYPBF denominada red de bases radiales hiperplanas (HRBF, Poggio y Girosi, 1989; Stokbro y col, 1990) (Figura 5.7). Las direcciones espaciales ∆x en el espacio cartesiano 3D se mapean en incrementos articulares ∆θ de un brazo con 4 GDL a través de la aproximación discreta dada por la ecuación, ( ) ∆ θ = A θ ⋅ ∆ x (5.13) donde A(θ) es una matriz 4 x 3. Cada entrada aij(θ) de A(θ) está representada por una red HRBF. Cada función de base radial hiperplana tiene asociado un peso, w, que indica la magnitud de los datos ‘bajo su campo receptivo’, y una serie de pesos, z, que permiten aproximar linealmente la pendiente de los datos ‘bajo su campo receptivo’. La salida de la red aij(θ) viene dada por: ⎛ ⎞ gijk ( θ ) ⎛ ⎞ aij ( θ ) = ⎜ ⎟ ∑⎜ wijk cijkm zijkm k gijl ( θ ⎜ + ⎟ ) ⎟ ∑ ⎜ ∑ ⎟⎝ m ⎠ ⎝ l ⎠ 226 (5.14) donde k es el índice que nombra a la k-ésima función de base radial, cijk es un vector que mide la distancia entre el patrón de entrada θ y el centro de la k-ésima función de base en la red y gijk(θ) es la activación gaussiana de la neurona k-ésima.

Capitulo 5. Mo<strong>de</strong>lo Neuronal para el aprendizaje progresivo <strong>de</strong> tareas <strong>de</strong> Agarre<br />

*<br />

⎡ ⎤<br />

2<br />

( )<br />

∂H f<br />

N<br />

∆ c = − ω<br />

⎣ ⎦<br />

= −2ω ∆ G x − t<br />

α i i α W<br />

∂cα<br />

i=<br />

1<br />

2 T<br />

( ) ( )<br />

W<br />

*<br />

∂H ⎡ f<br />

N<br />

'<br />

α ω<br />

⎣<br />

⎤<br />

⎦<br />

4ω<br />

α∑ i i α i α<br />

∂tα<br />

i=<br />

1<br />

∆ t = − = c ∆ G x − t ⋅W W x − t<br />

*<br />

⎡ ⎤<br />

∑<br />

225<br />

2<br />

( )( )( )<br />

W<br />

∂H f<br />

∆ W = − ω<br />

⎣<br />

∂W<br />

α = 1,..., n<br />

⎦<br />

= −4ωW c ∆ G x − t x − t x − t<br />

n N<br />

∑ α ∑ i<br />

'<br />

i α i α i α<br />

T<br />

α = 1 i=<br />

1<br />

don<strong>de</strong> ω es el parámetro <strong>de</strong> aprendizaje y G’ es la primera <strong>de</strong>rivada <strong>de</strong> G.<br />

Interpretación <strong>de</strong> la red HYPBF<br />

(5.12)<br />

La interpretación <strong>de</strong> la red neuronal <strong>de</strong> la Figura 5.5 es la que sigue. Tras el<br />

aprendizaje los centros <strong>de</strong> las neuronas <strong>de</strong> la capa oculta o funciones <strong>de</strong> base se asimilan<br />

a puntos prototipo en el espacio multidimensional <strong>de</strong> entrada. Cada neurona computa<br />

una distancia (pon<strong>de</strong>rada por la matriz W) entre la entrada x y su centro, que resulta ser<br />

una medida <strong>de</strong> su similitud y al resultado <strong>de</strong> esa medida <strong>de</strong> similitud o ‘matching’ se le<br />

aplica una función radial. En el caso <strong>de</strong> las funciones Gaussianas, una neurona poseerá<br />

un máximo en su actividad cuando la entrada se corresponda completamente con su<br />

centro. La salida <strong>de</strong> la red está formada por la combinación lineal <strong>de</strong> las activida<strong>de</strong>s <strong>de</strong><br />

todas las neuronas. Durante el aprendizaje los pesos cα, los centros tα y los pesos <strong>de</strong> la<br />

norma W se actualizan según las ecuaciones (5.12). El ‘movimiento’ <strong>de</strong> los centros<br />

durante el aprendizaje se correspon<strong>de</strong> a un proceso <strong>de</strong> clusterización <strong>de</strong> los datos <strong>de</strong><br />

entrada. La búsqueda <strong>de</strong> los valores óptimos <strong>de</strong> W consiste en una operación <strong>de</strong><br />

escalado <strong>de</strong> las coor<strong>de</strong>nadas <strong>de</strong> entrada y se correspon<strong>de</strong> con un proceso <strong>de</strong> reducción<br />

<strong>de</strong> la dimensionalidad <strong>de</strong>l problema <strong>de</strong>pendiente <strong>de</strong> la tarea.<br />

3.2 Módulo <strong>de</strong> Alcance. Aprendizaje <strong>de</strong> la Cinemática Inversa <strong>de</strong>l brazo manipulador.<br />

A la hora <strong>de</strong> implementar el aprendizaje <strong>de</strong>l efecto visual que produce un<br />

comando motor instanciado en un brazo antropomorfo con 3 GDL en el hombro y 1<br />

GDL en el codo (ver Apéndice Capítulo 5) y por en<strong>de</strong>, apren<strong>de</strong>r la cinemática inversa<br />

<strong>de</strong>l brazo, se ha empleado una versión <strong>de</strong>l mo<strong>de</strong>lo DIRECT que será <strong>de</strong>scrita en los<br />

párrafos siguientes. Esta red apren<strong>de</strong> el mapa direccional que aparece en la Figura 5.6

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!