Seguimento do Corpo Humano com Modelo Articulados ... - deetc

Seguimento do Corpo Humano com Modelo Articulados ... - deetc Seguimento do Corpo Humano com Modelo Articulados ... - deetc

from deetc.isel.ipl.pt More from this publisher

13.04.2013 Views

Seguimento do Corpo Humano com Modelos Articulados Bidimensionais Rui M. Jesus 1 , Arnaldo J. Abrantes 1 e Jorge S. Marques 2 1 Instituto Superior de Engenharia de Lisboa, Rua Conselheiro Emídio Navarro, nº1, 1940-014 Lisboa, Portugal Telefone: 218317237, rmfj@isel.pt, aja@isel.pt. 2 Instituto de Sistemas e Robótica, Instituto Superior Técnico, Av. Rovisco Pais 1049-001 Lisboa, Portugal Telefone: 218418297, jsm@isr.ist.utl.pt Este trabalho tem como objectivo o seguimento dos movimentos de um corpo humano observado por uma câmara de vídeo. O seguimento do corpo humano é uma tarefa complexa devido à oclusão temporária de alguns segmentos do corpo durante o movimento, e à dificuldade em detectar com precisão pontos anatómicos na imagem sem usar marcas artificiais. Este artigo descreve um algoritmo de seguimento que evita a utilização destas marcas. O método proposto é baseado em três modelos: um modelo geométrico do corpo humano, um modelo de movimento que descreve a evolução dos parâmetros do modelo geométrico, e um modelo da aparência visual de cada segmento do corpo humano. O sistema proposto tem capacidade de aprender a partir de experiências anteriores e de melhorar o seu desempenho durante a operação de seguimento. Para ilustrar o desempenho do sistema de seguimento são apresentados resultados experimentais. 1. INTRODUÇÃO Por permitir a observação dos movimentos do corpo duma forma precisa e não invasiva, é cada vez mais frequente a utilização do vídeo no estudo do movimento humano. A análise do movimento do corpo humano envolve a estimação da configuração do corpo num número elevado de imagens, o que torna importante a automatização desta operação. Apesar dos progressos assinaláveis feitos nesse sentido, são ainda várias as dificuldades que têm impedido o desenvolvimento de um sistema completamente automático [2, 7, 9, 10]. Nomeadamente, i) não é fácil detectar, automaticamente, alguns pontos anatómicos na imagem, ii) durante o movimento, algumas partes do corpo humano deixam, temporariamente, de ser visíveis pela câmara, não podendo ser seguidas, iii) por vezes é difícil separar com precisão o corpo humano do fundo. Para ultrapassar estas dificuldades, alguns sistemas de seguimento usam marcas visuais coladas no corpo humano. O uso destas marcas torna a operação de seguimento mais fácil. No entanto, a utilização de marcas restringe a aplicação do sistema de seguimento a ambientes indoor [5]. Quando a utilização de marcas não é possível, a análise do corpo é realizada manualmente, através da inspecção visual de cada uma das imagens da sequência, usando um editor gráfico. Quando as sequências são longas, esta técnica torna-se excessivamente lenta e penosa.

Seguimento do Corpo Humano com Modelos Articulados

Bidimensionais

Rui M. Jesus 1 , Arnaldo J. Abrantes 1 e Jorge S. Marques 2

1 Instituto Superior de Engenharia de Lisboa, Rua Conselheiro Emídio Navarro, nº1, 1940-014 Lisboa, Portugal

Telefone: 218317237, rmfj@isel.pt, aja@isel.pt.

2 Instituto de Sistemas e Robótica, Instituto Superior Técnico, Av. Rovisco Pais 1049-001 Lisboa, Portugal

Telefone: 218418297, jsm@isr.ist.utl.pt

Este trabalho tem como objectivo o seguimento dos movimentos de um corpo humano observado por uma câmara de vídeo.

O seguimento do corpo humano é uma tarefa complexa devido à oclusão temporária de alguns segmentos do corpo durante

o movimento, e à dificuldade em detectar com precisão pontos anatómicos na imagem sem usar marcas artificiais. Este

artigo descreve um algoritmo de seguimento que evita a utilização destas marcas. O método proposto é baseado em três

modelos: um modelo geométrico do corpo humano, um modelo de movimento que descreve a evolução dos parâmetros do

modelo geométrico, e um modelo da aparência visual de cada segmento do corpo humano. O sistema proposto tem

capacidade de aprender a partir de experiências anteriores e de melhorar o seu desempenho durante a operação de

seguimento. Para ilustrar o desempenho do sistema de seguimento são apresentados resultados experimentais.

1. INTRODUÇÃO

Por permitir a observação dos movimentos do corpo duma forma precisa e não invasiva, é cada vez mais

frequente a utilização do vídeo no estudo do movimento humano. A análise do movimento do corpo humano

envolve a estimação da configuração do corpo num número elevado de imagens, o que torna importante a

automatização desta operação. Apesar dos progressos assinaláveis feitos nesse sentido, são ainda várias as

dificuldades que têm impedido o desenvolvimento de um sistema completamente automático [2, 7, 9, 10].

Nomeadamente, i) não é fácil detectar, automaticamente, alguns pontos anatómicos na imagem, ii) durante o

movimento, algumas partes do corpo humano deixam, temporariamente, de ser visíveis pela câmara, não

podendo ser seguidas, iii) por vezes é difícil separar com precisão o corpo humano do fundo. Para ultrapassar

estas dificuldades, alguns sistemas de seguimento usam marcas visuais coladas no corpo humano. O uso destas

marcas torna a operação de seguimento mais fácil. No entanto, a utilização de marcas restringe a aplicação do

sistema de seguimento a ambientes indoor [5]. Quando a utilização de marcas não é possível, a análise do corpo

é realizada manualmente, através da inspecção visual de cada uma das imagens da sequência, usando um editor

gráfico. Quando as sequências são longas, esta técnica torna-se excessivamente lenta e penosa.

Neste artigo descreve-se um sistema interactivo, semi-automático e com capacidade de aprendizagem, capaz de

reduzir o número de intervenções do operador humano. O sistema proposto pode ser considerado como um passo

intermédio entre o sistema manual, baseado no editor gráfico, e o sistema completamente automático que se

pretende ter no futuro. O artigo está organizado da seguinte forma: na secção 2 é apresentada uma descrição

geral do sistema de seguimento; a secção 3 descreve os modelos usados para representar o corpo humano numa

sequência de vídeo; na secção 4 é explicado o algoritmo de seguimento; a secção 5 descreve os métodos de

aprendizagem usados para melhorar o desempenho do algoritmo de seguimento; a secção 6 apresenta os

resultados experimentais e a secção 7 conclui o artigo.

2. DESCRIÇÃO DO SISTEMA

O sistema descrito neste artigo tem como objectivo seguir o movimento humano numa sequência de vídeo. Para

representar o corpo humano numa imagem é utilizado um modelo articulado. Este modelo depende de um

conjunto de parâmetros que são estimados através da análise de uma sequência de vídeo, usando técnicas de

reconhecimento de padrões. Para alcançar este objectivo, é proposto um sistema interactivo baseado em dois

blocos (ver figura 1). O primeiro bloco é um sistema automático de seguimento com capacidade de

aprendizagem. O seu desempenho aumenta à medida que se recolhe informação proveniente das imagens e do

operador. As estimativas obtidas são avaliadas pelo utilizador: validadas se estiverem correctas; ou modificadas

usando um editor gráfico se estiverem erradas.

Imagem

Sistema de seguimento

com capacidade de

aprendizagem

Operador

(detecta e corrige

erros de seguimento)

Figura 1. Sistema interactivo.

O seguimento automático é realizado da seguinte forma: primeiro, o sistema prediz a posição do corpo humano

na imagem seguinte usando o modelo geométrico do corpo e o modelo de movimento; em seguida, são

realizadas medições na imagem (por exemplo, para localizar a cabeça e as mãos) utilizando técnicas de análise

de imagem; finalmente, o modelo predito é actualizado usando a informação extraída da imagem. A informação

fornecida pelo utilizador é usada para melhorar o desempenho do sistema, em duas fases de aprendizagem:

• a primeira fase consiste em treinar o modelo de movimento usando os modelos articulados

estimados nas n

imagens anteriores.

• a segunda fase consiste em criar um dicionário de excepções, contendo as posições do corpo

humano para as quais o preditor automático falhou.

Em resultado destes mecanismos de aprendizagem, o número de intervenções do operador diminui à medida que

o sistema recolhe mais informação acerca do tipo de movimento que está a ser observado (ver figura 2).

1

0

Phase 1 Phase 2

0 10 20 30 40 50 60 70 80

Sequência de Imagens

Figura 2. Intervenções do utilizador nas duas fases de aprendizagem.

3. MODELO DO CORPO HUMANO

Este trabalho usa três tipos de modelos para descrever o movimento do corpo humano numa sequência de vídeo:

um modelo articulado que representa a geometria do corpo humano; um modelo de movimento que descreve a

evolução dos parâmetros do corpo humano; e um modelo de aparência visual que define as características visuais

que podem ser observadas na imagem. Estes modelos são descritos em seguida.

3.1 Modelo Articulado

O corpo humano é representado por um modelo articulado 2D, que descreve a forma do corpo no plano da

imagem. Assume-se que a direcção do movimento é paralela ao plano da imagem para que se possa considerar

que o comprimento dos segmentos (braços, pernas, etc) se mantém constante durante o intervalo de observação.

O modelo articulado usado neste artigo consiste em 12 segmentos, ligados por 12 articulações, para além de três

elementos adicionais: a cabeça e duas mãos (ver figura 3). Cada segmento do corpo humano é representado por

segmentos de recta de comprimento fixo.

Mão direita

Pescoço

Braço direito

Antebraço direito

Cabeça

Tronco

Coxa e

esquerda

Perna

esquerda

Braço esquerdo

Antebraço esquerdo

Mão esquerda

Coxa

direita

Perna

direita

- Junta

Figura 3. Modelo articulado.

O modelo proposto é semelhante aos modelos usados na robótica para descrever os manipuladores robóticos [4].

Na robótica, a posição de cada segmento é caracterizado por um ângulo de rotação medido em relação ao

segmento anterior de uma cadeia cinemática (conjunto de segmentos ligados). Este modelo é no entanto

restritivo para representar o corpo humano. Por isso, considerou-se que entre dois segmentos consecutivos pode

existir uma translação, cujo objectivo é compensar pequenos desvios do segmento em relação ao centro de

rotação [8]. Para manter o comprimento dos vectores de translação pequenos, usaram-se molas elásticas para os

modelar. Assim, cada articulação é caracterizada por uma rotação e uma translação; isto significa que cada

segmento tem três graus de liberdade. Para representar o corpo humano foram consideradas quatro cadeias

cinemáticas: o pescoço, os ombros, os braços (direito/esquerdo) e os antebraços (direito/esquerdo) definem duas

cadeias cinemáticas, enquanto que o pescoço, os ombros, o tronco, as ancas, as coxas (direita/esquerda) e as

pernas (direita/esquerda) definem as outras duas cadeias (ver figura 3).

As coordenadas de um ponto Pj , no segmento j de uma cadeia cinemática, são dadas por [4],

0 j−1

( T T j ) Pj

P = ⋅

0 1...

(1)

⎡− s⎤

P

⎢ ⎥

j =

⎢

0 , (2)

⎥

⎢⎣

1 ⎥⎦

onde ∈[0,

] é um escalar que define a posição do no segmento , L é comprimento do segmento, e

s L j

P j j

j −1

Tj ⎡cosθ − senθ

=

⎢

senθ

⎢⎣

0

cosθ

0

u⎤

v

⎥

, (3)

⎥

1⎥⎦

é a matriz que define a transformação geométrica das coordenadas homogéneas de um ponto em dois

referenciais diferentes, sendo θ o ângulo de rotação e [ ] T

u v o vector de translação associado à mola.

c , ,

O modelo articulado depende dos seguintes parâmetros: as coordenadas do centro da cabeça na imagem ( )

os ângulos das articulações ( θ 1 ,..., θ N ) , e os vectores de deslocamento ( N N ) v u v u , ,..., , 1 1

dos segmentos do modelo.

3.2 MODELO DE MOVIMENTO

x cy

, sendo N=12, o número

A evolução dos parâmetros durante o intervalo de observação é descrita por um modelo estocástico [6],

x = Ax −1 + w , (4)

k

[ ] T

k

onde x = c c θ ... θ & θ ... & θ u v ... u v é o vector de estado que contém todos

k x y 1 N 1 N 1 1 N N

os parâmetros desconhecidos e algumas das suas derivadas, a matriz A caracteriza o tipo de movimento, e wk

um vector aleatório com distribuição gaussiana N ( , Q)

0 . A matriz A pode ser especificada pelo utilizador ou

estimada a partir das imagens anteriores, usando algoritmos de treino descritos na secção 5.

3.3 MODELO VISUAL DE CADA SEGMENTO

O modelo visual é usado para detectar os segmentos do corpo na imagem sem usar marcas artificiais. A cabeça e

as mãos são caracterizadas por pequenas imagens a cores (templates) que são definidas na primeira imagem da

sequência de vídeo. Todos os outros segmentos são caracterizados por um conjunto de perfis de intensidade que

são definidos em rectas perpendiculares aos segmentos. São usados métodos de reconhecimento de padrões para

estimar a localização das templates 2D na imagem e para detectar as transições entre o fundo e os segmentos [8].

4. ALGORITMO DE SEGUIMENTO

A operação de seguimento envolve a estimação dos parâmetros do modelo em cada imagem da sequência de

vídeo. O método de seguimento usado neste trabalho é baseado no filtro de Kalman estendido [3]. Este método

funde a informação a priori (geométrica e dinâmica) com a informação obtida a partir da análise da sequência de

imagens (detecção de transições de cor) para estimar os parâmetros do modelo em cada imagem. A estimação

dos parâmetros é realizada em três passos:

• predição: neste passo estimam-se os parâmetros do modelo articulado na imagem seguinte usando o

modelo estimado actual.

• detecção de características: um conjunto de características visuais são obtidas através de métodos

de reconhecimento de padrões descritos atrás.

• filtragem: este passo actualiza a estimativa do modelo usando as características visuais detectadas na

imagem actual.

Os passos da filtragem e da predição são realizados pelo filtro de Kalman estendido que actualiza a distribuição

a posteriori do vector de estado ( ˆk

, k ) . O passo da predição é dado por [3],

C x N

−

x ˆ ˆ

k = A ⋅ xk

−1,

(5)

C

−

k

T

= A⋅

C −1

⋅ A + Q , (6)

k

−

onde xˆ é o vector de estado predito no instante k , C é a matriz de covariância associada a , e C é a

k

matriz de covariância do estado estimado no instante

k

( ~ ~ −

z − H ⋅ x )

−

k = xk

+ K k ⋅ k k k

k −1.

O passo da filtragem é dado por,

xˆ ˆ

ˆ , (7)

C

~ −

( I − K ⋅ H ) ⋅C

k = k k k

, (8)

xk k−1

onde ~

z k é o vector de observações, k

obtido da seguinte forma,

H~ é a matriz de observação, e K é o ganho de Kalman que é

( ) 1 ~ ~ − T

H ⋅C

⋅ H +

− ~ T

−

K k = Ck

⋅ H k ⋅ k k k R , (9)

e R é a matriz de covariância do ruído de medição (detalhes podem ser encontrados em [3]).

A predição tem um papel fundamental porque permite uma primeira estimativa do modelo na imagem. Esta

estimativa tem um papel crucial na obtenção de boas características visuais. Quando a predição falha, são

detectadas características que provocam erros de estimação geralmente irreparáveis.

5. MÉTODOS DE APRENDIZAGEM

Neste trabalho, consideram-se duas fases de aprendizagem. A primeira fase é usada para estimar a matriz A .

Adaptando esta matriz ao tipo de movimento que está a ser observado, consegue-se obter melhores resultados de

predição. A matriz A é inicialmente definida pelo utilizador na primeira iteração baseada em hipóteses pouco

amadurecidas sobre o tipo de movimento que se está a analisar. Como as estimativas, nesta fase, são em geral

fracas, o utilizador tem de corrigir os resultados do seguidor automático mais vezes (ver figura 2). Ao fim de 3 a

4 segundos (dependendo do tipo de movimento) a matriz A é actualizada por uma estimativa obtida pelo

método de mínimos quadrados, melhorando-se o passo de predição. Apesar desta primeira fase de aprendizagem

melhorar a predição, este modelo não consegue lidar com movimentos imprevistos (os que não podem ser

descritos por um modelo de movimento linear). A segunda fase de aprendizagem tem como objectivo a

resolução deste problema. Nesta fase, é criado um dicionário de excepções com todas as configurações do

modelo em que o preditor falha. Cada entrada consiste num par de vectores de estado ( x k−

1,

xk

) definindo a

configuração do modelo em duas imagens consecutivas. Quando o seguidor automático erra, o operador corrige

o modelo, e esta informação é armazenada no dicionário.

Sempre que uma das configurações xk

−1

ocorre durante o seguimento, o dicionário é automaticamente

consultado. Nesse caso, dois modelos preditos são usados: o modelo obtido pelo dicionário e o modelo obtido

pela equação (5). Os resultados obtidos pelos dois preditores são automaticamente comparados e escolhido o

melhor. Esta estratégia permite uma redução significativa do número de intervenções do operador.

6. Resultados experimentais

O sistema de seguimento proposto neste artigo foi aplicado a 4 sequências de vídeo que correspondem a

diferentes actividades (andar, andar de bicicleta, escrever num quadro, correr) [8]. As primeiras três foram

obtidas com uma câmara analógica e digitalizadas a um ritmo de 13 imagens por segundo. A última sequência

foi obtida com uma câmara digital a cores, a um ritmo de 25 imagens por segundo. O sistema automático

apresenta um bom desempenho nas três primeiras sequências, sem necessitar de recorrer à segunda fase de

aprendizagem. O dicionário de excepções foi necessário apenas na ultima sequência (correr). A figura 4 mostra

seis imagens consecutivas dessa sequência com os resultados do seguimento obtidos com o sistema interactivo

proposto neste artigo. A sequência tem 200 imagens, tendo sido apenas 9 corrigidas manualmente. Realce-se que

esta sequência apresenta um elevado número de oclusões e que, para além disso, o fundo não é estático nem

homogéneo. O algoritmo de seguimento ultrapassa, na maioria das vezes, com sucesso estas dificuldades.

Figura 4. Resultados do seguimento - corrida (seis imagens consecutivas).

a) b)

c) d)

Figura 5. Evolução dos parâmetros: a) braço direito; b) braço esquerdo; c) coxa direita; d) coxa esquerda.

A figura 5 mostra a evolução dos ângulos de rotação dos braços medidos em relação ao pescoço e os ângulos de

rotação das coxas medidos em relação ao tronco. Como era esperado a evolução é periódica. Os dois braços

estão em oposição de fase assim como as duas coxas. O braço esquerdo e a coxa direita estão em fase assim

como o braço direito e a coxa esquerda.

7. Conclusões

Este artigo descreve um sistema semi-automático para seguir o corpo humano sem usar marcas artificiais. O

sistema tem capacidade de aprendizagem porque o desempenho do seguidor aumenta durante cada experiência.

Cada vez que o utilizador corrige o modelo estimado pelo seguidor, o modelo corrigido é armazenado num

dicionário e é usado de forma automática para corrigir casos semelhantes no futuro.

As principais dificuldades do seguidor automático estão relacionadas com os movimentos imprevistos e com a

presença de fundo não uniforme que varia ao longo do tempo. O sistema é no entanto capaz de ultrapassar estas

dificuldades na maioria das vezes como se mostra nas experiências descritas neste artigo.

Referências

[1] A. Blake e M. Isard, “Active Contours: The Application of Techniques from Graphics, Vision, Control

Theory and Statistics to Visual Tracking of Shapes in Motion”, Springer-Verlag London, 1998.

[2] C. Bregler e J. Malik, “Tracking People with Twists and Exponential Maps”, in Proc. IEEE Computer Vision

and Pattern Recognition, Santa Barbara, 1998.

[3] R. Brown e P. Hwang, “Introduction Random Signals And Applied Kalman Filtering”, Wiley & Sons, 1992.

[4] J. Craig, “Introduction to Robotics Mechanics and Control”, Addison-Wesley, 1955.

[5] D. Gavrila, “The Visual Analysis of Human Movement: A Survey”, in Computer Vision and Image

Understanding, vol.73, no.1, pp.82-98, 1999.

[6] A. Gelb, “Applied Optimal Estimation”, MIT press, Cambridge, Mass, 1974.

[7] D. Hogg. “Model Based Vision: A Program to See a Walking Person”. Image and Vision Computing, 1(1):

5-20, 1983.

[8] R. Jesus. “Seguimento do corpo humano com modelos articulados bidimensionais”, Tese de mestrado, IST,

Novembro, 2001.

[9] I. Kakadiaris e D. Metaxas, “Three-Dimensional Human Body Model Acquisition from Multiple Views”,

Internacional Journal of Computer Vision 30(3), 191-218, 1998.

[10] H. Sidenblabh, M. Black, e D. Fleet, “Stochastic Tracking of 3D Human Figures Using 2D Image motion”,

European Conf. on Computer Vision, 2000.

Seguimento do Corpo Humano com Modelo Articulados ... - deetc

Seguimento do Corpo Humano com Modelo Articulados ... - deetc ... View more Seguimento do Corpo Humano com Modelo Articulados ... - deetc

Delete template?

Save as template ?

Seguimento do Corpo Humano com Modelo Articulados ... - deetc Seguimento do Corpo Humano com Modelo Articulados ... - deetc