Seguimento do Corpo Humano com Modelo Articulados ... - deetc
Seguimento do Corpo Humano com Modelo Articulados ... - deetc Seguimento do Corpo Humano com Modelo Articulados ... - deetc
Seguimento do Corpo Humano com Modelos Articulados Bidimensionais Rui M. Jesus 1 , Arnaldo J. Abrantes 1 e Jorge S. Marques 2 1 Instituto Superior de Engenharia de Lisboa, Rua Conselheiro Emídio Navarro, nº1, 1940-014 Lisboa, Portugal Telefone: 218317237, rmfj@isel.pt, aja@isel.pt. 2 Instituto de Sistemas e Robótica, Instituto Superior Técnico, Av. Rovisco Pais 1049-001 Lisboa, Portugal Telefone: 218418297, jsm@isr.ist.utl.pt Este trabalho tem como objectivo o seguimento dos movimentos de um corpo humano observado por uma câmara de vídeo. O seguimento do corpo humano é uma tarefa complexa devido à oclusão temporária de alguns segmentos do corpo durante o movimento, e à dificuldade em detectar com precisão pontos anatómicos na imagem sem usar marcas artificiais. Este artigo descreve um algoritmo de seguimento que evita a utilização destas marcas. O método proposto é baseado em três modelos: um modelo geométrico do corpo humano, um modelo de movimento que descreve a evolução dos parâmetros do modelo geométrico, e um modelo da aparência visual de cada segmento do corpo humano. O sistema proposto tem capacidade de aprender a partir de experiências anteriores e de melhorar o seu desempenho durante a operação de seguimento. Para ilustrar o desempenho do sistema de seguimento são apresentados resultados experimentais. 1. INTRODUÇÃO Por permitir a observação dos movimentos do corpo duma forma precisa e não invasiva, é cada vez mais frequente a utilização do vídeo no estudo do movimento humano. A análise do movimento do corpo humano envolve a estimação da configuração do corpo num número elevado de imagens, o que torna importante a automatização desta operação. Apesar dos progressos assinaláveis feitos nesse sentido, são ainda várias as dificuldades que têm impedido o desenvolvimento de um sistema completamente automático [2, 7, 9, 10]. Nomeadamente, i) não é fácil detectar, automaticamente, alguns pontos anatómicos na imagem, ii) durante o movimento, algumas partes do corpo humano deixam, temporariamente, de ser visíveis pela câmara, não podendo ser seguidas, iii) por vezes é difícil separar com precisão o corpo humano do fundo. Para ultrapassar estas dificuldades, alguns sistemas de seguimento usam marcas visuais coladas no corpo humano. O uso destas marcas torna a operação de seguimento mais fácil. No entanto, a utilização de marcas restringe a aplicação do sistema de seguimento a ambientes indoor [5]. Quando a utilização de marcas não é possível, a análise do corpo é realizada manualmente, através da inspecção visual de cada uma das imagens da sequência, usando um editor gráfico. Quando as sequências são longas, esta técnica torna-se excessivamente lenta e penosa.
- Page 2 and 3: Neste artigo descreve-se um sistema
- Page 4 and 5: segmento anterior de uma cadeia cin
- Page 6 and 7: onde ~ z k é o vector de observaç
- Page 8: A figura 5 mostra a evolução dos
<strong>Seguimento</strong> <strong>do</strong> <strong>Corpo</strong> <strong>Humano</strong> <strong>com</strong> <strong>Modelo</strong>s Articula<strong>do</strong>s<br />
Bidimensionais<br />
Rui M. Jesus 1 , Arnal<strong>do</strong> J. Abrantes 1 e Jorge S. Marques 2<br />
1 Instituto Superior de Engenharia de Lisboa, Rua Conselheiro Emídio Navarro, nº1, 1940-014 Lisboa, Portugal<br />
Telefone: 218317237, rmfj@isel.pt, aja@isel.pt.<br />
2 Instituto de Sistemas e Robótica, Instituto Superior Técnico, Av. Rovisco Pais 1049-001 Lisboa, Portugal<br />
Telefone: 218418297, jsm@isr.ist.utl.pt<br />
Este trabalho tem <strong>com</strong>o objectivo o seguimento <strong>do</strong>s movimentos de um corpo humano observa<strong>do</strong> por uma câmara de vídeo.<br />
O seguimento <strong>do</strong> corpo humano é uma tarefa <strong>com</strong>plexa devi<strong>do</strong> à oclusão temporária de alguns segmentos <strong>do</strong> corpo durante<br />
o movimento, e à dificuldade em detectar <strong>com</strong> precisão pontos anatómicos na imagem sem usar marcas artificiais. Este<br />
artigo descreve um algoritmo de seguimento que evita a utilização destas marcas. O méto<strong>do</strong> proposto é basea<strong>do</strong> em três<br />
modelos: um modelo geométrico <strong>do</strong> corpo humano, um modelo de movimento que descreve a evolução <strong>do</strong>s parâmetros <strong>do</strong><br />
modelo geométrico, e um modelo da aparência visual de cada segmento <strong>do</strong> corpo humano. O sistema proposto tem<br />
capacidade de aprender a partir de experiências anteriores e de melhorar o seu desempenho durante a operação de<br />
seguimento. Para ilustrar o desempenho <strong>do</strong> sistema de seguimento são apresenta<strong>do</strong>s resulta<strong>do</strong>s experimentais.<br />
1. INTRODUÇÃO<br />
Por permitir a observação <strong>do</strong>s movimentos <strong>do</strong> corpo duma forma precisa e não invasiva, é cada vez mais<br />
frequente a utilização <strong>do</strong> vídeo no estu<strong>do</strong> <strong>do</strong> movimento humano. A análise <strong>do</strong> movimento <strong>do</strong> corpo humano<br />
envolve a estimação da configuração <strong>do</strong> corpo num número eleva<strong>do</strong> de imagens, o que torna importante a<br />
automatização desta operação. Apesar <strong>do</strong>s progressos assinaláveis feitos nesse senti<strong>do</strong>, são ainda várias as<br />
dificuldades que têm impedi<strong>do</strong> o desenvolvimento de um sistema <strong>com</strong>pletamente automático [2, 7, 9, 10].<br />
Nomeadamente, i) não é fácil detectar, automaticamente, alguns pontos anatómicos na imagem, ii) durante o<br />
movimento, algumas partes <strong>do</strong> corpo humano deixam, temporariamente, de ser visíveis pela câmara, não<br />
poden<strong>do</strong> ser seguidas, iii) por vezes é difícil separar <strong>com</strong> precisão o corpo humano <strong>do</strong> fun<strong>do</strong>. Para ultrapassar<br />
estas dificuldades, alguns sistemas de seguimento usam marcas visuais coladas no corpo humano. O uso destas<br />
marcas torna a operação de seguimento mais fácil. No entanto, a utilização de marcas restringe a aplicação <strong>do</strong><br />
sistema de seguimento a ambientes in<strong>do</strong>or [5]. Quan<strong>do</strong> a utilização de marcas não é possível, a análise <strong>do</strong> corpo<br />
é realizada manualmente, através da inspecção visual de cada uma das imagens da sequência, usan<strong>do</strong> um editor<br />
gráfico. Quan<strong>do</strong> as sequências são longas, esta técnica torna-se excessivamente lenta e penosa.
Neste artigo descreve-se um sistema interactivo, semi-automático e <strong>com</strong> capacidade de aprendizagem, capaz de<br />
reduzir o número de intervenções <strong>do</strong> opera<strong>do</strong>r humano. O sistema proposto pode ser considera<strong>do</strong> <strong>com</strong>o um passo<br />
intermédio entre o sistema manual, basea<strong>do</strong> no editor gráfico, e o sistema <strong>com</strong>pletamente automático que se<br />
pretende ter no futuro. O artigo está organiza<strong>do</strong> da seguinte forma: na secção 2 é apresentada uma descrição<br />
geral <strong>do</strong> sistema de seguimento; a secção 3 descreve os modelos usa<strong>do</strong>s para representar o corpo humano numa<br />
sequência de vídeo; na secção 4 é explica<strong>do</strong> o algoritmo de seguimento; a secção 5 descreve os méto<strong>do</strong>s de<br />
aprendizagem usa<strong>do</strong>s para melhorar o desempenho <strong>do</strong> algoritmo de seguimento; a secção 6 apresenta os<br />
resulta<strong>do</strong>s experimentais e a secção 7 conclui o artigo.<br />
2. DESCRIÇÃO DO SISTEMA<br />
O sistema descrito neste artigo tem <strong>com</strong>o objectivo seguir o movimento humano numa sequência de vídeo. Para<br />
representar o corpo humano numa imagem é utiliza<strong>do</strong> um modelo articula<strong>do</strong>. Este modelo depende de um<br />
conjunto de parâmetros que são estima<strong>do</strong>s através da análise de uma sequência de vídeo, usan<strong>do</strong> técnicas de<br />
reconhecimento de padrões. Para alcançar este objectivo, é proposto um sistema interactivo basea<strong>do</strong> em <strong>do</strong>is<br />
blocos (ver figura 1). O primeiro bloco é um sistema automático de seguimento <strong>com</strong> capacidade de<br />
aprendizagem. O seu desempenho aumenta à medida que se recolhe informação proveniente das imagens e <strong>do</strong><br />
opera<strong>do</strong>r. As estimativas obtidas são avaliadas pelo utiliza<strong>do</strong>r: validadas se estiverem correctas; ou modificadas<br />
usan<strong>do</strong> um editor gráfico se estiverem erradas.<br />
Imagem<br />
Sistema de seguimento<br />
<strong>com</strong> capacidade de<br />
aprendizagem<br />
Opera<strong>do</strong>r<br />
(detecta e corrige<br />
erros de seguimento)<br />
Figura 1. Sistema interactivo.<br />
O seguimento automático é realiza<strong>do</strong> da seguinte forma: primeiro, o sistema prediz a posição <strong>do</strong> corpo humano<br />
na imagem seguinte usan<strong>do</strong> o modelo geométrico <strong>do</strong> corpo e o modelo de movimento; em seguida, são<br />
realizadas medições na imagem (por exemplo, para localizar a cabeça e as mãos) utilizan<strong>do</strong> técnicas de análise<br />
de imagem; finalmente, o modelo predito é actualiza<strong>do</strong> usan<strong>do</strong> a informação extraída da imagem. A informação<br />
fornecida pelo utiliza<strong>do</strong>r é usada para melhorar o desempenho <strong>do</strong> sistema, em duas fases de aprendizagem:<br />
• a primeira fase consiste em treinar o modelo de movimento usan<strong>do</strong> os modelos articula<strong>do</strong>s<br />
estima<strong>do</strong>s nas n<br />
imagens anteriores.
• a segunda fase consiste em criar um dicionário de excepções, conten<strong>do</strong> as posições <strong>do</strong> corpo<br />
humano para as quais o preditor automático falhou.<br />
Em resulta<strong>do</strong> destes mecanismos de aprendizagem, o número de intervenções <strong>do</strong> opera<strong>do</strong>r diminui à medida que<br />
o sistema recolhe mais informação acerca <strong>do</strong> tipo de movimento que está a ser observa<strong>do</strong> (ver figura 2).<br />
1<br />
0<br />
Phase 1 Phase 2<br />
0 10 20 30 40 50 60 70 80<br />
Sequência de Imagens<br />
Figura 2. Intervenções <strong>do</strong> utiliza<strong>do</strong>r nas duas fases de aprendizagem.<br />
3. MODELO DO CORPO HUMANO<br />
Este trabalho usa três tipos de modelos para descrever o movimento <strong>do</strong> corpo humano numa sequência de vídeo:<br />
um modelo articula<strong>do</strong> que representa a geometria <strong>do</strong> corpo humano; um modelo de movimento que descreve a<br />
evolução <strong>do</strong>s parâmetros <strong>do</strong> corpo humano; e um modelo de aparência visual que define as características visuais<br />
que podem ser observadas na imagem. Estes modelos são descritos em seguida.<br />
3.1 <strong>Modelo</strong> Articula<strong>do</strong><br />
O corpo humano é representa<strong>do</strong> por um modelo articula<strong>do</strong> 2D, que descreve a forma <strong>do</strong> corpo no plano da<br />
imagem. Assume-se que a direcção <strong>do</strong> movimento é paralela ao plano da imagem para que se possa considerar<br />
que o <strong>com</strong>primento <strong>do</strong>s segmentos (braços, pernas, etc) se mantém constante durante o intervalo de observação.<br />
O modelo articula<strong>do</strong> usa<strong>do</strong> neste artigo consiste em 12 segmentos, liga<strong>do</strong>s por 12 articulações, para além de três<br />
elementos adicionais: a cabeça e duas mãos (ver figura 3). Cada segmento <strong>do</strong> corpo humano é representa<strong>do</strong> por<br />
segmentos de recta de <strong>com</strong>primento fixo.<br />
Mão direita<br />
Pescoço<br />
Braço direito<br />
Antebraço direito<br />
Cabeça<br />
Tronco<br />
Coxa e<br />
esquerda<br />
Perna<br />
esquerda<br />
Braço esquer<strong>do</strong><br />
Antebraço esquer<strong>do</strong><br />
Mão esquerda<br />
Coxa<br />
direita<br />
Perna<br />
direita<br />
- Junta<br />
Figura 3. <strong>Modelo</strong> articula<strong>do</strong>.<br />
O modelo proposto é semelhante aos modelos usa<strong>do</strong>s na robótica para descrever os manipula<strong>do</strong>res robóticos [4].<br />
Na robótica, a posição de cada segmento é caracteriza<strong>do</strong> por um ângulo de rotação medi<strong>do</strong> em relação ao
segmento anterior de uma cadeia cinemática (conjunto de segmentos liga<strong>do</strong>s). Este modelo é no entanto<br />
restritivo para representar o corpo humano. Por isso, considerou-se que entre <strong>do</strong>is segmentos consecutivos pode<br />
existir uma translação, cujo objectivo é <strong>com</strong>pensar pequenos desvios <strong>do</strong> segmento em relação ao centro de<br />
rotação [8]. Para manter o <strong>com</strong>primento <strong>do</strong>s vectores de translação pequenos, usaram-se molas elásticas para os<br />
modelar. Assim, cada articulação é caracterizada por uma rotação e uma translação; isto significa que cada<br />
segmento tem três graus de liberdade. Para representar o corpo humano foram consideradas quatro cadeias<br />
cinemáticas: o pescoço, os ombros, os braços (direito/esquer<strong>do</strong>) e os antebraços (direito/esquer<strong>do</strong>) definem duas<br />
cadeias cinemáticas, enquanto que o pescoço, os ombros, o tronco, as ancas, as coxas (direita/esquerda) e as<br />
pernas (direita/esquerda) definem as outras duas cadeias (ver figura 3).<br />
As coordenadas de um ponto Pj , no segmento j de uma cadeia cinemática, são dadas por [4],<br />
0 j−1<br />
( T T j ) Pj<br />
P = ⋅<br />
0 1...<br />
(1)<br />
⎡− s⎤<br />
P<br />
⎢ ⎥<br />
j =<br />
⎢<br />
0 , (2)<br />
⎥<br />
⎢⎣<br />
1 ⎥⎦<br />
onde ∈[0,<br />
] é um escalar que define a posição <strong>do</strong> no segmento , L é <strong>com</strong>primento <strong>do</strong> segmento, e<br />
s L j<br />
P j j<br />
j −1<br />
Tj ⎡cosθ − senθ<br />
=<br />
⎢<br />
⎢<br />
senθ<br />
⎢⎣<br />
0<br />
cosθ<br />
0<br />
u⎤<br />
v<br />
⎥<br />
, (3)<br />
⎥<br />
1⎥⎦<br />
é a matriz que define a transformação geométrica das coordenadas homogéneas de um ponto em <strong>do</strong>is<br />
referenciais diferentes, sen<strong>do</strong> θ o ângulo de rotação e [ ] T<br />
u v o vector de translação associa<strong>do</strong> à mola.<br />
c , ,<br />
O modelo articula<strong>do</strong> depende <strong>do</strong>s seguintes parâmetros: as coordenadas <strong>do</strong> centro da cabeça na imagem ( )<br />
os ângulos das articulações ( θ 1 ,..., θ N ) , e os vectores de deslocamento ( N N ) v u v u , ,..., , 1 1<br />
<strong>do</strong>s segmentos <strong>do</strong> modelo.<br />
3.2 MODELO DE MOVIMENTO<br />
x cy<br />
, sen<strong>do</strong> N=12, o número<br />
A evolução <strong>do</strong>s parâmetros durante o intervalo de observação é descrita por um modelo estocástico [6],<br />
x = Ax −1 + w , (4)<br />
k<br />
k<br />
[ ] T<br />
k<br />
onde x = c c θ ... θ & θ ... & θ u v ... u v é o vector de esta<strong>do</strong> que contém to<strong>do</strong>s<br />
k x y 1 N 1 N 1 1 N N<br />
os parâmetros desconheci<strong>do</strong>s e algumas das suas derivadas, a matriz A caracteriza o tipo de movimento, e wk<br />
é
um vector aleatório <strong>com</strong> distribuição gaussiana N ( , Q)<br />
0 . A matriz A pode ser especificada pelo utiliza<strong>do</strong>r ou<br />
estimada a partir das imagens anteriores, usan<strong>do</strong> algoritmos de treino descritos na secção 5.<br />
3.3 MODELO VISUAL DE CADA SEGMENTO<br />
O modelo visual é usa<strong>do</strong> para detectar os segmentos <strong>do</strong> corpo na imagem sem usar marcas artificiais. A cabeça e<br />
as mãos são caracterizadas por pequenas imagens a cores (templates) que são definidas na primeira imagem da<br />
sequência de vídeo. To<strong>do</strong>s os outros segmentos são caracteriza<strong>do</strong>s por um conjunto de perfis de intensidade que<br />
são defini<strong>do</strong>s em rectas perpendiculares aos segmentos. São usa<strong>do</strong>s méto<strong>do</strong>s de reconhecimento de padrões para<br />
estimar a localização das templates 2D na imagem e para detectar as transições entre o fun<strong>do</strong> e os segmentos [8].<br />
4. ALGORITMO DE SEGUIMENTO<br />
A operação de seguimento envolve a estimação <strong>do</strong>s parâmetros <strong>do</strong> modelo em cada imagem da sequência de<br />
vídeo. O méto<strong>do</strong> de seguimento usa<strong>do</strong> neste trabalho é basea<strong>do</strong> no filtro de Kalman estendi<strong>do</strong> [3]. Este méto<strong>do</strong><br />
funde a informação a priori (geométrica e dinâmica) <strong>com</strong> a informação obtida a partir da análise da sequência de<br />
imagens (detecção de transições de cor) para estimar os parâmetros <strong>do</strong> modelo em cada imagem. A estimação<br />
<strong>do</strong>s parâmetros é realizada em três passos:<br />
• predição: neste passo estimam-se os parâmetros <strong>do</strong> modelo articula<strong>do</strong> na imagem seguinte usan<strong>do</strong> o<br />
modelo estima<strong>do</strong> actual.<br />
• detecção de características: um conjunto de características visuais são obtidas através de méto<strong>do</strong>s<br />
de reconhecimento de padrões descritos atrás.<br />
• filtragem: este passo actualiza a estimativa <strong>do</strong> modelo usan<strong>do</strong> as características visuais detectadas na<br />
imagem actual.<br />
Os passos da filtragem e da predição são realiza<strong>do</strong>s pelo filtro de Kalman estendi<strong>do</strong> que actualiza a distribuição<br />
a posteriori <strong>do</strong> vector de esta<strong>do</strong> ( ˆk<br />
, k ) . O passo da predição é da<strong>do</strong> por [3],<br />
C x N<br />
−<br />
x ˆ ˆ<br />
k = A ⋅ xk<br />
−1,<br />
(5)<br />
C<br />
−<br />
k<br />
T<br />
= A⋅<br />
C −1<br />
⋅ A + Q , (6)<br />
k<br />
−<br />
−<br />
−<br />
onde xˆ é o vector de esta<strong>do</strong> predito no instante k , C é a matriz de covariância associada a , e C é a<br />
k<br />
matriz de covariância <strong>do</strong> esta<strong>do</strong> estima<strong>do</strong> no instante<br />
k<br />
( ~ ~ −<br />
z − H ⋅ x )<br />
−<br />
k = xk<br />
+ K k ⋅ k k k<br />
k −1.<br />
O passo da filtragem é da<strong>do</strong> por,<br />
xˆ ˆ<br />
ˆ , (7)<br />
C<br />
~ −<br />
( I − K ⋅ H ) ⋅C<br />
k = k k k<br />
, (8)<br />
xk k−1
onde ~<br />
z k é o vector de observações, k<br />
obti<strong>do</strong> da seguinte forma,<br />
H~ é a matriz de observação, e K é o ganho de Kalman que é<br />
( ) 1 ~ ~ − T<br />
H ⋅C<br />
⋅ H +<br />
− ~ T<br />
−<br />
K k = Ck<br />
⋅ H k ⋅ k k k R , (9)<br />
e R é a matriz de covariância <strong>do</strong> ruí<strong>do</strong> de medição (detalhes podem ser encontra<strong>do</strong>s em [3]).<br />
A predição tem um papel fundamental porque permite uma primeira estimativa <strong>do</strong> modelo na imagem. Esta<br />
estimativa tem um papel crucial na obtenção de boas características visuais. Quan<strong>do</strong> a predição falha, são<br />
detectadas características que provocam erros de estimação geralmente irreparáveis.<br />
5. MÉTODOS DE APRENDIZAGEM<br />
Neste trabalho, consideram-se duas fases de aprendizagem. A primeira fase é usada para estimar a matriz A .<br />
Adaptan<strong>do</strong> esta matriz ao tipo de movimento que está a ser observa<strong>do</strong>, consegue-se obter melhores resulta<strong>do</strong>s de<br />
predição. A matriz A é inicialmente definida pelo utiliza<strong>do</strong>r na primeira iteração baseada em hipóteses pouco<br />
amadurecidas sobre o tipo de movimento que se está a analisar. Como as estimativas, nesta fase, são em geral<br />
fracas, o utiliza<strong>do</strong>r tem de corrigir os resulta<strong>do</strong>s <strong>do</strong> segui<strong>do</strong>r automático mais vezes (ver figura 2). Ao fim de 3 a<br />
4 segun<strong>do</strong>s (dependen<strong>do</strong> <strong>do</strong> tipo de movimento) a matriz A é actualizada por uma estimativa obtida pelo<br />
méto<strong>do</strong> de mínimos quadra<strong>do</strong>s, melhoran<strong>do</strong>-se o passo de predição. Apesar desta primeira fase de aprendizagem<br />
melhorar a predição, este modelo não consegue lidar <strong>com</strong> movimentos imprevistos (os que não podem ser<br />
descritos por um modelo de movimento linear). A segunda fase de aprendizagem tem <strong>com</strong>o objectivo a<br />
resolução deste problema. Nesta fase, é cria<strong>do</strong> um dicionário de excepções <strong>com</strong> todas as configurações <strong>do</strong><br />
modelo em que o preditor falha. Cada entrada consiste num par de vectores de esta<strong>do</strong> ( x k−<br />
1,<br />
xk<br />
) definin<strong>do</strong> a<br />
configuração <strong>do</strong> modelo em duas imagens consecutivas. Quan<strong>do</strong> o segui<strong>do</strong>r automático erra, o opera<strong>do</strong>r corrige<br />
o modelo, e esta informação é armazenada no dicionário.<br />
Sempre que uma das configurações xk<br />
−1<br />
ocorre durante o seguimento, o dicionário é automaticamente<br />
consulta<strong>do</strong>. Nesse caso, <strong>do</strong>is modelos preditos são usa<strong>do</strong>s: o modelo obti<strong>do</strong> pelo dicionário e o modelo obti<strong>do</strong><br />
pela equação (5). Os resulta<strong>do</strong>s obti<strong>do</strong>s pelos <strong>do</strong>is preditores são automaticamente <strong>com</strong>para<strong>do</strong>s e escolhi<strong>do</strong> o<br />
melhor. Esta estratégia permite uma redução significativa <strong>do</strong> número de intervenções <strong>do</strong> opera<strong>do</strong>r.<br />
6. Resulta<strong>do</strong>s experimentais<br />
O sistema de seguimento proposto neste artigo foi aplica<strong>do</strong> a 4 sequências de vídeo que correspondem a<br />
diferentes actividades (andar, andar de bicicleta, escrever num quadro, correr) [8]. As primeiras três foram<br />
obtidas <strong>com</strong> uma câmara analógica e digitalizadas a um ritmo de 13 imagens por segun<strong>do</strong>. A última sequência<br />
foi obtida <strong>com</strong> uma câmara digital a cores, a um ritmo de 25 imagens por segun<strong>do</strong>. O sistema automático<br />
apresenta um bom desempenho nas três primeiras sequências, sem necessitar de recorrer à segunda fase de<br />
k
aprendizagem. O dicionário de excepções foi necessário apenas na ultima sequência (correr). A figura 4 mostra<br />
seis imagens consecutivas dessa sequência <strong>com</strong> os resulta<strong>do</strong>s <strong>do</strong> seguimento obti<strong>do</strong>s <strong>com</strong> o sistema interactivo<br />
proposto neste artigo. A sequência tem 200 imagens, ten<strong>do</strong> si<strong>do</strong> apenas 9 corrigidas manualmente. Realce-se que<br />
esta sequência apresenta um eleva<strong>do</strong> número de oclusões e que, para além disso, o fun<strong>do</strong> não é estático nem<br />
homogéneo. O algoritmo de seguimento ultrapassa, na maioria das vezes, <strong>com</strong> sucesso estas dificuldades.<br />
Figura 4. Resulta<strong>do</strong>s <strong>do</strong> seguimento - corrida (seis imagens consecutivas).<br />
a) b)<br />
c) d)<br />
Figura 5. Evolução <strong>do</strong>s parâmetros: a) braço direito; b) braço esquer<strong>do</strong>; c) coxa direita; d) coxa esquerda.
A figura 5 mostra a evolução <strong>do</strong>s ângulos de rotação <strong>do</strong>s braços medi<strong>do</strong>s em relação ao pescoço e os ângulos de<br />
rotação das coxas medi<strong>do</strong>s em relação ao tronco. Como era espera<strong>do</strong> a evolução é periódica. Os <strong>do</strong>is braços<br />
estão em oposição de fase assim <strong>com</strong>o as duas coxas. O braço esquer<strong>do</strong> e a coxa direita estão em fase assim<br />
<strong>com</strong>o o braço direito e a coxa esquerda.<br />
7. Conclusões<br />
Este artigo descreve um sistema semi-automático para seguir o corpo humano sem usar marcas artificiais. O<br />
sistema tem capacidade de aprendizagem porque o desempenho <strong>do</strong> segui<strong>do</strong>r aumenta durante cada experiência.<br />
Cada vez que o utiliza<strong>do</strong>r corrige o modelo estima<strong>do</strong> pelo segui<strong>do</strong>r, o modelo corrigi<strong>do</strong> é armazena<strong>do</strong> num<br />
dicionário e é usa<strong>do</strong> de forma automática para corrigir casos semelhantes no futuro.<br />
As principais dificuldades <strong>do</strong> segui<strong>do</strong>r automático estão relacionadas <strong>com</strong> os movimentos imprevistos e <strong>com</strong> a<br />
presença de fun<strong>do</strong> não uniforme que varia ao longo <strong>do</strong> tempo. O sistema é no entanto capaz de ultrapassar estas<br />
dificuldades na maioria das vezes <strong>com</strong>o se mostra nas experiências descritas neste artigo.<br />
Referências<br />
[1] A. Blake e M. Isard, “Active Contours: The Application of Techniques from Graphics, Vision, Control<br />
Theory and Statistics to Visual Tracking of Shapes in Motion”, Springer-Verlag Lon<strong>do</strong>n, 1998.<br />
[2] C. Bregler e J. Malik, “Tracking People with Twists and Exponential Maps”, in Proc. IEEE Computer Vision<br />
and Pattern Recognition, Santa Barbara, 1998.<br />
[3] R. Brown e P. Hwang, “Introduction Ran<strong>do</strong>m Signals And Applied Kalman Filtering”, Wiley & Sons, 1992.<br />
[4] J. Craig, “Introduction to Robotics Mechanics and Control”, Addison-Wesley, 1955.<br />
[5] D. Gavrila, “The Visual Analysis of Human Movement: A Survey”, in Computer Vision and Image<br />
Understanding, vol.73, no.1, pp.82-98, 1999.<br />
[6] A. Gelb, “Applied Optimal Estimation”, MIT press, Cambridge, Mass, 1974.<br />
[7] D. Hogg. “Model Based Vision: A Program to See a Walking Person”. Image and Vision Computing, 1(1):<br />
5-20, 1983.<br />
[8] R. Jesus. “<strong>Seguimento</strong> <strong>do</strong> corpo humano <strong>com</strong> modelos articula<strong>do</strong>s bidimensionais”, Tese de mestra<strong>do</strong>, IST,<br />
Novembro, 2001.<br />
[9] I. Kakadiaris e D. Metaxas, “Three-Dimensional Human Body Model Acquisition from Multiple Views”,<br />
Internacional Journal of Computer Vision 30(3), 191-218, 1998.<br />
[10] H. Sidenblabh, M. Black, e D. Fleet, “Stochastic Tracking of 3D Human Figures Using 2D Image motion”,<br />
European Conf. on Computer Vision, 2000.