Manipulacoes no espaco sobre mesas interativas comestereoscopia
Fernando Jose Antunes Fonseca
Dissertacao para obtencao do grau de mestre em
Engenharia Informatica e de Computadores
Juri
Presidente: Professor Doutor Jose Carlos Martins DelgadoOrientador: Professor Doutor Alfredo Ferreira
Vogal: Professor Doutor Nuno Manuel Robalo Correia
Outubro 2013
Agradecimentos
Durante a realizacao desta dissertacao, muitas pessoas se revelaram importantes para a sua concretizacao com
sucesso, as quais nao podia deixar de manifestar o meu sincero agradecimento. Para comecar, ao Instituto
Superior Tecnico, em particular ao grupo de VIMMI e as pessoas que o integram pela oportunidade e meios
que permitiram a realizacao deste trabalho. Em particular ao Professor Doutor Alfredo Ferreira e tambem
ao Professor Doutor Joaquim Jorge pelo desafio proposto, bem como toda a orientacao e acompanhamento
disponibilizado.
Especialmente ao Daniel Mendes, pela paciencia, disponibilidade, ajuda e colaboracao em todos os mo-
mentos cruciais. Ao Bruno Araujo pelo trabalho de equipa e ensinamentos passados no projeto Alberti
Digital, assim como toda a paciencia demonstrada.
Um especial agradecimento a minha Mae pois sem ela este documento nao seria possıvel. A Claudia
Maravi, por toda a dedicacao, apoio e compreensao que ajudaram, sem duvida, a concretizar este trabalho.
A todos os meus amigos e famılia que se esforcaram para que tambem houvesse momentos de descontracao,
mesmo que estes fossem a distancia. Uma especial palavra de apreco a todos aqueles que se disponibilizaram
a participar nas sessoes de avaliacao, assim como a todos os que de certa forma mostraram o seu interesse e
colaboraram, mesmo que indiretamente.
Gostaria ainda de referir o suporte financeiro da Fundacao para a Ciencia e a Tecnologia (FCT), atraves
do projeto Alberti Digital com referencia PTDC/AUR-AQI/108274/2008 em parceria entre a Faculdade de
Arquitetura de Lisboa, a Faculdade de Coimbra e o Instituto Superior Tecnico.
Este documento e dedicado ao meu Pai.
i
Abstract
Stereoscopic visualization in tabletop environment offers unique capabilities. Combining this capabilities
with user hands tracking opens new interaction possibilities. In this work we aim to find the best way to
manipulate virtual tridimensional objects in a semi-immersive environment with stereoscopic visualization.
This challenge emerged during the implementation of Alberti Digital project which objective was to
present the Leon Battista Alberti work in a new and interactive way. We developed a prototype that allows
the user, not only to interact with five existent temples, but also to personalise an entire temple following the
Alberti treatise rules. To make this experience more immersive we built an innovative setup that combines
a multi-touch table with stereoscopic visualization and the ability to follow the user hands and body in a
non-intrusive way.
Following this work we developed five different interaction techniques that allows virtual object manipu-
lation through the visualization space. We also conducted a user evaluation based on docking tasks to find
an answer to our challenge.
With this work we could find that virtual reality combined with stereoscopic visualization can enhance
museum visitors experience allowing a different way to learn the cultural heritage. The user evaluation results
suggests that mid-air interactions, using six degrees of freedom in the dominant hand, mimicking the way we
interact with physical objects, it’s more efficient and rewarding.
Keywords
Tridimentional interfaces, tridimentional object manipulation, stereoscopical environments, interactive table-
top setups, non-intrusive head and hands tracking
ii
Resumo
Mesas interativas com estereoscopia oferecem capacidades unicas de visualizacao. Quando combinadas com
tecnologia que consegue seguir as maos do utilizador permitem novas possibilidades de interacao. Neste
trabalho procuramos perceber qual a melhor forma de manipular objetos virtuais tridimensionais acima da
superfıcie, num ambiente semi-imersivo com visualizacao estereoscopica.
Este desafio surgiu durante a realizacao do projeto Alberti Digital, um trabalho que teve como objetivo
dar a conhecer a obra de Leon Battista Alberti de forma interativa e inovadora. Desenvolvemos um prototipo
que permite ao utilizador, nao so interagir com cinco templos existentes, como tambem personalizar o seu
proprio templo seguindo as regras do tratado de Alberti. Para tornar a experiencia mais imersiva construımos
um setup inovador que combina uma mesa multi-toque com visualizacao estereoscopica e capacidade de seguir
maos e corpo do utilizador de forma nao intrusiva.
Partindo do trabalho realizado neste projeto procuramos responder ao nosso desafio. Para isso desen-
volvemos cinco tecnicas de interacao que permitem manipular objetos no espaco de visualizacao e realizamos
um estudo comparativo baseado em tarefas de encaixe.
Com a realizacao deste trabalho pudemos constatar que cenarios de realidade virtual com visualizacao
estereoscopica em museus enriquecem a experiencia dos visitantes permitindo uma forma diferente de aprender
a heranca cultural. Os resultados da avaliacao das tecnicas implementadas sugerem que interacoes acima da
superfıcie, usando uma manipulacao direta de seis graus de liberdade na mao dominante, imitando a forma
como interagimos com objetos fısicos, sao mais satisfatorias e eficientes.
Palavras Chave
Interfaces tridimensionais, manipulacao de objetos tridimensionais, ambientes estereoscopicos, mesas inter-
activas, seguimento de maos e cabeca de forma nao intrusiva
iii
Indice
Agradecimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i
Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii
Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii
1 Introducao 1
1.1 Motivacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Contribuicoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4 Publicacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Trabalho Relacionado 4
2.1 Interacao com Tangıveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Reconhecimento de gestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Interacao Baseada em Gestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4 Discussao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3 Projecto Alberti Digital 23
3.1 Enquadramento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2 Prototipo de Mesa interativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3 Prototipo de Navegacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4 Exposicao Publica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.5 Discussao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4 Interacoes com objetos acima da superfıcie 36
4.1 Arquitectura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2 Tecnicas de Interacao Desenvolvidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.3 Prototipo de Desenvolvimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.4 Aplicacao de Demonstracao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.5 Sumario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
iv
5 Avaliacao das tecnicas desenvolvidas 47
5.1 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.2 Tarefas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.3 Prototipo de Testes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.4 Aparato e Participantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.5 Resultados e Discussao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6 Conclusoes e Trabalho Futuro 63
Referencias 66
A Appendix 71
A.1 Questionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
A.2 Resultados do Questionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
v
Lista de Tabelas
2.1 Tabela comparativa das tecnicas apresentadas. . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.1 Etapas de avaliacao das tecnicas propostas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.2 Compilacao dos resultados das preferencias dos utilizadores usando criterios diferentes (Medi-
ana, Intervalo inter-quartil). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
vii
Lista de Figuras
2.1 Setup do sistema DigitalDesk tal como idealizado por Wellner et al. (Imagem extraıda
de [11] c© 1991 ACM). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Na imagem da esquerda encontram-se as sombras vistas pelo PlayAnywhere apos avaliar a
imagem da direita. (Imagem extraıda de [13] c© 2011 ACM). . . . . . . . . . . . . . . . . . . 6
2.3 Prototipo de Portico com interacao para alem da superfıcie do Tablet (Imagem extraıda
de [15] c© 2011 ACM). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4 Utilizador a manipular a camara da cena virtual a esquerda. ZeroN a simular a orbita de um
planeta na imagem a direita (Imagem extraıda de [16] c© 2011 ACM). . . . . . . . . . . . . . 7
2.5 Reconstrucao da mao num ambiente virtual usando primitivas atraves da combinacao de im-
agem RBG com imagem de profundidade. (Imagem extraıda de [20] c© 2011 ACM) . . . . . . 10
2.6 Akimbo Kinect de Wang et al. a reconhecer as maos de um utilizador acima da superfıcie.
(Imagem extraıda de [6] c© 2011 ACM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.7 A esquerda exemplo de gesto de rotacao. A direita um utilizador numa situacao de exposicao
a usar o Cubtile. (Imagens extraıdas de [21] c© 2008 ACM) . . . . . . . . . . . . . . . . . . . 11
2.8 Tecnica de interacao TRS. (Imagens extraıdas de [22] c© 2006 ACM) . . . . . . . . . . . . . . 12
2.9 Tecnica Sticky Fingers nas imagens (a,b e c). Tecnica Opposable Thumb na imagem (d).
(Imagem extraıda de [25] c© 2009 ACM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.10 Widget tBox desenvolvido por Cohe et al. para manipulacoes em 9-DOF. (Imagem extraıda
de [30] c© 2012 ACM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.11 Widget de rotacao de objectos no espaco de LTouchIT. Activacao do widget (a). Rotacao
efectuada (b). (Imagem extraıda de [32] c© 2010 ACM) . . . . . . . . . . . . . . . . . . . . . 15
2.12 Tecnica de In the Air posta em pratica para a manipulacao de objetos tridimensionais em
4-DOF. (Imagem extraıda de [35] c© 2009 ACM) . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.13 Problema de paralaxe num cenario de aquario tal como aderecado por Mollers et al. (Imagem
extraıda de [37] c© 2012 ACM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.14 Tecnica Balloon Selection proposta por Benko et al. O utilizador recorre a distancia de um
dedo de cada mao para controlar a altura de um cursor. (Imagem extraıda de [4] c© 2007 ACM) 18
ix
2.15 Manipulacoes atraves de interacoes com widgets no sistema Toucheo. (Imagem extraıda
de [2] c© 2011 ACM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.16 Metafora do espeto explorada por Song et al. para manipular varios objetos em simultaneo
com sete graus de liberdade. (Imagem extraıda de [10] c© 2012 ACM) . . . . . . . . . . . . . 20
3.1 O nosso setup. Uma mesa multitoque com visualizacao estereoscopica aumentada com captura
nao intrusiva da cabeca e maos do utilizador . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2 Diagrama da arquitectura do prototipo Alberti Digital. . . . . . . . . . . . . . . . . . . . . . 25
3.3 Maquina de Estados do prototipo Alberti Digital. . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.4 Ecra de selecao de modelos do prototipo Alberti Digital. . . . . . . . . . . . . . . . . . . . . . 28
3.5 Visitante da exposicao Alberti Digital a utilizar a mesa digital intativa no Museu da Ciencia
em Coimbra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.6 Utilizador a apontar para a cobertura de um modelo no nosso prototipo. . . . . . . . . . . . . 30
3.7 Diferentes templos disponibilizados no prototipo Alberti Digital. . . . . . . . . . . . . . . . . 31
3.8 Diferentes estados do prototipo Alberti Digital na parte de personalizacao de modelo. . . . . 32
3.9 Nuvem de pontos da Igreja de Sao Vicente de fora no prototipo de navegacao na Exposicao
Alberti digital no Museu de Coimbra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.10 Exposicao Alberti Digital no Museu da Ciencia em Coimbra de 15 de Abril a 20 de Junho de
2013. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.1 Diagrama da arquitectura do prototipo Alberti Digital. . . . . . . . . . . . . . . . . . . . . . 37
4.2 Tecnica 6-DOF Hand. A mao agarra o objeto diretamente e controla a sua translacao e
rotacao, recorrendo a distancia com a segunda mao para efetuar a escala uniforme. . . . . . . 39
4.3 Tecnica 3-DOF Hand. A mao que agarra o objeto controla diretamente a sua translacao. As
rotacoes do pulso da outra mao definem a orientacao do objeto. A distancia entre ambas define
a escala uniforme desse objeto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.4 Tecnica Air TRS. A mao que agarra o objeto controla diretamente a sua translacao. O
movimento da outra mao relativamente a que esta a agarrar o objeto define a rotacao e a
escala deste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.5 Tecnica Handle-Bar. O ponto medio entre ambas as maos e usado para agarrar e manipular
os objetos, reagindo como se o utilizador estivesse a agarrar uma barra que passasse pelos
objetos. A distancia entre ambas as maos define a escala uniforme do objeto que se esta a
manipular. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.6 Tecnica Touch TRS + Widgets. Tocar por baixo dum objeto torna visıveis os widgets e
permite mover o objeto no plano da superfıcie. Um segundo toque fora de todos os widgets
permite aplicar o algoritmo TRS na superfıcie. Os widgets permitem controlar a altura do
objeto e as restantes rotacoes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
x
4.7 Feedback visual para interacoes acima da mesa interativa. Destaque quando o utilizador coloca
a mao no interior do objeto (a esquerda); Destaque quando o utilizador agarra um objeto (a
direita). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.8 Feedback visual para interacoes na superfıcie da mesa interativa. Destaque quando o utilizador
toca por debaixo do objeto (a esquerda); Destaque quando o utilizador manipula o objeto com
o algoritmo TRS (a direita). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.9 Aplicacao de diversao com pecas do Mr. Potato Head. . . . . . . . . . . . . . . . . . . . . . . 46
5.1 Docking task tal como apresentada por Zhai [45] . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2 Tarefa de habituacao, onde o utilizador podera aprender as tecnicas de manipulacao. . . . . . 50
5.3 Tarefa TR: primeira tarefa de teste do nosso estudo. E pedido ao utilizador que coloque a
esfera dentro do encaixe do cubo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.4 Tarefa TRE: segunda tarefa de teste do nosso estudo. E pedido ao utilizador que encaixe o
torus estilizado no interior do buraco frontal do cubo, tendo em conta a sua escala. . . . . . . 52
5.5 Tarefa TC: terceira tarefa do nosso estudo. E pedido ao utilizador que coloque o semicilindro
no interior do buraco do cubo, tendo em conta a escala e a sua rotacao. . . . . . . . . . . . . 53
5.6 Plano que da feedback visual dos limites de interacao do nosso prototipo . . . . . . . . . . . . 54
5.7 Aparato encontrado pelos utilizadores nos testes. A e B sensores de profundidade Microsoft
Kinect. C - Oculos Nvidia 3D Vision 2. D - Mesa multitoque com ecra de retroprojecao. . . . 55
5.8 Utilizador a interagir com o nosso prototipo de testes utilizando uma abordagem de interacao
acima da mesa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.9 Tempo de conclusao para a tarefa de translacao (TR) usando as cinco tecnicas de interacao. . 57
5.10 Tempo de conclusao para a tarefa de translacao e escala (TRE) usando as cinco tecnicas de
interacao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.11 Tempo de conclusao para a tarefa completa (TC) usando as cinco tecnicas de interacao. . . . 59
xi
Lista de Abreviaturas
Abreviacao Significado
DOF Degrees of freedom
WIMP Windows Icons Menus and Pointing Devices
FCT Fundacao para a Ciencia e a Tecnologia
CCV Community Core Vision
TRS Translation-Rotation-Scale
TR Tarefa de Translacao
TRE Tarefa de Translacao e Escala
TC Tarefa Completa
xiii
Capıtulo 1
Introducao
A interacao com objetos tridimensionais tem vindo conhecer um acrescimo de importancia em varios ramos
da industria, deste a montagem de pecas, a prototipagem rapida, design e visualizacao de modelos. O
aparecimento de novas formas de interacao leva-nos a por em causa os metodos de interacao tradicionais.
Isto deve-se ao facto das solucoes existentes, rato e teclado ou toque recorrerem a interfaces WIMP (Windows
Icons Menus and Pointing Devices) e necessitarem de uma constante alteracao da projecao bidimensional para
a interacao com um objeto num espaco tridimensional. Esta limitacao leva a que nao seja possıvel reproduzir
movimentos precisos num objeto em espaco tridimensional [1]. Isto sugere que um controlo tridimensional
natural e eficaz podera ser a solucao.
1.1 Motivacao
A percecao do ambiente virtual pode ser aumentada combinando visualizacao estereoscopica com seguimento
da cabeca, criando um ambiente semi-imersivo, aumentando a percecao espacial do utilizador. Com a capaci-
dade de obtencao da posicao da cabeca do utilizador e possıvel criar um frustum de visualizacao personalizado
para cada olho, dando a ilusao de que os objetos da cena estao em acima da superfıcie. Esta ilusao torna-se
ainda mais forte quando e dada a liberdade ao utilizador de se movimentar, e a imagem e gerada segundo
a sua perspetiva, sem que este precise de manipular qualquer camara ou widget. Esta solucao e facilmente
aplicavel a qualquer ambiente, desde ecras de larga escala ou ate a mesas interativas, onde nao tem sido muito
explorada. Este cenario interativo e especialmente apelativo para modelacao tridimensional ou exploracao
e montagem de modelos. Por exemplo, um modelo arquitetural pode ser mostrado em cima de uma mesa
interativa, sem necessitar que este seja reproduzido fisicamente, reduzindo assim os custos e aumentando a
velocidade do processo de modelacao, permitindo desta forma mostrar rapidamente resultados a um cliente.
O avanco tecnologico que se tem vindo a verificar nos ultimos anos tornou mais facil o desenvolvimento
deste tipo de cenarios. Ainda ha pouco tempo a monitorizacao da cabeca do utilizador necessitava de uma
sala repleta de camaras de infravermelhos e de varios marcadores colocados no utilizador, ou entao, de um
1
sistema de fios intrusivo. Hoje em dia este processo e possıvel utilizando uma unica e acessıvel camara de
profundidade, tornando-o nao intrusivo e imediato para o utilizador. Esta solucao pode ser usada para definir
a perspetiva do utilizador, assim como para seguir membros, maos ou dedos, abrindo portas a novas formas
de interacao.
1.2 Problema
Conseguir controlar um objeto virtual tridimensional segundo qualquer um dos seus tres eixos, tal como faria
com um objeto real, requer um controlo total dos seus seis graus de liberdade (6 DOF).
Este cenario de interacao num espaco virtual tridimensional associado a mesas com estereoscopia tem
sido alvo de investigacao usando superfıcies multi-toque [2, 3] ou dispositivos vestıveis [4, 5]. Embora haja
solucoes robustas para interacoes multi-toque, estas estao limitadas a um espaco de interacao bidimensional,
nao podendo assim oferecer interacoes diretas no espaco de visualizacao.
A aposta num mapeamento de um espaco de interacao tridimensional diretamente para o mundo virtual
tem sido cada vez mais objeto de investigacao em muitas areas, tais como aplicacoes CAD e assemblagem
de equipamentos de engenharia [6] ou ate aplicacoes para salas de operacoes [7]. Acreditamos ainda que
estas solucoes podem facilitar a prototipagem de modelos arquitetonicos. Este aumento de foco nao se deve
somente ao facto do equipamento necessario se encontrar mais acessıvel, mas tambem ao facto de estas
interacoes diretas poderem, efetivamente, facilitar e tornar mais naturais as tarefas a desempenhar.
Atraves da utilizacao de dispositivos vestıveis (luvas) [8, 9] conseguem ultrapassar-se as limitacoes iner-
entes a um espaco de interacao bidimensional, mas estes sao intrusivos e restritivos para o utilizador. Outros
investigadores [10, 6] propoem solucoes para interacao num espaco tridimensional, nao necessitando de qual-
quer objeto adicional acoplado ao utilizador, mas, no entanto, estes nao combinam as suas solucoes com
sistemas estereoscopicos, usando-as apenas como um cursor tridimensional mais poderoso, mas ainda assim
indireto.
Com isto surge o nosso desafio de perceber qual a melhor forma de manipular objetos virtuais tridimen-
sionais num ambiente semi-imersivo com visualizacao estereoscopica.
1.3 Contribuicoes
Tendo em conta o problema apresentado da interacao com objetos tridimensionais virtuais num cenario de
mesas interativas com estetoscopia, o nosso trabalho oferece as seguintes contribuicoes:
• Desenvolvimento e estudo de cinco tecnicas de interacao.
Neste trabalho sao propostas quatro tecnicas de interacao acima da superfıcie, assim como uma tecnica
multi-toque, que permitem controlar objetos tridimensionais num ambiente virtual estereoscopico em
2
sete graus de liberdade, tres para a translacao, tres para a rotacao e um para a escala uniforme. Todas as
nossas tecnicas tem por base trabalhos apresentados na literatura e discutidos no trabalho relacionado.
Para nos ser possıvel o desenvolvimento destas cinco tecnicas desenvolvemos um setup inovador em
mesas interativas que combina multi-toque com o seguimento das maos do utilizador no espaco de
visualizacao em 6-DOF assim como o seguimento da sua cabeca permitindo criar uma visualizacao
estereoscopica personalizada.
Foi elaborada uma sessao de testes com utilizadores para avaliar estas tecnicas desenvolvidas. Com os
resultados obtidos foi elaborada uma analise estatıstica para perceber as principais diferencas entre as
tecnicas apresentadas neste documento.
• Desenvolvimento de um prototipo para visualizacao e criacao de maquetes
Usando o nosso novo setup, foi desenvolvido um prototipo no ambito do projeto Alberti Digital que
permitisse dar a conhecer a heranca e patrimonio cultural deixado por Leon Battista Alberti. Neste
prototipo o utilizador pode manipular cinco modelos arquitetonicos existentes com influencias alber-
tianas, assim como tambem pode criar e visualizar, pela primeira vez, o seu proprio modelo, baseado
nas regras do tratado de Alberti. O utilizador pode alterar os componentes das colunas, do portico e
do corpo do templo.
1.4 Publicacoes
O trabalho desenvolvido no ambito desta dissertacao deu origem a varias publicacoes avaliadas por paineis
de peritos e aceites em conferencias cientıficas. Estas publicacoes estao listadas de seguida:
1. Fernando Fonseca, Daniel Mendes, Bruno de Araujo, Alfredo Ferreira e Joaquim Jorge, Manipulacoes
no espaco sobre mesas interativas com estereoscopia, Interacao 2013 - 5a Conferencia Nacional Sobre
Interacao, Novembro 2013.
2. Bruno de Araujo, Daniel Mendes, Fernando Fonseca, Alfredo Ferreira e Joaquim Jorge, Interactive
Stereoscopic Visualization of Alberti Architectural Models, Alberti Digital Conference, Abril 2013
3. Fernando Fonseca, Daniel Mendes, Bruno Araujo, Alfredo Ferreira e Joaquim Jorge, 3D mid-air
manipulation techniques above stereoscopic tabletops, ISIS3D Workshop, ITS’13, Outubro 2013
3
Capıtulo 2
Trabalho Relacionado
Muitas aplicacoes utilizadas hoje em dia requerem manipulacoes de objetos tridimensionais, nao so porque
estas sao essenciais para alguns ramos da engenharia, mas tambem porque auxiliam varias outras areas da
industria. Facilmente encontramos varios exemplos onde este tipo de aplicacoes sao diariamente usadas:
modelacao arquitetural, exploracao de objetos virtuais, design e montagem de componentes de engenharia,
videojogos, entre outros. Devido a crescente importancia que estas tarefas tem vindo a conhecer, a interacao
com objetos 3D tem sido foco de investigacao muito intensiva. Comecando pelas tradicionais abordagens
WIMP (Windows Icons Menus and Pointing Devices), passando pela utilizacao de tangıveis, mais tarde
recorrendo ao multi-toque e ultimamente recorrendo a gestos no espaco.
No nosso trabalho ambicionamos desenvolver um prototipo que nos permitisse interagir da forma mais
natural e eficaz num mundo virtual em tres dimensoes, colmatando os problemas existentes na literatura.
Para isso revimos os trabalhos mais relevantes que nos ajudaram a perceber, nao so, quais os passos que
deverıamos seguir, mas tambem como os devıamos concretizar. Neste capıtulo esta presente uma compilacao
dos trabalhos que mais nos influenciaram e guiaram na escrita deste documento cientıfico. Comecando com
uma breve apresentacao de trabalhos realizados com tangıveis em cima de mesas, passando por um apanhado
dos trabalhos mais recentes de reconhecimento de gestos, terminando com a parte mais relevante para o nosso
trabalho, interacoes baseadas em gestos.
2.1 Interacao com Tangıveis
Interacoes com tangıveis, tal como o nome sugere, consiste em interagir com informacao digital atraves do
ambiente fısico. Este tipo de interacoes aliam informacao digital numa representacao fısica (normalmente
um objeto comum), usando-a como meio de interacao com o mundo virtual. Este tipo de interacoes tem
sido, desde cedo, aplicado a um cenario de mesas interativas de forma aumentar e facilitar a forma como
manipulamos a informacao num ambiente virtual.
4
Os primeiros passos dados em interacoes com tangıveis em mesas foram dados por Wellner et al. [11]
com The DigitalDesk Calculator , conectando pela primeira vez o mundo fısico e virtual. O prototipo,
tal como e possıvel ver na Figura 2.1 consistia apenas numa mesa, absolutamente normal, com uma camara
de vıdeo e um projetor por cima desta. Assim, era possıvel fazer o seguimento dos dedos do utilizador, e
ainda ler porcoes de documentos colocados nessa mesma mesa. Com o projetor tambem era possıvel projetar
outros documentos digitais na superfıcie da mesa.
Este sistema permite seguir o dedo do utilizador, como se este estivesse a deslocar um cursor ao longo da
superfıcie da mesa. Para seguir o dedo e usado um algoritmo com base na diferenca de imagens. No entanto
para detetar quando existe um apontar (toque na mesa) e usado um pequeno microfone colocado debaixo da
superfıcie que sente o pequeno som do toque. Utilizando esta capacidade, era possıvel adicionar numeros a
uma calculadora digital recorrendo apenas ao apontar. A grande limitacao residia no facto de esses numeros
necessitarem de estar destacados do restante conteudo.
Inspirados pelo trabalho anterior para tornar bits acessıveis no mundo fısico, Ishii et al. [12], usaram
superfıcies interativas, ou seja, objetos acoplados com informacao digital. A mesa interativa consistia numa
superfıcie de retroprojecao com a habilidade de ”sentir” pequenos marcos fısicos, usando um conjunto de
sensores mecanicos, oticos e tambem pequenos sensores de campo eletromagnetico.
Quando um marco e detetado e reconhecido pela mesa, e projetado o mapa da zona centrado nele. Existia
mais um conjunto de funcionalidades, permitidas por uma serie de dispositivos ligados a mesa. Um pequeno
ecra com um braco articulado (activeLENS ) permitia a visualizacao do mesmo mapa projetado na mesa mas
em 3D. Outro dispositivo, passiveLENS, uma lente otica passiva, permitia visualizar a imagem de satelite
desse mesmo mapa. Por fim era possıvel tambem rodar e escalar o mapa, manipulando pequenos objetos
sobre a superfıcie.
Pela primeira vez foram usados modelos fısicos como metaforas para criar a ponte entre objetos fısicos e
Figura 2.1: Setup do sistema DigitalDesk tal como idealizado por Wellner et al. (Imagem extraıda
de [11] c© 1991 ACM).
5
conteudo digital. No entanto a necessidade de diversos objetos para realizar um pequeno numero de tarefas
levou a que esta abordagem fosse descartada em trabalhos mais recentes.
Para tentar tornar este tipo de interacao portatil, Wilson et al. [13] com PlayAnywhere introduzem um
sistema compacto capaz de reconhecer o toque do utilizador atraves de algoritmos baseados em observacao de
sombras. Tal como no trabalho Wellner, os autores integram a capacidade do sistema, nao so de reconhecer
folhas de papel, como tambem de projetar imagens na superfıcie, permitindo assim manipular em simultaneo
objetos fısicos e virtuais sem necessitar de qualquer calibracao previa.
Para tornar isto possıvel o sistema inclui uma camara, um pequeno projetor e uma luz de infravermelhos.
Sendo a camara e a luz infravermelha usada na detecao do toque na superfıcie como se pode ver na Figura 2.2.
Para tornar mais fiavel o reconhecimento de objetos fısicos numa mesa interativa Olwal et al. [14] in-
troduzem a tecnologia de Identificacao por radio frequencia (RFID). Os autores usam esta tecnologia para
identificar os objetos, combinando-a e sincronizando-a com informacao obtida de uma camara RGB. Enquanto
a camara fornece a posicao dos objetos na superfıcie, o RFID consegue identifica-los. Com esta combinacao
e possıvel distinguir dois objetos identicos que se encontrem na superfıcie de interacao.
Mais tarde Avrahami et al. [15] incorporam estas ideias de interacoes com objetos fısicos acima da su-
perfıcie, e de portabilidade, usando um tablet comercial. Portico consegue isto atraves do uso de duas camaras
colocadas no topo de dois bracos dobraveis que se anexam ao tablet, como podemos ver na figura (Figura 2.3).
Este sistema fornece um grande campo de visao o que permite interagir atraves de objetos fısicos, nao so
na pequena superfıcie do tablet, mas tambem para alem desta, (Figura 2.3). Embora este trabalho traga
avancos em termos de portabilidade, o sistema ao depender de duas camaras RGB para o reconhecimento
de objetos, tal como os trabalhos anteriores, esta fortemente dependente das condicoes de iluminacao do local.
Mas e se fosse possıvel colocar objetos fısicos a levitar e movimenta-los atraves do computador como se
estivessemos a interagir diretamente com um mundo virtual? Lee et al. [16] introduziram ZeroN, um novo
Figura 2.2: Na imagem da esquerda encontram-se as sombras vistas pelo PlayAnywhere apos avaliar a
imagem da direita. (Imagem extraıda de [13] c© 2011 ACM).
6
Figura 2.3: Prototipo de Portico com interacao para alem da superfıcie do Tablet (Imagem extraıda
de [15] c© 2011 ACM).
interface tangıvel que permite ao utilizador colocar literalmente as maos no espaco de simulacao 3D e mudar
a sua configuracao numa forma tangıvel.
O utilizador pode simular a orbita dum planeta, e muda-la a seu belo prazer. Pode tambem usar ZeroN
para simular a luz solar num pequeno mundo fısico ou ate usa-lo para controlar a camara de um ambiente
virtual, como se pode ver na Figura 2.4.
Para permitir isto, os autores desenvolveram um sistema de controlo magnetico que consegue levitar e
atuar como um ıman num espaco tridimensional. Para projetar imagens nos objetos flutuantes, os autores
combinam um sistema de rastreamento otico com um sistema de projecao.
Neste conjunto de trabalhos com tangıveis foi possıvel perceber, nao so como comecaram as interacoes
e detecao de gestos em superfıcies interativas, como tambem que estas ainda sao motivo de investigacao,
pois podem oferecer varias formas de manipular informacao digital. Embora estes representem uma forma
interessante de interacao, apresentam varias limitacoes que impossibilitam a sua adocao para o nosso trabalho.
A colocacao de tangıveis no espaco nao e possıvel em ambientes de grande dimensao como no caso de mesas
interativas, assim como tambem nao e possıvel alterar a sua escala.
Figura 2.4: Utilizador a manipular a camara da cena virtual a esquerda. ZeroN a simular a orbita de um
planeta na imagem a direita (Imagem extraıda de [16] c© 2011 ACM).
7
2.2 Reconhecimento de gestos
Interfaces e dispositivos que permitem reconhecer gestos do utilizador, eram ate ha muito pouco tempo usados
num numero muito limitado de aplicacoes, fortemente focadas para um grupo restrito de utilizadores. Nesta
seccao do documento iremos analisar diversas tecnicas desenvolvidas para reconhecer gestos do utilizador de
forma a permitir que este interaja com o ambiente virtual.
O aparecimento de dispositivos que permitem percecionar o movimento do utilizador em consolas de
videojogos, como a Nintendo WiiTM, Sony MoveTM e Microsoft KinectTM, tornaram este tipo de interfaces
acessıveis a qualquer pessoa.
Nintendo Wii Remote, o primeiro dos tres a surgir, e um dispositivo que esta equipado com um sensor
capaz de detetar movimento e direcao, o que permite ao utilizador interagir e manipular objetos num ecra
usando os movimentos do seu braco. Este dispositivo consegue nao so detetar o movimento efetuado pelo
utilizador, atraves de um acelerometro no seu interior, como tambem reconhecer para onde o utilizador tem
o braco a apontar, atraves de um sensor otico que tem de ser colocado a sua frente. Esta tecnologia foi
criada pela Nintendo para ser usada como comando da sua consola, mas esta tambem tem sido utilizada na
investigacao, como por exemplo em quadros interativos para salas de aula ou ate mesmo como seguimento da
cabeca para aumentar a percecao em realidade virtual [17]. Este princıpio de apontar atraves de um recetor
otico esta ja largamente disponıvel em varios dispositivos que nos rodeiam, e nao so na Nintendo Wii, como
por exemplo em algumas Smart TV.
Alguns anos mais tarde, a Sony apresenta o Playstation Move, que embora seja bastante parecido com o
Wii Remote, usa tecnologia diferente. Atraves da combinacao de um sensor de inercia e de uma camara RGB
(Playstation eye), este e capaz de aferir o movimento efetuado pela mao do utilizador. Para que a camara
consiga distinguir onde esta o comando no cenario de interacao, este possui uma bola colorida na ponta. Esta
tecnologia distingue-se do Wii Remote, que recebe dados de uma luz infravermelha transmitida pelo sensor
colocado em frente ao local onde o utilizador vai interagir, para saber para onde este esta a apontar.
Por outro lado, a Microsoft foge a este tipo de controladores convencionais colocados nas maos do uti-
lizador, e cria o Kinect. Este dispositivo combina uma normal camara RGB com uma camara de profundidade
VGA de baixo custo, conseguindo reconhecer o corpo inteiro do utilizador. Pela primeira vez foi possıvel
interagir com o mundo virtual a baixo custo, sem que o utilizador necessitasse de qualquer comando ou dis-
positivo intrusivo. Desde entao este dispositivo tem sido alvo de investigacao num vasto leque de diferentes
areas, como se podera ver de seguida.
Doliotis et al. [18] realizaram um trabalho para comparar detecao de gestos recorrendo a informacao
de cor ou de profundidade. Para detetar gestos atraves do uso de uma camara RGB os autores utilizaram
um algoritmo de reconhecimento da pele, que cria um histograma de cor que classifica cada pixel com uma
probabilidade de conter a pele do utilizador. Tambem e usado um algoritmo de calculo de diferenca entre
8
frames para detetar movimento. Atraves da combinacao destes dois algoritmos os autores conseguem obter
o local onde se encontra a mao do utilizador. Por outro lado, a imagem de profundidade dada pelo Kinect
atribui a cada pixel um valor numa escala de cinzentos, refletindo a distancia a camara. E entao computada
a diferenca de cada pixel com os seu vizinhos. Se o seu valor for maior que um certo limite e descartado,
sendo marcado com 0. Os restantes sao marcados com 1, obtendo assim uma matriz binaria. Sao entao
identificadas as cinco maiores zonas conectadas comuns nessa matriz binaria. Para cada uma dessas zonas e
calculada a media da profundidade de todos os pixeis. A zona que obtiver o menor valor e considerada o local
onde se encontra a pessoa mais proxima da camara. Depois e aplicada uma mascara e um filtro horizontal
para aferir onde se encontra a mao dessa pessoa.
Adicionalmente a estes metodos de detecao das maos, e aplicada uma classificacao de similaridade por
Nearest-Neighbor numa base de dados com exemplos. Esta classificacao recebe o retorno do metodo Dynamic
Time Warp para reconhecer os gestos. Dynamic Time Warping [19] e um metodo popular para alinhar
sequencias de tempo. Este metodo requer um detetor de maos perfeito, onde para cada frame, deve ser dada
a posicao exata da mao. Este metodo recebe como entrada uma sequencia de interrogacao e uma sequencia
de modelo, retornando uma pontuacao de semelhanca. Neste trabalho os autores deram ainda mais enfase as
fraquezas dos antigos metodos de detecao de movimento que recorrem a cor, e mostram que o uso de imagens
de profundidade consegue ser mais fiavel em ambientes com ruıdo.
Color Glove [8, 9], usa um par de luvas coloridas para capturar a posicao das maos no espaco utilizando
apenas uma camara RGB. O par de luvas foi construıdo pelos autores e sao constituıdas por varios pedacos
de cores diferentes, de forma a possibilitar a sua distincao na imagem capturada. A tecnica baseada em
detecao de cores usada pelos autores e barata e rapida, e permite a captura de movimento em 6-DOF em
tempo real. Contudo nao e de todo facil de usar, uma vez que o rastreamento sofre de pequenos problemas
de precisao em termos de posicao global das maos, o que leva a que tarefas mais minuciosas sejam difıceis de
realizar.
Mesmo tendo em conta este pequeno problema e possıvel mover objetos virtuais por forma a construir
uma estrutura em tres dimensoes. O facto de o utilizador necessitar de calcar uma luva, torna o sistema por
vezes pouco comodo e nao adaptavel a qualquer utilizador.
Para colmatar este problema,Efficient Model-based 3D Tracking of Hand Articulations [20] de
Oikonomidis et al., introduz um novo metodo que recorre a camaras de profundidade acessıveis para obter a
posicao espacial das maos. Os autores combinam as imagens RGB, usando um algoritmo de detecao de cor
de pele, com as imagens de profundidade, atraves de uma segmentacao da escala de cinzentos, para conseguir
isolar a mao do utilizador em 2D e em 3D.
Recorrendo apenas a primitivas 3D e cores, a mao e representada em tempo real num ambiente virtual,
como se pode ver na Figura 2.5. Este metodo provou ser eficiente para reconhecer a pose completa da mao do
9
Figura 2.5: Reconstrucao da mao num ambiente virtual usando primitivas atraves da combinacao de
imagem RBG com imagem de profundidade. (Imagem extraıda de [20] c© 2011 ACM)
utilizador, mas o facto de o utilizador necessitar de vestir mangas compridas, para o sistema detetar apenas
a cor da pele das maos, e uma enorme desvantagem.
Beneficiando da possibilidade trazida pelo Kinect, uma camara de profundidade de baixo custo, areas
como a medicina puderam beneficiar de interacoes recorrendo a dispositivos nao intrusivos em zonas em que
material nao esterilizado nao pode ser usado, como por exemplo em salas de operacoes. Controller-free
exploration of medical image data de Gallo et al. [7] explora esta situacao permitindo a navegacao numa
colecao de imagens utilizando apenas gestos. O seu sistema usa apenas uma camara Kinect para reconhecer
um conjunto de gestos para executar acoes basicas nas imagens, tais como navegacao, rotacao e escala.
O sistema necessita de uma preparacao inicial de trinta segundos para reconhecer, nao so o esqueleto do
utilizador, como tambem a area da mao do utilizador aberta e fechada. Este tipo de interacoes, recorrendo a
dispositivos nao intrusivos representa um enorme avanco neste tipo de areas com o um ambiente estritamente
controlado.
Para colmatar os problemas dos trabalho referidos, mais recentemente Wang et al. [6] introduzem um
novo metodo que utiliza camaras de profundidade, nao so para obter a posicao espacial das maos, como
tambem a sua orientacao, conseguindo detetar um conjunto pre definido de gestos em 6-DOF, como por
exemplo apontar e agarrar.
A grande caracterıstica deste trabalho consiste em permitir o seguimento das maos de qualquer utilizador
sem necessitar de qualquer dispositivo intrusivo e sem necessitar de mangas compridas, como vimos num
trabalho anterior. Para conseguir concretizar este trabalho, os autores colocam duas camaras Kinect sobre a
zona de interacao, como se pode ver na Figura 2.6. Atraves da observacao pixel a pixel da escala de cinzentos
obtida na imagem de profundidade fornecida pelas duas camaras Kinect, o sistema consegue retirar o fundo
e deixar presentes apenas as maos do utilizador. Depois e feita uma pesquisa por Nearest-Neighbor com-
parando as imagens obtidas com as de uma base de dados pre criada com exemplos de poses de maos. Essa
pose e entao recriada num espaco de interacao tridimensional, fazendo um mapeamento direto da posicao e
da orientacao da mao.
10
Figura 2.6: Akimbo Kinect de Wang et al. a reconhecer as maos de um utilizador acima da superfıcie.
(Imagem extraıda de [6] c© 2011 ACM)
Outras formas de interacao tambem tem vindo a ser exploradas, como no trabalho de la Riviere [21],
CubTile. Numa tentativa de tentar colmatar as limitacoes existentes de uma superfıcie plana com multi-
toque para interacoes num espaco virtual 3D, os autores propoem um dispositivo em forma de cubo. Neste
cubo, cinco das suas seis faces sao superfıcies multi-toque que suportam interacoes bimanuais. Essas in-
teracoes podem ser realizadas em varias faces em simultaneo, correspondendo a gestos 3D que sao mapeados
para o espaco de interacao virtual. Atraves de gestos que imitam acoes do nosso dia a dia, com objetos
fısicos, e possıvel mover, deslocando dois dedos simetricamente em lados opostos do cubo, rodar, movendo
dois dedos em cırculo em faces opostas (Figura 2.7 a esquerda), e escalar o objeto, afastando ou aproximando
dois dedos numa face. Com este dispositivo, a manipulacao 3D de um unico objeto, atraves de multi-toque,
torna-se facil em cenarios de ecra de larga escala (Figura 2.7 a direita) ou de oculos de realidade virtual.
Figura 2.7: A esquerda exemplo de gesto de rotacao. A direita um utilizador numa situacao de exposicao a
usar o Cubtile. (Imagens extraıdas de [21] c© 2008 ACM)
11
Existem varias solucoes que permitem reconhecer gestos do utilizador para controlar objectos num espaco
tridimensional. O cubtile com a sua interface focada para a manipulacao de um unico objecto revela-se
inadequada para o nosso cenario pretendido de mesas interactivas. Uma vez que Wang et al. apresentam
uma solucao que colmata as limitacoes inerentes dos trabalhos de Oikonomidis et al., que necessita de mangas
compridas devido ao seu algoritmo de reconhecimento da cor da pele, e da Color Glove, que requer um
dispositivo vestıvel, parece ser a solucao mais adequada a adoptar.
2.3 Interacao Baseada em Gestos
Utilizando tecnicas de reconhecimentos de gestos, tem sido possıvel explorar varias abordagens gestuais de
forma a possibilitar a manipulacao de objetos num ambiente virtual tridimensional. Estas abordagens recor-
rem normalmente ao uso de superfıcies multi-toque, mas ultimamente recorrem tambem ao espaco contınuo
a superfıcie de visualizacao, como as apresentadas na seccao anterior.
Kruger et al. [23] apresentam o algoritmo RNT (Rotate N’ Translate), uma tecnica que permite deslo-
car e rodar objetos em duas dimensoes de forma integrada com apenas um toque. Mais tarde, baseando-se
na separacao dos graus de liberdade, Hancock et al. apresentam o algoritmo Translation-Rotation-Scale
(TRS) [22], considerado de facto standard para manipulacoes bidimensionais com recurso a multi-toque.
Este algoritmo consiste em utilizar um toque, diretamente no objeto, para controlar apenas a sua translacao,
Figura 2.8a. Usando um segundo toque, tambem de forma direta, e possıvel rodar o objeto atraves o angulo
(a) Translacao usando um ponto de contacto direto com o
objecto e arrastando na superficie.
(b) Rotacao atraves de um segundo ponto direto
usando a posicao relativa entre os dedos.
Figura 2.8: Tecnica de interacao TRS. (Imagens extraıdas de [22] c© 2006 ACM)
12
descrito pela variacao da posicao de um toque em relacao ao outro. Com estes dois toques, e ainda possıvel
controlar a escala uniforme do objeto, o aumento e diminuicao da distancia entre estes toques aumentam e
diminuem respetivamente o seu tamanho. Os toques usados na manipulacao mantem-se fixos no objeto ate
ao termino de todas as manipulacoes. O algoritmo TRS, esquematizado na Figura 2.8b, e o que se encontra
implementado em quase todos os dispositivos multi-toque que usamos diariamente.
Depois de desenvolver tres tecnicas, trazendo o seu algoritmo TRS para a terceira dimensao, para controlo
de seis graus de liberdade (6-DOF), usando um, dois e tres toques, Hancock et al. [24] com Shallow-Depth,
concluiram que quanto maior o numero de toques, melhor seria a abordagem em termos de performance e
preferencia do utilizador. Estes resultados sugerem que mapeamento mais proximo da quantidade de input
para a quantidade de DOFs controlados e preferıvel.
Na continuacao destes trabalhos, ainda Hancock et al. [25] introduzem um paradigma de interacao
concretizado atraves de Sticky Tools: uma combinacao de Sticky Fingers, uma tecnica para mover, rodar
e levantar objetos, com opposable thumb, um metodo para rodar objetos, e Virtual Tools, um metodo para
propagar comportamento para outros objetos virtuais na cena.
Esta tecnica 3D permite 6-DOF usando, um ponto de contacto para translacao, dois para rodar no plano
da superfıcie como no TRS, mas usando a distancia entre estes para a translacao na terceira dimensao em
vez da escala (Figura 2.9 (a, b e c). Para efetuar as restantes rotacoes, esta tecnica utiliza o opposable thumb
onde o utilizador define o eixo de rotacao usando dois pontos de contacto sobre o objeto. Depois, usando
um terceiro ponto, descrevendo um movimento perpendicular passando pelo eixo descrito, efetua rotacoes no
objeto segundo esse eixo (como ilustrado na Figura 2.9 (d)).
Figura 2.9: Tecnica Sticky Fingers nas imagens (a,b e c). Tecnica Opposable Thumb na imagem (d).
(Imagem extraıda de [25] c© 2009 ACM)
13
Utilizando tambem o algoritmo TRS, Reisman et al. [26] propoem um metodo que usa varios pontos de
contacto numa superfıcie multi-toque para manipular objetos tridimensionais em 6-DOFs em simultaneo,
a que chamaram de Screen-Space. Esta tecnica utiliza uma funcao de resolucao de restricoes (constrain
solver) que calcula a posicao do objeto e a sua orientacao mantendo constantes as posicoes dos dedos no
espaco 2D da superfıcie de interacao com a posicao 3D da cena virtual. E possıvel tambem efetuar rotacoes
usando a tecnica opposable thumbs apresentada anteriormente. No entanto, se o terceiro toque nao efetuar
movimentos perpendiculares ao eixo definido, o objeto rodara de forma a seguir esse dedo. O mesmo sucede
caso os toques que definem o eixo de rotacao se desloquem, com o objeto a ser rodado ou movido para refletir
esse movimento. O principal problema com esta tecnica, prende-se exatamente com a sua solucao integrada
que proporciona manipulacao de diferentes transformacoes ao mesmo tempo permitindo que sucedam com
frequencia acoes nao pretendidas.
Aderecando exatamente este problema, Nacenta et al. [27] elaboraram um estudo com utilizadores
comparando quatro diferentes tecnicas de interacao multi-toque que permitem ao utilizador escolher um
conjunto de manipulacoes, para reduzir o efeito das acoes indesejadas. Com este estudo os autores defendem
a separacao dos graus de liberdade em interacao multi-toque. Baseando-se nesta separacao dos graus
de liberdade, Martinet et al. [28] introduziram DS3 (Depth-Separated Screen Space), uma nova tecnica
de manipulacao 3D. No seu trabalho o autor compara-a com outras tecnicas, como a Sticky tools, concluindo
que com a separacao de DOFs e 22 % mais rapida que as anteriores, quer em termos de rotacao, quer em
termos de translacao. Esta tecnica apresentada pelos autores utiliza um ponto de contacto direto com o
objeto para efetuar translacao na superfıcie de contacto, tal como nas tecnicas anteriores. No entanto esta e
combinada com Z-Technique, uma tecnica tambem proposta por este autor anteriormente.
A tecnica Z-Technique [29] utiliza um segundo ponto indireto, atraves de movimentos verticais, para
conseguir controlar a altura do objeto. O utilizador desloca o dedo do ponto indireto para cima, para fazer
subir o objeto, e desloca-o para baixo, para obter o comportamento inverso. Para a rotacao a tecnica utiliza
os mesmos princıpios da tecnica Sticky Fingers.
Para melhor entender os gestos dos utilizadores em tarefas de manipulacao com dispositivos multi-toque,
Cohe et al. [30] realizaram um estudo onde pediram aos utilizadores que desenhassem, numa imagem
estatica dum cubo 3D, o gesto que tinham acabado de ver num pequeno vıdeo. Neste estudo foi tida em conta
a rotacao, translacao e escala. Com este estudo os autores concluıram que interacoes com objetos plausıveis
na realidade foram dominantes, e que, existem diferentes estrategias para desenvolver uma aplicacao que
foque a facilidade de usar ou um uso amplo.
Ainda Cohe et al. [31], baseando-se na separacao de DOFs e tambem em observacoes de utilizadores
com widgets, desenvolveram o seu proprio widget para manipulacoes multi-toque com objetos tridimension-
ais em 9-DOF, tBox, um cubo apenas com as arestas a envolver o objeto a manipular (Figura 2.10). Ao
14
Figura 2.10: Widget tBox desenvolvido por Cohe et al. para manipulacoes em 9-DOF. (Imagem extraıda
de [30] c© 2012 ACM)
arrastar o dedo nas faces imaginarias do cubo o utilizador roda o objeto. Ao arrastar o dedo nas arestas
o utilizador desloca o objeto no eixo imaginario desenhado por essa mesma aresta. Para escalar o objeto o
utilizador usa duas arestas paralelas, aproximando-as ou afastando-as.
Mendes et al. com LTouchIT [32] utilizam manipulacoes diretas para permitir ao utilizador efetuar
translacoes a objetos num espaco tridimensional. No entanto os autores recorrem a widgets tridimensionais
para permitir as rotacoes segundos os tres eixos dos objetos. Estes widgets adotam uma metafora de Rotation-
Handles. Nesta metafora o utilizador usa um toque no objeto e outro fora deste (de forma indireta) ativando
o widget. Depois, atraves do arrastar das pegas desse widget, consegue rodar o objeto, como esta ilustrado
na Figura 2.11.
Recorrendo tambem a utilizacao de widgets Knoedel et al. [33] investigaram o impacto do uso de
abordagens diretas e indiretas em tecnicas de manipulacao que usam o algoritmo TRS. O estudo com
utilizadores conduzido pelos autores em tarefas de encaixe revelou que uma abordagem direta pode levar
a melhores tempos de conclusao. No entanto a utilizacao de uma abordagem indireta, para alem de evitar
possıveis oclusoes em ambientes tridimensionais, pode beneficiar de eficiencia e precisao.
Figura 2.11: Widget de rotacao de objectos no espaco de LTouchIT. Activacao do widget (a). Rotacao
efectuada (b). (Imagem extraıda de [32] c© 2010 ACM)
15
Mais recentemente Bollensdroff et al. [1] redesenharam tecnicas antigas de interacao tridimensional [34]
em dispositivos multi-toque. Os autores exploraram tecnicas baseadas em widgets 3D, semelhantes a tecnica
tBox previamente apresentada, chamadas de GimbalBox. Esta tecnica, ao contrario da tecnica tBox, recorre
as tres faces visıveis do cubo para efetuar as translacoes segundo o plano por elas descrito. Tambem permite
rotacoes no eixo perpendicular a essa face usando dois dedos, imitando o algoritmo RST. Para as restantes
rotacoes os autores recorrem a duas abordagens distintas, ou arrastando as arestas do cubo na perpendicular,
ou arrastando dois dedos na mesma direcao nas faces do cubo imitando rotacoes em esfera. No entanto estas
tecnicas nao permitem escalar os objetos, uma vez que os autores consideram que ao pretenderem imitar
interacoes com objetos fısicos, nao deve ser possıvel escalar.
Num estudo comparativo efetuado com utilizadores, os autores defendem que as suas tecnicas sao superi-
ores as abordagens de Hancock e Reisman [25, 26]. Concluindo que widgets adaptados a interacoes sao
superiores a outras abordagens multi-toque, fortalecendo assim a separacao dos DOFs reduzindo o controlo
de graus de liberdade, num subespaco 2D, para quatro em simultaneo. Para alem disso, os autores sugerem
que o multi-toque nao e a resposta final para interacoes 3D, uma vez que o espaco de interacao nunca
podera reproduzir movimentos preciso de um objeto 3D no espaco.
Hilliges et al. [35] apresentaram uma tecnica, In the Air, que permite alternar facilmente entre as in-
teracoes sobre e em cima de uma mesa interativa. O seu objetivo era criar uma tecnica que permitisse ao
utilizador controlar objetos virtuais de forma semelhante a como faria com objetos fısicos, agarrando-os e
manipulando-os em 3D (Figura 2.12). A tecnica desenvolvida e baseada em sombras e permite interacoes
acima da mesa com quatro graus de liberdade (tres de translacao e uma rotacao). Atraves de um algoritmo
de visao os autores conseguiam detetar o gesto de agarrar (o Polegar e Indicador tocarem) e saber, atraves
da intensidade media de pixeis, a altura da mao. Marquardt et al. [36] propoem um conceito que tambem
Figura 2.12: Tecnica de In the Air posta em pratica para a manipulacao de objetos tridimensionais em
4-DOF. (Imagem extraıda de [35] c© 2009 ACM)
16
combina o espaco acima de uma mesa interativa com a sua superfıcie, num espaco de interacao contınuo onde
o utilizador pode passar de interacoes baseadas em toque para gestos em cima da mesa. Neste trabalho os
autores ilustram varias composicoes gestuais para tirar partido deste espaco estendido.
Com vista a tirar o maximo partido e a melhorar a visualizacao tridimensional e a percecao espacial,
muitos investigadores recorrem a interacoes em ambientes estereoscopicos. Considerando a colocacao de
objetos virtuais no interior da superfıcie de uma mesa interativa, numa abordagem de aquario, as tecnicas
de interacao baseadas em toque sofrem de problemas de paralaxe, tal como Mollers et al. [37] apresen-
tam e tentam contornar no seu trabalho. Os autores apresentam varios metodos para tentar solucionar o
problema de o objeto nao permanecer centrado com o toque durante a interacao neste cenario de aquario
com a projecao centrada na cabeca do utilizador, Figura 2.13. Atraves de um estudo com utilizadores os
autores sugerem o metodo de correcao adaptativa, provando ser mais rapido e preciso, diminuindo a barreira
entre uma abordagem bidimensional direta para objetos tridimensionais. Este metodo faz o objeto seguir o
dedo acrescentando apenas um pequeno offset para compensar a sensacao de que este se esta a mover mais
devagar que o dedo, devido a sua profundidade. No entanto, o movimento da cabeca nao provoca qualquer
mudanca na posicao do objeto.
No que diz respeito a colocacao de objetos em cima da superfıcie, algumas solucoes ja foram exploradas.
Benko et al. [4] propoem a metafora do balao para controlar um cursor que permite manipular objetos
virtuais em cima da mesa num ambiente estereoscopico em quatro graus de liberdade (novamente, tres
graus de translacao e um de rotacao no eixo perpendicular a superfıcie de interacao). Esta tecnica e baseada
em multi-toque usando a distancia entre dois dedos (um em cada mao, Figura 2.14) para definir a altura
do cursor no espaco virtual. Aproximando os dedos, e como se o utilizador estivesse a dar corda ao balao,
fazendo subir o cursor. Afastando os dedos, provoca o comportamento contrario, fazendo descer o cursor.
Figura 2.13: Problema de paralaxe num cenario de aquario tal como aderecado por Mollers et al. (Imagem
extraıda de [37] c© 2012 ACM)
17
Figura 2.14: Tecnica Balloon Selection proposta por Benko et al. O utilizador recorre a distancia de um
dedo de cada mao para controlar a altura de um cursor. (Imagem extraıda de [4] c© 2007 ACM)
Mais tarde, Daiber et al. [38], revisitam esta tecnica e criam uma variacao utilizando a metafora do
saca-rolhas. Nesta versao, o utilizador em vez de usar a distancia entre dois dedos para controlar a altura
dum cursor, descreve um gesto circular num widget redondo. Rodando na direcao dos ponteiros do relogio
o utilizador faz o ponteiro afundar, rodando na direcao oposta a dos ponteiros do relogio faz este subir. Os
autores fazem um estudo comparativo entre as duas em cenario de aquario e acima da mesa, revelando que
ambas sao mais difıceis de usar num cenario de aquario mas que tambem ambas tem os seus pontos fortes,
nao havendo uma tecnica preferencial.
Ainda em ambientes estereoscopicos, Strothoff et al. [3] propoem uma outra abordagem multi-toque
para manipulacoes de objetos em 3D atraves do uso de um cursor. O utilizador usa dois toques para definir
a base dum triangulo que tem no seu terceiro vertice, acima da mesa, um cursor para as manipulacoes. Para
fazer subir o cursor, o utilizador aumenta a distancia entre toques, para obter o comportamento contrario,
o utilizador aproxima os toques. Num teste com utilizadores os autores confirmam que esta tecnica e signi-
ficativamente mais rapida que a tecnica do balao, sem perder precisao no processo. Os autores apresentam
tambem uma possıvel extensao desta tecnica para 6-DOF.
Por forma a conseguir manipular objetos virtuais nos 9-DOF, Hachet et al. [2] introduziram um inovador
setup, que recorre a uma visualizacao estereoscopica co alocada (a frende da superfıcie de interacao), a que
chamaram de Toucheo (Figura 2.15). Neste novo setup o utilizador interage com os objetos atraves de
widgets numa superfıcie multi-toque colocada estrategicamente por debaixo do ecra estereoscopico de forma
a evitar oclusoes causadas pelas maos.
Para conseguir os 9-DOF os autores combinaram o algoritmo bidimensional TRS, controlado num cırculo
colocado por debaixo do objeto, com a metafora do balao [4] para controlar a altura do objeto, cujo widget
e mostrado ao tocar no centro desse cırculo. Os autores utilizaram ainda outros tres widgets que servem em
simultaneo para controlar as restantes rotacoes e as escalas nos tres eixos. Ao utilizar estes widgets como se
18
Figura 2.15: Manipulacoes atraves de interacoes com widgets no sistema Toucheo. (Imagem extraıda
de [2] c© 2011 ACM)
fossem hastes, passando o dedo perpendicularmente a estes, o utilizador roda o objeto, ao utilizar os widgets
aproximando e afastando do cırculo, o utilizador escala-o no respetivo eixo.
Hilliges et al. [39] criaram tambem um setup com visualizacao co alocada identico ao anterior, o Holodesk.
Em vez de permitir aos utilizadores manipular objetos virtuais em 9-DOF com estereoscopia, Holodesk da ao
utilizador a ilusao de interacao direta com graficos tridimensionais, atraves de uma camara de profundidade
colocada por cima do ecra. Como o ecra se encontra colocado por cima da zona de interacao, e criada a ilusao
de que os objetos coexistem lado a lado com as maos do utilizador. Atraves do uso da camara de profundi-
dade e possıvel saber a posicao das maos num espaco tridimensional, permitindo ao utilizador empurrar ou
levantar objetos na palma da sua mao em 6-DOF. Desta forma e possıvel usar tambem objetos fısicos para
interagir com o mundo virtual.
Um outro trabalho recente, Mockup Builder [40] explora interacoes bimanuais contınuas na e acima da
superfıcie para modelar ambientes virtuais. Este trabalho oferece um ambiente semi-imersivo que recorre ao
uso de estereoscopia em que o utilizador tem uma perspetiva personalizada conseguida atraves da monitor-
izacao da cabeca do utilizador usando um sensor de profundidade Microsoft Kinect. Os autores combinam
uma superfıcie multi-toque com dois GameTracks para obter a posicao das maos do utilizador, nao so na su-
perfıcie, como acima desta. Neste ambiente o utilizador pode modelar objetos tridimensionais e manipula-los
livremente em seis graus de liberdade usando uma adaptacao do algoritmo TRS para tres dimensoes.
Embora sem introduzir estereoscopia no seu trabalho, Song et al. [10] exploraram interacoes espaciais.
Os autores propuseram a metafora do espeto (Handle-Bar) como uma forma eficaz de manipular objetos
tridimensionais no espaco. Esta metafora consiste em tentar imitar o uso de um espeto, tipicamente usado
para assar frangos, onde o utilizador segura uma barra com duas maos mantendo o frango no seu centro,
como exemplificado na Figura 2.16. Para permitir que isto seja possıvel, os autores usam uma camara de
19
Figura 2.16: Metafora do espeto explorada por Song et al. para manipular varios objetos em simultaneo
com sete graus de liberdade. (Imagem extraıda de [10] c© 2012 ACM)
profundidade para reconhecer as maos do utilizador, assim como o gesto de agarrar.
Para manipular objetos o utilizador desloca as maos (cursores virtuais) por forma a colocar um ou varios
objetos entre estas, realizando entao o gesto de agarrar. Com os objetos agarrados e possıvel controla-los
num total de 7-DOF, movimentando as maos na mesma direcao para mover e rodando as maos em torno do
centro para efetuar rotacoes aos objetos. Para escalar, basta afastar ou aproximar as maos, aumentando e
reduzindo uniformemente a escala do objeto.
Todos os trabalhos mencionados nesta parte do documento, que permitem manipulacao de objetos tridi-
mensionais em estereoscopia, focam-se primariamente em abordagens de interacao multi-toque ou atraves
do uso de dispositivos intrusivos. Embora ja se tenha encontrado de facto um standard facil de usar para
interacoes bidimensionais recorrendo a dispositivos multi-toque, a adaptacao destas abordagens para ma-
nipulacao de objetos tridimensionais nao e trivial. Podemos tambem verificar que as interacoes espaciais
normalmente recorrem a dispositivos intrusivos ou entao nao usam ambientes com visualizacao estereoscopica.
2.4 Discussao
Tendo sido expostos os trabalhos mais relevantes para manipulacao de objetos tridimensionais acima de
superfıcies interativas, apresentamos assim a sua discussao. Na Tabela 5.2 sao comparadas as varias abor-
dagens, relacionando graus de liberdade com o tipo de abordagem e se esta e direta ou indireta, se permite
manipular objetos em tres dimensoes e se a visualizacao do utilizador e estereoscopica ou nao.
No que diz respeito as tecnicas de interacao que recorrem a multi-toque, podemos verificar que exis-
tem varias abordagens que permitem manipular ate seis, ou mais graus de liberdade de um objeto em
tres dimensoes. Nao se tendo ainda chegado a um consenso, alguns autores defendem abordagens do tipo
direta [24, 25, 26, 28] enquanto outros defendem tecnicas indiretas com recurso a widgets [31, 32, 1, 2], de-
fendendo a separacao dos graus de liberdade, pois a sua integracao, permitindo realizar varias manipulacoes
20
DOF
toqu
e
espa
cial
dire
cta
indi
rect
a
2D 3D este
reos
copi
a
RNT 4 4 4 4
TRS 4 4 4 4
Shallow-Depth 6 4 4 4
Sticky Tools 6 4 4 4
Z-Technique 3 4 4 4
Screen-Space 6 4 4 4
DS3 6 4 4 4
tBox 9 4 4 4
LTouchIT 6 4 4 4
GimbalBox 6 4 4 4
In the Air 4 4 4 4
Balloon Selection 4 4 4 4 4
Triangle Cursor 4 4 4 4 4
Toucheo 9 4 4 4 4
Holodesk 6 4 4 4 4
Mockup Builder 7 4 4 4 4
Handle-Bar 7 4 4 4
Tabela 2.1: Tabela comparativa das tecnicas apresentadas.
em simultaneo, pode provocar demasiadas acoes involuntarias, perdendo precisao e eficacia. Esta divergencia
deve-se ao facto de existir a necessidade de uma constante mudanca do mapeamento de um subespaco de
interacao em duas dimensoes para permitir manipulacao num espaco virtual a tres dimensoes.
Esta diferenca de concordancia ja nao se verifica se o cenario de interacao incluir visualizacao estere-
oscopica. Isto deve-se ao facto de a visualizacao estereoscopica dar a ilusao ao utilizador de que os objetos
estao acima ou abaixo da superfıcie, dependendo do cenario escolhido. Desta forma, todos os autores apre-
sentam abordagens de manipulacao multi-toque indireta para controlar objetos tridimensionais em estereo-
scopia [4, 3, 2]. Embora Triangle Cursor [3], enquanto cursor espacial de selecao, prove ser mais rapido que
Ballon Selection [4], Toucheo [2] mostra que a tecnica do balao e facilmente combinada com outras abor-
dagens, como o TRS, permitindo o desenvolvimento de abordagens com um maior grau de liberdade para
manipulacoes de objetos tridimensionais num cenario com estereoscopia.
No que diz respeito a abordagens espaciais, todas as tecnicas apresentadas permitem pelo menos seis
graus de liberdade. Estas, quando aplicadas a um cenario com visualizacao estereoscopica permitem manip-
ulacoes diretas. A abordagem de Mockup Builder [40] recorre a dispositivos intrusivos (GameTracks) com
uma adaptacao do algoritmo TRS para a terceira dimensao, enquanto que Holodesk [39] usa um sensor de
21
profundidade para seguir as maos do utilizador e objetos fısicos, para permitir uma interacao com objetos
virtuais na cena.
Handle-bar [10] por outro lado, nao e aplicada a um cenario de estereoscopia, mas atraves de uma
abordagem espacial indireta permite manipular objetos em sete graus de liberdade. Esta tecnica aplicada a
cenarios com visualizacao estereoscopica, tem ainda a vantagem de nao provocar oclusoes no objeto que o
utilizador se encontra a manipular. No entanto os autores nao exploraram este cenario.
Como podemos observar, interacoes acima de mesas interativas continua a ser um tema pertinente de
investigacao, nao havendo consenso por parte da literatura em relacao aos caminhos a seguir. A estereoscopia
abre novas possibilidades e traz novos desafios associados, mas oferece ao mesmo tempo uma melhor percecao
espacial da cena tridimensional ao utilizador, criando um ambiente semi-imersivo. O uso da tecnologia
dinamiza a experiencia em exposicoes culturais [41, 42], permitindo ao utilizador obter mais informacao, tal
como Correia et al. [43] mostraram no seu trabalho. Os autores apresentam no seu trabalho os requisitos
que devem ser tidos em conta aquando da construcao quer de uma aplicacao, quer de um prototipo fısico, de
forma a que seja suficientemente robusto para garantir uma interacao multimedia enriquecedora em Museus.
22
Capıtulo 3
Projecto Alberti Digital
O patrimonio cultural e uma heranca do nosso passado que deve ser passada nao so a actual, como tambem as
geracoes futuras. Avancos tecnologicos na area dos computadores permitem expressar essa heranca atraves
de mundos virtuais tridimensionais. O uso deste tipo de cenarios tem provado ajudar a estudar e entender
diferentes locais e objetos do nosso passado. Nestes ambientes os utilizadores poderao entrar em recriacoes
digitais de espacos ja extintos (como por exemplo os jardins da Babilonia), ou manipular replicas de objetos
raros bastante antigos inacessıveis de outra forma.
3.1 Enquadramento
O projeto Alberti Digital foi um projeto nacional financiado pela Fundacao para a Ciencia e a Tecnologia
(FCT) com referencia PTDC/AUR-AQI/108274/2008 em parceria com a Faculdade de Arquitetura de Lisboa,
a Faculdade de Coimbra e o Instituto Superior Tecnico, que tinha como objetivo desenvolver um prototipo
para a exposicao Alberti Digital com vista a inovar na teoria e pratica da arquitetura em Portugal. O problema
de desenhar uma interface para uma aplicacao de heranca cultural e particularmente interessante, uma vez
que devem ser tidos em conta diversos fatores, desde a facilidade de utilizacao, divertimento, performance,
robustez e suporte para personalizacao e colaboracao.
O prototipo que desenvolvemos neste projeto pretendeu dar a conhecer algumas das obras mais em-
blematicas criadas com base no tratado de Leon Battista Alberti (1404-1472), cujo documento original nao
possui qualquer ilustracao. O prototipo tambem permite pela primeira vez ao utilizador criar o seu proprio
templo em tempo real, seguindo as regras presentes no tratado de Alberti. Nesta seccao sera apresentado
o trabalho que foi desenvolvido no ambito deste projeto, assim como uma breve apresentacao da exposicao
publica, na qual estivemos envolvidos e que decorreu no Museu da Ciencia em Coimbra e tambem na Fac-
uldade de Arquitetura de Lisboa. A contribuicao deste trabalho de mestrado no projecto Alberti Digital
centrou-se na concepcao do prototipo de mesa interativa e navegacao para a exposicao publica. Todos os
modelos usados no prototipo foram disponiblizados pela Faculdade de Arquitectura e Faculdade de Coimbra.
23
3.2 Prototipo de Mesa interativa
Para dar a conhecer a heranca deixada por Alberti, foi desenvolvido um prototipo que apresenta parte da
sua obra de forma interativa e divertida para o utilizador. Para a concretizacao deste prototipo foi criado
um novo setup inovador.
Este setup oferece uma combinacao de tecnologia ja existente, mas nunca antes colocada em composicao.
Comecando por descrever a sua parte central, este e constituıdo por uma mesa com superfıcie de retroprojecao
de dimensoes 1,72x1,12 metros. Para permitir que a superfıcie suporte multi-toque numa regiao tao vasta,
foram colocados seis lasers de forma a criar um plano de infravermelhos que cobrisse toda a sua superfıcie.
Este plano e combinado com uma camara PointGrey colocada no interior da mesa que consegue detetar a
reflexao do dedo do utilizador nesse plano de infravermelhos, tornando possıvel detetar o toque com precisao.
Foi usado um sensor de profundidade por cima da mesa, colocado a 1,05 metros de altura com um angulo
de 90 graus e centrado, por forma a capturar toda a superfıcie. Utilizando este sensor e entao possıvel a
captura das maos do utilizador no espaco acima da superfıcie. Usando um outro sensor identico colocado
a um metro da mesa e possıvel detetar o esqueleto do utilizador e com isso saber a posicao da sua cabeca.
Para terminar, o nosso setup tem um par de oculos de obturador ativo que permitem a visualizacao de um
ambiente em estereoscopia. Na Figura 3.1 esta esquematizado este nosso setup.
Tirando total partido da combinacao da tecnologia presente nesse cenario, e possıvel aumentar a percecao
do utilizador, atraves da estereoscopia e da posicao da cabeca do utilizador, criando um ambiente virtual
Projector 3D
Câmara IV
Câmaras de Profundidade
Plano de luz IV
Oculos de obturador ativo
Figura 3.1: O nosso setup. Uma mesa multitoque com visualizacao estereoscopica aumentada com captura
nao intrusiva da cabeca e maos do utilizador
24
semi-imersivo. Com esta combinacao conseguimos dar a ilusao ao utilizador de que os modelos estao a sair
da mesa, assemelhando-se a uma maquete fısica.
3.2.1 Arquitectura
Tirando partido do nosso setup desenvolvemos uma arquitetura modular que nos permite abstrair da tec-
nologia. Desta forma o nosso prototipo e totalmente independente da tecnologia, bastando apenas substituir
o modulo da tecnologia de Input que se pretende modificar e tudo o resto continua a funcionar. E possıvel
verificar esquematicamente este aspecto no diagrama da arquitetura na Figura 3.2.
Figura 3.2: Diagrama da arquitectura do prototipo Alberti Digital.
25
De forma a permitir que o utilizador interaja com o nosso sistema, foram criados dois modulos que tratam
a informacao do toque e a informacao dos gestos respetivamente. Descrevendo em pormenor o Modulo de
Gestos, este utiliza a sensor de profundidade colocada por cima da mesa, como descrito anteriormente,
de maneira a capturar as maos do utilizador. Este sensor envia informacao para um computador que se
encontra a correr um servidor de detecao espacial de maos. Este software foi-nos fornecido pela equipa da
3Gear Systems1 que comercializa a solucao desenvolvida por Wang et al. [44], denominada de Akimbo Kinect,
discutida na seccao do trabalho relacionado. Tal como apresentado, esta solucao permite, atraves do uso de
um sensor de profundidade Microsoft Kinect, sem qualquer adereco intrusivo, obter a posicao e orientacao
das maos do utilizador em seis graus de liberdade no espaco acima da superfıcie. Essa informacao e entao
encapsulada por esse software em mensagens que sao enviadas pela rede, segundo um protocolo TCP, para
serem tratadas atraves do nosso Modulo de Gestos, e possam, entao, ser usadas no nosso prototipo, que
se encontra a correr num outro computador.
A informacao ao chegar pela rede a maquina que detem o nosso prototipo, e tratada pelo Modulo de
Gestos. Atraves de um mapeamento dessa informacao para o mundo virtual e possıvel recriar as maos do
utilizador em tempo real na nossa aplicacao. Nestas mensagens estao englobados uma serie de gestos pre-
definidos para cada uma das maos, como por exemplo o gesto de agarrar ou de apontar. No nosso prototipo
deste projeto apenas consideramos relevante a informacao do gesto apontar, permitindo desta forma ter um
mecanismo que permite ao utilizador comunicar com o sistema e informa-lo que pretende destacar uma parte
do modelo.
No que diz respeito ao Modulo do Toque, este e responsavel, como o nome indica, por tratar toda a
interacao que o utilizador realiza com a superfıcie multi-toque do nosso setup. Tal como descrito na seccao
anterior, cada vez que o utilizador toca na superfıcie da mesa, o seu dedo reflete a luz infravermelha do plano
criado pelos lasers colocados sobre a mesa. Este reflexo e entao capturado por uma camara PointGrey que
deteta infravermelhos. Essa imagem capturada pela camara e tratada pelo CCV (Community Core Vision)2,
uma aplicacao Open Source que encapsula a informacao de toque numa mensagem (com um identificador
unico e coordenadas bidimensionais por toque), seguindo o protocolo TUIO3, um protocolo de mensagens
multi-toque. O Modulo de toque escuta estas mensagens TUIO enviadas pelo CCV, capturando-as e
traduzindo-as em coordenadas da nossa superfıcie virtual. Atraves do identificador unico de cada toque,
e possıvel obter nao so a informacao de onde e comecado um toque pelo utilizador, mas tambem o seu
deslocamento, ou quando este termina. Desta forma e possıvel incorporar, em simultaneo, um grande numero
de toques no nosso prototipo.
Os Modulos de Gestos e Toque ao tratarem a interacao do utilizador, respetivamente, enviam eventos para
o Modulo de Interacao. Esses eventos sao entao tratados de forma a aplicar uma tecnica de manipulacao
ou a despoletar eventos, permitindo desta forma interagir com o nosso mundo virtual. Estas tecnicas de
1http://www.threegear.com/index.html2http://ccv.nuigroup.com/3http://www.tuio.org/
26
interacao serao descritas posteriormente.
Para que essas interacoes alterem o estado no nosso sistema foram criadas dois modulos diferentes, o
Gestor de GUI e o Modulo de Cena.
O Gestor de GUI consiste, tal como o nome sugere, num controlador de interfaces que alteram de
alguma forma o estado da cena. Este gestor esta encarregue de todos os botoes da nossa aplicacao. Cada
vez que o Modulo de Interacao detecta que houve um toque num botao, este informa o Gestor de GUI que
por sua vez altera o estado da aplicacao enviando um evento ao Modulo de Cena.
No fundo o Modulo de Cena e uma maquina de estados que num determinado momento se encontra
num estado finito. Essa maquina de estados esta esquematizada na Figura 3.3.
Escolha modelo
Visualizadorde modelo
Modelo Personalizado
Edita Pórtico
Edita Templo
EditaColuna
escolha modelo
retroceder
retroceder
retroceder
retroceder
retroceder
botão templo
botão pórtico
botão coluna
modelo personalizado
começa
Figura 3.3: Maquina de Estados do prototipo Alberti Digital.
Quando a aplicacao inicia esta encontra-se no estado de Escolha de Modelo, visıvel na Figura 3.4,
permitindo ao utilizador uma escolha entre cinco modelos existentes e um modelo personalizavel. Neste
estado os modelos sao botoes do Gestor de GUI, despoletando uma mudanca de estado.
Ao escolher um modelo existente (tocando no mesmo) e mostrado ao utilizador o estado de Visualizador
de Modelo. Neste estado o utilizador podera movimentar o modelo sobre a superfıcie da mesa enquanto o
observa. A forma como a interacao com o modelo e realizada sera descrita na seccao seguinte. Para voltar a
escolha de modelos o utilizador possui um botao de retroceder.
Se o utilizador selecionar o modelo personalizavel (enquanto no estado de Escolha modelo) e mostrado ao
utilizador o estado de Modelo Personalizado. Neste estado o utilizador podera realizar as mesmas acoes
27
Figura 3.4: Ecra de selecao de modelos do prototipo Alberti Digital.
que no estado Visualizador de Modelo, mas adicionalmente possui mais tres botoes com opcoes diferentes.
Esses tres botoes permitem saltar para tres estados diferentes em que cada um deles permite alterar partes
da estrutura do modelo que se estava a visualizar na ıntegra no estado Modelo Personalizado. O estado do
modelo e guardado entre estes estados o que permite ao utilizador fazer alteracoes no modelo e ao voltar ao
visualizador observa-las em conjunto com as restantes partes do edifıcio.
Tanto este estado do modelo como de todos os que estao disponıveis no nosso prototipo sao geridos pelo
Gestor de Modelos. Este modulo guarda e gere a informacao dos modelos e das partes destes que devem
ser apresentada na cena. Permitindo desta forma guardar informacao entre estados da nossa maquina de
estados.
Para renderizar esse ambiente virtual desenvolvemos ainda um Modulo de Render. Este utiliza o
motor grafico G3D 4 baseado na biblioteca grafica OpenGL 5 para a renderizacao do mundo virtual. O nosso
Modulo de Render combina a informacao da posicao da cabeca do utilizador com a informacao da cena para
criar um frustum personalizado.
A posicao da cabeca e obtida atraves do Modulo de Ponto de Vista que utiliza um sensor de profundi-
dade Microsoft Kinect, colocado atras da mesa, apontado ao utilizador. A imagem capturada por este sensor
e tratada atraves do OpenNI 6, um middleware gratuito para o Kinect que permite obter a informacao do
esqueleto do utilizador. Com esta informacao, o nosso modulo consegue calcular a posicao exata da cabeca do
utilizador em relacao a superfıcie da mesa interativa. Esta posicao calculada pelo Modulo de Ponto de Vista
e entao utilizada pelo Modulo de Render do nosso prototipo, permitindo desta forma o calculo do frustum
de visualizacao da cena virtual dependente da posicao da cabeca do utilizador. Aliando isto a capacidade de
4http://g3d.sourceforge.net/5http://www.opengl.org/6http://www.openni.org/
28
enviar duas imagens, uma para cada olho, atraves dos oculos 3D (Nvidia Vision 2) e possıvel criar a ilusao
de que os objetos virtuais estao efetivamente colocados acima da superfıcie.
Com a apresentacao dos modulos do nosso prototipo, falta referir que o Modulo de Render comunica
diretamente com os outputs do nosso setup, o ecra de retroprojecao na superfıcie da mesa combinado com
os oculos de obturador ativo (3D). Tal como referido, foram desenvolvidas varias tecnicas de interacao que
constituem o nosso Modulo de Interacao que serao descritas detalhadamente na proxima seccao.
3.2.2 Manipulacao dos Modelos
Com o objetivo de permitir ao utilizador deslocar e rodar em cima da superfıcie de forma a poder avaliar
todos os seus pormenores, desenvolveu-se uma tecnica de interacao facil de usar para qualquer utilizador.
Dado que este objetivo apenas necessita de interacoes em duas dimensoes para mover na superfıcie, rodar ou
escalar um objeto, desenvolvemos uma abordagem com recurso a multi-toque. Seguimos esta abordagem uma
vez que e inapropriado o uso do teclado e rato num cenario de mesas interativas e nos dias que correm existir
uma enorme massificacao de dispositivos multi-toque, sendo familiar para qualquer utilizador. Foi tambem
descartada a hipotese de adotar uma abordagem de manipulacao espacial, pois apos alguma experimentacao
concluiu-se que o tracker das maos ainda nao e suficientemente robusto para ser aplicado num cenario de
exposicao publica, como era requisito deste prototipo.
A tecnica de manipulacao multi-toque desenvolvida deriva do algoritmo considerado de facto standard
para manipulacoes bidimensionais com toque, Translation-Rotation-Scale (TRS), proposto por Hancock et
Figura 3.5: Visitante da exposicao Alberti Digital a utilizar a mesa digital intativa no Museu da Ciencia em
Coimbra.
29
al. [22]. Nesta abordagem de interacao o utilizador faz uso de um toque direto ou indireto, uma vez que
so existira uma maquete na cena e a superfıcie de toque e bastante vasta, nao necessitando desta forma o
utilizador se esticar sobre a mesa para mover um objeto que se encontre distante da sua area de interacao.
Este toque permite controlar a translacao do modelo segundo o plano da superfıcie, imitando o movimento
descrito pelo dedo ao se deslocar-se na superfıcie. Desta forma o utilizador consegue mover o modelo para a
posicao que desejar utilizando apenas um dedo, sem necessitar de fazer grandes esforcos.
Um segundo toque, mais uma vez direto ou indireto, permite rodar o modelo segundo o eixo vertical a
superfıcie, semelhante ao que sucede no algoritmo TRS. O angulo dessa rotacao e definido pela variacao da
posicao de um dedo em relacao ao outro. Utilizando este mesmo segundo toque e ainda possıvel controlar a
escala uniforme. Ao aumentar a distancia entre os dois dedos o modelo aumenta de tamanho uniformemente,
ao diminuir a distancia, o modelo efetua o comportamento inverso. Desta forma o utilizador consegue realizar
todas as manipulacoes que desejar ao modelo sem ter de se esticar sobre a mesa, como e possıvel observar
neste visitante da exposicao na Figura 3.5.
3.2.3 Apontar para Destacar
De forma a aumentar a experiencia e a aprendizagem no nosso prototipo, desenvolvemos uma tecnica que
permite ao utilizador destacar partes do modelo tridimensional. Tirando partido da capacidade oferecida
pelo nosso setup de obter a posicao da ponta dos dedos no espaco acima da mesa, colocamos um cursor
tridimensional na extremidade dos dedos indicadores do utilizador, permitindo desta forma que seja possıvel
apontar para partes da maquete que se esta a visualizar na cena, como e possıvel ver exemplificado na
Figura 3.6, onde o utilizador aponta para a cobertura da maquete.
Para apontar para partes da estrutura, o utilizador introduz a extremidade do dedo indicador no seu
interior. Ao ser encontrada a colisao entre o cursor do dedo indicador e a parte correspondente da maquete,
Figura 3.6: Utilizador a apontar para a cobertura de um modelo no nosso prototipo.
30
e feito o destaque apenas dessa parte, mudando a sua cor para verde, e mostrando uma legenda explicativa,
colocada sempre ao seu lado direito de forma visıvel. Ao deslocar o dedo para fora da maquete, ou colocando-
o a apontar para outra parte da maquete, e reposta a cor original e retirada a legenda da parte que estava
anteriormente destacada, permitindo apenas que uma parte da maquete esteja destacada de cada vez, para
nao criar confusao no utilizador.
3.2.4 Modelos Disponibilizados
Tirando partido das interacoes descritas, permitimos aos utilizadores visualizar e manipular cinco diferentes
modelos com grandes influencias na obra de Alberti. Os modelos presentes sao: Loggia dei Lanzi em Italia,
na Figura 3.7 a esquerda, Igreja de Sao Sebastiao no Brasil na Figura 3.7 (B), Capela das onze mil virgens
em Portugal na Figura 3.7 (C), Igreja Espırito Santo de Evora na Figura 3.7 (D), templo Malatestiano em
Italia na Figura 3.7 (E). Em cada uma destas maquetes e ainda dada a opcao de rodar o modelo quarenta e
cinco graus de forma a este consiga visualizar diretamente a fachada do edifıcio, continuando a permitir que
este o manipule. Esta opcao e oferecida atraves de um botao de alternancia. Tambem e oferecido um botao
que restabelece a posicao, rotacao e escala inicial da maquete, para evitar frustracao por parte do utilizador
ao efetuar alguma manipulacao indesejada que o leva a nao saber o que fazer.
Figura 3.7: Diferentes templos disponibilizados no prototipo Alberti Digital.
3.2.5 Alberti Personalizado
O prototipo para alem de permitir observar cinco modelos existentes, permite tambem ao utilizador criar o
seu proprio templo seguindo as regras presentes no tratado de Alberti. Esta personalizacao do templo e feita
atraves de botoes de radio (botoes que permitem alternar entre opcoes).
Alternando entre o modo de visualizacao e edicao de cada uma das tres principais partes do modelo, o
utilizador podera testemunhar o impacto das alteracoes que as varias regras causam no modelo completo,
Figura 3.8 (A). No menu correspondente a parte de edicao do corpo do templo o utilizador podera aumentar
o tamanho do templo ou a sua altura, podera tambem personalizar a capela traseira como tambem o numero
e a forma das capelas laterais, Figura 3.8(D). Tem tambem ao seu dispor uma parte para edicao das colunas
31
Figura 3.8: Diferentes estados do prototipo Alberti Digital na parte de personalizacao de modelo.
do templo, onde podera analisar ao pormenor uma coluna, assim como alterar as diversas partes que a
constituem. Sao dadas opcoes de escolha ao nıvel da base, do fuste, do capitel e do entablamento da coluna,
como se pode ver na Figura 3.8(b). Para terminar a personalizacao, o menu de edicao do portico permite ao
utilizador decidir a quantidade de colunas que o portico deve ter, o numero de linhas de colunas assim como
o tamanho do portico frontal, Figura 3.8(C).
E ainda dada a opcao ao utilizador de remover ou colocar a cobertura do templo que acabou de editar.
Desta forma tem uma percecao das alteracoes provocadas nao so a nıvel exterior como tambem no interior do
templo. Todos as regras, assim como todas as maquetes sao acompanhadas de pequenos textos explicativos
em Portugues e Ingles, sendo a lıngua passıvel de escolha atraves de botoes de radio.
3.3 Prototipo de Navegacao
Foi criado tambem um outro prototipo que oferece navegacao, quer no exterior quer no interior, dos cinco
modelos que se encontram a disposicao para interacao no prototipo da mesa. Este prototipo permite que o
utilizador navegue atraves do controlo da camara da cena com joysticks de um comando. Esta navegacao
32
Figura 3.9: Nuvem de pontos da Igreja de Sao Vicente de fora no prototipo de navegacao na Exposicao
Alberti digital no Museu de Coimbra.
acaba por cumprir um objetivo de complemento as maquetes do prototipo da mesa interativa, uma vez que
oferece uma experiencia completamente diferente. O utilizador tem todas as funcionalidades de navegacao
do prototipo ao seu dispor nos botoes do comando. Um botao para alternar entre modelos, outro para repor
a camara e um outro botao para alternar a lıngua da aplicacao entre Ingles e Portugues.
Foi adicionado um sexto modelo neste prototipo, que nao pode ser incluıdo na mesa, devido ao seu
tamanho extremo. Sendo este modelo uma nuvem de pontos, capturada por scanners laser, no exterior e
interior da Igreja de Sao Vicente de Fora, como se pode ver na Figura 3.9. Esta nuvem oferece um nıvel de
detalhe e autenticidade que e impossıvel reproduzir nas replicas tridimensionais. Todos os modelos presentes
sao acompanhados por um texto descritivo do monumento.
3.4 Exposicao Publica
A exposicao Alberti Digital pretendeu dar a conhecer Leon Battista Alberti atraves de projecoes e modulos
interativos, mostrando como a tradicao e a inovacao se conjugam harmoniosamente e como a aplicacao das
novas tecnologias pode contribuir para o conhecimento na area da arquitetura.
A exposicao comemorou o encerramento do projeto de investigacao “Alberti Digital – Tradicao e inovacao
na teoria e pratica da arquitetura em Portugal”, financiado pela Fundacao para a Ciencia e a Tecnologia, com
coordenacao do Professor Mario Kruger e sede no Centro de Estudos Sociais da Universidade de Coimbra.
Os avancos tecnologicos permitem passar a heranca do nosso patrimonio cultural de forma interativa e
inovadora, permitindo experiencias em ambientes semi-imersivos e aprendizagens impossıveis de outra forma.
33
Isto foi conseguido com a nossa aplicacao interativa, permitindo ao utilizador interagir com modelos existentes
ou criar o seu proprio seguindo as regras do tratado de Alberti.
Foi possıvel viver esta experiencia na exposicao de 15 de Abril a 20 de Junho de 2013 no Museu da Ciencia
em Coimbra (Figura 3.10) e mais tarde na Faculdade de Arquitetura de Lisboa de 26 de Junho a 31 de Julho
de 2013.
Figura 3.10: Exposicao Alberti Digital no Museu da Ciencia em Coimbra de 15 de Abril a 20 de Junho de
2013.
3.5 Discussao
O projeto Alberti Digital ambicionou dar a conhecer pela primeira vez a obra de Leon Battista Alberti de
forma interativa e inovadora. Consideramos que o nosso objetivo foi conseguido com sucesso, uma vez que
obtivemos comentarios muito positivos, quer por parte dos organizadores, quer por parte de varios visitantes
da exposicao Alberti Digital. Entre estes visitantes, encontraram-se varios ilustres da area de arquitetura,
que afirmavam que este prototipo era excelente para demonstracao de modelos arquitetonicos, e ate especial-
istas que estudaram a obra de Alberti, que achavam extremamente interessante o facto de nao so, poderem
observar modelos Albertianos em cima de uma mesa, como se fosse uma maquete fısica, como ainda podiam
modificar partes de um modelo baseando-se nas regras do tratado. Outro comentario interessante de um
visitante prendia-se com o facto de o prototipo permitir escalar, por exemplo, as colunas, e isso permitia
observar todos os seus pormenores, o que nao era possıvel nos modelos fısicos da exposicao. Desta forma, foi
34
possıvel para todos nos, aprender e transmitir, a todos os visitantes, a heranca e patrimonio cultural deixado
no tratado de Alberti de forma interativa.
Ao longo do desenvolvimento deste projeto, sentimos que podıamos ir mais alem do que apenas apontar no
espaco de visualizacao. Com esta ambicao foram surgindo varias ideias de possıveis interacoes tridimensionais,
que permitissem ao utilizador manipular modelos de forma mais natural, sem necessitar de recorrer ao toque,
utilizando apenas gestos acima da superfıcie. Posteriormente surgiram tambem ideias para complementar o
remover e colocar da cobertura do templo, com vista a permitir uma analise ainda mais detalhada do interior
dos modelos. A ideia consistia em usar a posicao das duas maos no espaco de visualizacao para definir, a sua
vontade, um plano de corte vertical ou horizontal. Desta maneira, ao introduzir o plano de corte, o utilizador
tinha ao seu dispor uma forma personalizada que permitia uma melhor analise dos modelos. No proximo
capıtulo apresentaremos o foco do nosso documento, as cinco tecnicas que nasceram fruto das possibilidades
que este nosso inovador setup nos proporciona.
35
Capıtulo 4
Interacoes com objetos acima da
superfıcie
Atraves do uso de sensores de profundidade, que sofreram um decrescimo de preco nos ultimos anos, foi-nos
possıvel concretizar o setup utilizado no projeto Alberti Digital. Durante o desenvolvimento desse projeto,
ambicionamos oferecer ao utilizador, novas formas de interagir com objetos num ambiente virtual, uma vez
que o nosso setup permitia tornar esta manipulacao mais direta e imediata, sem necessitar de vestir ou colocar
qualquer adereco intrusivo (por exemplo luvas) [5].
Neste capıtulo apresentamos a arquitetura simplificada do sistema implementado no prototipo Alberti
Digital. De seguida apresentaremos as cinco tecnicas que desenvolvemos e implementamos, terminando com
a apresentacao do prototipo desenvolvido onde as tecnicas foram implementadas e aperfeicoadas.
4.1 Arquitectura
Com vista a criar um ambiente de desenvolvimento que nos permitisse levar mais alem as manipulacoes
espaciais introduzidas no prototipo Alberti Digital apresentado no capıtulo anterior, adaptamos a nossa
arquitetura mantendo a mesma estrutura modular. Esta arquitetura esta esquematizada na Figura 4.1.
Como e possıvel verificar, todos os modulos se mantem, a excecao do Gestor de GUI e do Gestor de
Modelos. Decidimos retirar estes dois modulos pois tendo como objectivo o nosso prototipo desenvolver e
testar tecnicas de interacao espaciais, nao existia a necessidade de gerar eventos para alteracao de cena, nem
de carregar modelos complexos constituıdos por varias partes.
Desta forma a nossa arquitetura continua a suportar o nosso setup inovador de forma modular e permitiu-
nos focar na essencia do nosso trabalho estudar a melhor forma de manipular objetos tridimensionais virtuais
num cenario de mesas interativas com visualizacao estereoscopica.
O Modulo de Gestos recebe e trata a informacao enviada pelo servidor que segue as maos do utilizador,
36
enquanto o Modulo de Toque recebe mensagens TUIO com a informacao de todos os toques efetuados na
superfıcie da mesa. Estes dois modulos enviam eventos para o Modulo de Interacao que os transforma de
forma a aplicar uma tecnica de interacao, permitindo interagir com o nosso mundo virtual. Estas tecnicas
de interacao, ao serem o grande foco do nosso trabalho, serao abordadas em detalhe na seccao seguinte.
O Modulo de Cena contem os elementos virtuais tridimensionais que o utilizador ira manipular, sendo
estes renderizados para o ecra de retroprojecao da mesa com estereoscopia atraves do Modulo de Render
que depende do Modulo de Ponto de Vista para criar o frustum dependente da posicao da cabeca, um
vez que este ultimo tem a capacidade de seguir o corpo do utilizador.
Figura 4.1: Diagrama da arquitectura do prototipo Alberti Digital.
37
4.2 Tecnicas de Interacao Desenvolvidas
Apos a apresentacao da arquitetura criada para conjugar todos os inputs do nosso prototipo, sera apresentado
nesta seccao o foco do nosso trabalho, as tecnicas de interacao desenvolvidas. Todas as tecnicas desenvolvidas
e presentes nesta seccao tentam colmatar falhas existentes na literatura apresentada no capıtulo do trabalho
relacionado.
No nosso trabalho desenvolvemos cinco tecnicas de interacao que permitem ao utilizador manipular objetos
virtuais tridimensionais num ambiente de mesas interativas com estereoscopia, comparando-as entre si num
estudo estatıstico que sera apresentado mais a frente no documento. Quatro destas tecnicas sao de interacao
no espaco de visualizacao acima da superfıcie. Concluımos com uma quinta tecnica que recorre a multi-toque,
sendo esta tambem fortemente influenciada pela literatura apresentada anteriormente neste documento.
De salientar que todas as tecnicas apresentadas possibilitam ao utilizador a interacao com objetos virtuais
em sete graus de liberdade (7 DOF), sendo estes: tres graus de translacao, tres graus de rotacao e um de
escala uniforme. Nas tecnicas de interacao espaciais o utilizador recorre ao gesto de agarrar, mais conhecido
por pinch, que consiste em tocar com a ponta do dedo polegar na ponta do dedo indicador. Ao realizar este
gesto, se essa mao estiver no interior dum objeto o utilizador passa a segurar esse objeto. Este mantem-se
agarrado ate o utilizador desfazer o gesto de agarrar, ou seja, libertar a ponta dos dedos indicador e polegar
um do outro, abrindo a mao.
Todas as tecnicas se encontram desenvolvidas para funcionarem com qualquer uma das duas maos,
seguindo o conceito de mao dominante, mas dando liberdade de escolha ao utilizador de qual a mao que
pretende usar para manipular o objeto. Uma vez que para todas as tecnicas desenvolvidas o utilizador ne-
cessita de ambas as maos para conseguir uma manipulacao completa dos sete graus de liberdade, este apenas
podera manipular um objeto de cada vez. Algumas tecnicas sao de interacao direta e outras de interacao
indireta, tal sera discutido particularmente por tecnica no decorrer desta seccao.
4.2.1 6-DOF Hand
O nosso setup inovador, recorrendo a tecnologia acessıvel, permite o seguimento das maos do utilizador em
tempo real e em seis graus de liberdade (6 DOF), tres de translacao e tres de rotacao, utilizando o trabalho
desenvolvido por Wang et al. [44]. Com esta capacidade de obter a posicao e orientacao das maos do utilizador
em tempo real num espaco tridimensional, nasceu a ideia de criar uma tecnica de interacao que imita a forma
como todos nos interagimos com objetos no mundo fısico, ou seja, poder agarrar, movimentar e rodar um
objeto usando apenas uma mao.
Desta ideia de interacao fısica e direta criamos a tecnica 6-DOF Hand (seis graus de liberdade numa so
mao). O utilizador coloca a mao no objeto que pretende manipular, e efetua o gesto de agarrar. Tal como
ja referido, enquanto o utilizador nao desfizer esse gesto, e o mantiver, o utilizador continuara a manipular o
objeto com essa mao. Apos agarrar o objeto, este movimenta-se no espaco tridimensional, por forma a seguir
38
as movimentacoes efetuadas pela mao que esta a agarrar o objeto, mantendo sempre o ponto de contacto
onde este foi agarrado.
O utilizador podera tambem utilizar as rotacoes do seu pulso tal e qual como faria, se estivesse a agarrar
esse mesmo objeto fısico. Novamente, o objeto imitara fielmente as rotacoes efetuadas por essa mao, mantendo
sempre o ponto de contacto constante.
Para escalar uniformemente o objeto que o utilizador se encontra a manipular, este recorre a outra mao,
efetuando o gesto de agarrar em qualquer local no espaco, nao havendo necessidade de este ser efetuado no
objeto (manipulacao da escala indireta). Utilizando a distancia entre ambas as maos, e criado um mapeamento
direto respectivamente entre o aproximar e o afastar, com o diminuir e aumentar de escala uniforme. Tudo isto
esta esquematicamente representado na Figura 4.2, por forma a ajudar a compreensao da tecnica apresentada.
Figura 4.2: Tecnica 6-DOF Hand. A mao agarra o objeto diretamente e controla a sua translacao e
rotacao, recorrendo a distancia com a segunda mao para efetuar a escala uniforme.
4.2.2 3-DOF Hand
No seguimento do conceito apresentado na tecnica 6-DOF Hand de interacao fısica e direta, surgiu a ideia de
adaptar esse comportamento recorrendo a separacao de graus de liberdade, que tem sido bastante discutido
para as interacoes multi-toque [27, 28], como pudemos ver na seccao de trabalho relacionado. Esta separacao
e defendida de forma a evitar manipulacoes nao intencionais que poderao surgir pela integracao dos graus de
liberdade.
Nesta tecnica o utilizador, quando agarra um objeto, usa apenas essa mao para o movimentar em qualquer
um dos seus tres eixos, mas mantendo o ponto de contacto constante. Para o conseguir rodar, o utilizador
recorre ao gesto de agarrar com a outra mao, em qualquer local, nao necessitando de ser diretamente no
objeto, a semelhanca da escala na tecnica 6-DOF Hand. O objeto imitara entao todas as suas rotacoes do
pulso dessa segunda mao, ate o utilizador desfazer o gesto de agarrar.
39
Utilizando ainda as duas maos em simultaneo em gesto de agarrar, novamente a semelhanca do que
acontece na tecnica 6-DOF Hand, o utilizador controla, em simultaneo a escala, afastando as maos para
aumentar o tamanho do objeto uniformemente e aproximando para o diminuir. Embora enquanto utilizador
se encontra a manipular um objeto usando ambas as maos, possa controlar em simultaneo os sete graus de
liberdade, se o utilizador movimentar apenas uma mao de cada vez, e possıvel controlar apenas tres graus de
liberdade em separado.
Figura 4.3: Tecnica 3-DOF Hand. A mao que agarra o objeto controla diretamente a sua translacao. As
rotacoes do pulso da outra mao definem a orientacao do objeto. A distancia entre ambas define a escala
uniforme desse objeto.
4.2.3 Air TRS
A possibilidade de obter as coordenadas de cada mao no espaco, permitiu-nos trazer a tecnica de facto
standard para manipulacoes 2D com toque, Translation-Rotation-Scale (TRS), apresentada por Hancock
et al. [22], discutida na seccao do trabalho relacionado, para a terceira dimensao, tal como fez Araujo et
al. [40]. Nesta tecnica as maos do utilizador sao tratadas como dois pontos no espaco, o que permite o seu
uso de forma similar ao que acontece no algoritmo TRS, como esta exemplificado na Figura 4.4. Para agarrar
um objeto, o utilizador atua de forma semelhante as tecnicas apresentadas anteriormente, utilizando o gesto
de agarrar quando a mao se encontra virtualmente no interior do objeto. Com este agarrado, no que diz
respeito a translacao, o utilizador pode manipula-lo livremente no espaco usando apenas essa mao, tal como
na tecnica anterior.
Quando o utilizador efetua o gesto de agarrar com a outra mao e mantem ambas as maos a fazer o
gesto, este fica em modo TRS, usando a posicao relativa da segunda mao em relacao a primeira para realizar
rotacoes e escala. Estas duas transformacoes estao centradas no ponto onde o objeto foi agarrado pela
primeira mao, permanecendo intacto ate o utilizador efetuar a libertacao do objeto (desfazendo o agarrar
40
com primeira mao). O angulo de Rotacao e definido pela variacao da posicao de uma mao em relacao a outra.
Por exemplo, se o utilizador rodar a segunda mao em torno de qualquer eixo da primeira, o objeto rodara
o angulo descrito pela movimentacao segundo esse mesmo eixo. A escala uniforme do objeto, e controlada
da mesma forma que nas tecnicas anteriormente apresentadas. Desta forma o algoritmo TRS e transposto
de um paradigma de duas dimensoes para a terceira dimensao, permitindo um controlo de sete em vez de
quatro graus de liberdade.
Figura 4.4: Tecnica Air TRS. A mao que agarra o objeto controla diretamente a sua translacao. O
movimento da outra mao relativamente a que esta a agarrar o objeto define a rotacao e a escala deste.
4.2.4 Handle-Bar
Seguindo o trabalho realizado por Song et al. [10] apresentado no capıtulo trabalho relacionado deste docu-
mento, adotamos a metafora da Handle-Bar, no nosso setup com estereoscopia. Esta abordagem tenta imitar
o uso de um espeto, tipicamente usado para assar frangos, em que o utilizador segura uma barra com duas
maos e o frango se encontra no seu ponto medio como pudemos ver no capıtulo do trabalho relacionado.
Seguindo esta metafora, nesta tecnica o utilizador podera agarrar e manipular objetos usando o ponto
medio entre as suas maos. Este ponto esta visualmente acessıvel ao utilizador, atraves de uma pequena esfera
branca que se mantem sempre no ponto medio entre as suas maos, com vista a facilitar a abordagem. O
facto de o utilizador nao agarrar o objeto diretamente na sua mao, torna esta tecnica, por definicao, indireta.
Para agarrar um objeto, o utilizador coloca o ponto medio no interior do objeto que pretende manipular
e efetua o gesto de agarrar com ambas as maos (ao contrario do que acontecia nas tecnicas anteriormente
apresentadas).
Com o objeto agarrado o utilizador podera entao manipula-lo como se estivesse a segurar a Handle-bar
41
e esta estivesse a atravessar o objeto nesse ponto medio. Com esta abordagem o utilizador pode deslocar
e rodar o objeto. Visto que este imitara todas as rotacoes e translacoes do ponto medio. Para controlar a
escala do objeto, o utilizador utiliza novamente, a semelhanca das tecnicas anteriores, a distancia entre as
suas maos. Esta abordagem funciona de forma semelhante ao Air TRS mas o ponto de contacto em vez de
encontrar na mao que agarra o objeto, passa a ser no ponto medio entre as duas maos, sendo este ponto de
contacto mantido ate ao final da interacao.
Figura 4.5: Tecnica Handle-Bar. O ponto medio entre ambas as maos e usado para agarrar e manipular os
objetos, reagindo como se o utilizador estivesse a agarrar uma barra que passasse pelos objetos. A distancia
entre ambas as maos define a escala uniforme do objeto que se esta a manipular.
4.2.5 Touch TRS + Widgets
Embora, o multi-toque apenas permita manipulacoes indiretas de objetos virtuais em tres dimensoes acima
da mesa, este e, hoje em dia, um metodo de input comum, estando presente diariamente na vida de todos nos.
Como tal, tendo em vista comparacoes de tecnicas de manipulacao de objetos acima da mesa, apresentamos
esta tecnica multi-toque, fortemente baseada em varias consideracoes da mais recente literatura na area,
apresentada neste documento. Esta tecnica combina o algoritmo de TRS [23] com a separacao de graus de
liberdade defendida na literatura por varios autores [24, 28, 25, 31, 1] atraves da utilizacao de widgets [31, 32],
sendo fortemente influenciada pelo Toucheo [2].
O utilizador para selecionar um objeto toca por debaixo deste, podendo usar esse toque (dedo) para o
deslocar segundo o plano paralelo com a superfıcie. Quando este seleciona um objeto aparecem em seu redor,
no plano da superfıcie, widgets que permitem a manipulacao das rotacoes nos eixos paralelos a superfıcie e da
terceira dimensao de translacao. Estes widgets aparecem do lado esquerdo se o utilizador usar a mao direita
para selecionar o objeto, e vice-versa. Isto e possıvel, uma vez que o nosso sistema consegue saber qual foi a
42
mao que o utilizador usou para selecionar o objeto, atraves da informacao obtida da camara de profundidade
que se encontra colocada por cima da superfıcie de interacao.
Com o objeto selecionado, se o utilizador der um segundo toque fora de qualquer widget, em qualquer
lugar na superfıcie, sem necessitar de ser diretamente no objeto, passa a ter controlo sobre a rotacao, do eixo
vertical a superfıcie, e sobre a escala. A semelhanca da tecnica Air TRS, que e baseada no mesmo algoritmo,
o angulo de rotacao e definido pela variacao da posicao de um dedo em relacao ao outro, e a escala pela
distancia entre os dois dedos.
11Figura 4.6: Tecnica Touch TRS + Widgets. Tocar por baixo dum objeto torna visıveis os widgets e permite
mover o objeto no plano da superfıcie. Um segundo toque fora de todos os widgets permite aplicar o
algoritmo TRS na superfıcie. Os widgets permitem controlar a altura do objeto e as restantes rotacoes.
Para as restantes rotacoes, com eixos paralelos a superfıcie, o utilizador tem ao seu dispor dois widgets,
como esta esquematizado na Figura 4.6, onde podera tocar e arrastar o dedo segundo a metafora de uma
haste [2]. Um terceiro widget, baseado na metafora do balao [4, 38] permite ao utilizador controlar a altura
do objeto. Tocando no widget e arrastando na direcao do objeto, o utilizador esta a dar corda ao balao,
aumentando a altura do objeto, se tocar no widget e arrastar o dedo para longe do objeto o utilizador esta
a tirar corda ao balao, baixando o objeto.
43
4.3 Prototipo de Desenvolvimento
Utilizando a ferramenta que desenvolvemos baseada em OpenGL, criamos um ambiente que permitiu tes-
tar e aperfeicoar as tecnicas apresentadas. Todo este ambiente foi desenvolvido para que todos os objetos
mostrados ao utilizador tivessem medidas a escala real, ou seja, um cubo com 10 centımetros de lado, tem
efetivamente 10 centımetros na imagem projetada. Neste prototipo todos os objetos serao colocados acima de
um plano que representa e e coincidente a superfıcie da mesa. Isto ao ser combinado com visao estereoscopica
da a ilusao ao utilizador de que os objetos estao acima da superfıcie da mesa interativa.
Embora a maior parte das abordagens desenvolvidas acima da superfıcie da mesa sejam diretas, existia a
necessidade de dar um feedback extra ao utilizador de que possui a mao no interior de um objeto. Para dar
esta ajuda, foi criado um sistema de colisoes que deteta quando a mao do utilizador se encontra no interior
de qualquer objeto passıvel de agarrar. Ao ser detetada essa colisao e mostrado um cubo em wireframe
vermelho em volta do objeto, como ilustrado na Figura 4.7 a esquerda. Desta forma realcada o utilizador
podera entao manipular esse objeto caso faca o gesto de agarrar. Se o utilizador efetuar o gesto de agarrar,
com a mao no interior do objeto, e mostrado um cubo em cor verde 80% transparente em volta do mesmo, de
forma a nao perturbar as interacoes e a realcar que o utilizador acabou de agarrar esse objeto e o esta agora a
manipular, Figura 4.7 a direita. Para dar feedback de que o utilizador largou o objeto, este destaque e retirado.
Embora este feedback seja suficiente para o utilizador conseguir interpretar as acoes que realiza no mundo
virtual, por vezes, existem falhas por parte do tracker das maos. Para fornecer informacao sobre o atual
estado das maos, e de forma a nao criar mais oclusoes do que a propria mao poderia causar, foi colocada uma
esfera branca com 1 centımetro de raio ligeiramente deslocada do centro da posicao de cada mao. Quando o
utilizador efetua o gesto de agarrar, a cor das bolas passa a verde. Voltando a cor branca quando este desfaz
o gesto. Estas esferas com informacao do tracker nao necessitam de ser utilizadas nas interacoes, apenas
ajudam a perceber algum comportamento estranho por parte do tracker.
Figura 4.7: Feedback visual para interacoes acima da mesa interativa. Destaque quando o utilizador coloca
a mao no interior do objeto (a esquerda); Destaque quando o utilizador agarra um objeto (a direita).
44
Figura 4.8: Feedback visual para interacoes na superfıcie da mesa interativa. Destaque quando o utilizador
toca por debaixo do objeto (a esquerda); Destaque quando o utilizador manipula o objeto com o algoritmo
TRS (a direita).
Seguindo a mesma linha de pensamento, mas desta vez para a interacao com toque, foram criados pequenos
indicadores na superfıcie. Estes indicadores surgem quando o utilizador toca na superfıcie, dando feedback de
que este esta a tocar na mesa. Quando o utilizador efetua esse toque por debaixo de um objeto manipulavel,
e mostrada uma linha vertical a superfıcie, que saira do indicador desse toque ate ao objeto em questao,
Figura 4.8 a esquerda. Esta linha e mostrada para informar o utilizador que acabou de agarrar o objeto,
mas tambem para evidenciar o ponto do objeto onde se centrarao todas as manipulacoes. Com um objeto
selecionado, ao efetuar um segundo toque com vista a controlar as rotacoes segundo eixo vertical a superfıcie
da mesa e a escala uniforme (algoritmo TRS), e tambem mostrado um eixo que liga os dois dedos como
auxılio visual para o utilizador, Figura 4.8 a direita.
4.4 Aplicacao de Demonstracao
Como forma de tirar partido das potencialidades das tecnicas desenvolvidas, foi criada uma pequena aplicacao
que permite a qualquer utilizador desfrutar do nosso trabalho. Nesta aplicacao o utilizador tem ao seu dispor
uma colecao de pecas que constituem partes do corpo do Mr. Potato Head, uma personagem dos filmes de
animacao Toy Story c©, particularmente conhecida por ser constituıda por pecas. Desta forma, Figura 4.9,
damos aos utilizadores uma forma divertida de interagir com o nosso trabalho, podendo utilizar qualquer uma
das tecnicas desenvolvidas, escolhida a priori. O utilizador podera montar o boneco a sua vontade, tendo mais
liberdade do que com o brinquedo real, uma vez que nao necessita de colocar as pecas apenas nos buracos
fısicos correspondentes, podendo coloca-las onde pretender e ate aumenta-las e diminuı-las de tamanho, dando
asas a sua imaginacao. Consideramos que esta ideia podera ser um ponto de partida para trabalhos futuros,
no entanto esta nao foi utilizada nos nossos testes com utilizadores, pois surgiu posteriormente.
45
Figura 4.9: Aplicacao de diversao com pecas do Mr. Potato Head.
4.5 Sumario
Neste capıtulo foi apresentado o trabalho desenvolvido na criacao das tecnicas de interacao. Comecamos por
apresentar a forma como adaptamos o prototipo desenvolvido no projecto Alberti Digital, de forma a ser
possıvel desenvolver diferentes tecnicas de interacao. Posteriormente foram apresentadas de forma detalhada
as cinco tecnicas desenvolvidas, assim como o prototipo criado para o seu desenvolvimento. Terminamos com
a apresentacao de um exemplo pratico onde podem ser utilizadas as nossas tecnicas de interacao.
46
Capıtulo 5
Avaliacao das tecnicas desenvolvidas
No capıtulo anterior apresentamos as nossas cinco tecnicas de interacao que permitem ao utilizador manipular
objetos virtuais tridimensionais acima da superfıcie com visualizacao estereoscopica. De forma a avaliar o
trabalho desenvolvido iremos apresentar um estudo comparativo em ambiente controlado que permitiu iden-
tificar a abordagem mais adequada para este tipo de cenarios. Antes de se passar a fase de desenvolvimento
foi feito um planeamento das tarefas a desenvolver por forma a conseguir obter dados objetivos do estudo
comparativo das tecnicas desenvolvidas.
Apresentamos entao a metodologia seguida durante as sessoes de testes com todos os utilizadores, assim
como um relato do aparato utilizado. Descrevemos as tarefas criadas para testar as nossas tecnicas e de
seguida apresentaremos o ambiente virtual desenvolvido para a concretizacao destas. Por fim sera apresentada
uma analise dos resultados obtidos nestes testes em termos quantitativos e qualitativos.
5.1 Metodologia
Com o objectivo de avaliar as varias abordagens para manipulacao de objetos tridimensionais apresentadas
neste documento, foi seguida a metodologia que sera descrita nesta seccao. A duracao prevista para cada
sessao com utilizadores foi cerca de uma hora, e estava dividida em tres etapas (Tabela 5.1).
# Etapa Tempo
1 Apresentacao 5 minutos
2 Testes das Tecnicas 5 x 10 minutos
3 Preenchimento de Perfil 10 minutos
Tabela 5.1: Etapas de avaliacao das tecnicas propostas.
47
1. Apresentacao e Consideracoes Gerais
Ao comecar uma sessao de testes com um novo utilizador, era feita uma pequena explicacao das con-
sideracoes que este deveria ter em conta ao utilizar o nosso prototipo. Estas consideracoes foram
apresentadas na tarefa de teste. Comecava-se por explicar que o prototipo esta equipado com a capaci-
dade de mostrar a perspetiva segundo a posicao da cabeca do utilizador, e que dessa forma, o utilizador
ao movimentar a sua cabeca, conseguiria ter uma melhor nocao espacial.
De seguida era explicada a melhor forma de interagir com o nosso prototipo, explicando as limitacoes
tecnologicas, quer para a monotorizacao das maos quer para a superfıcie de toque. Tudo isto foi
sempre exemplificado por forma a ficar claro para o utilizador, mostrando-nos disponıveis para qualquer
esclarecimento.
2. Avaliacao das Tecnicas
O nosso teste com utilizadores pretendia avaliar um total de cinco tecnicas de interacao, comparando-as
entre si, sendo que para cada uma das abordagens foi seguido o seguinte processo:
(a) Sorteio da Tecnica
Era feito um sorteio aleatorio para escolher a abordagem a testar. Foi escolhido este metodo para
se contrariar o efeito de aprendizagem.
(b) Tarefa de Habituacao
Apos a escolha da abordagem a testar, foi mostrado ao utilizador um vıdeo, com a duracao de
sensivelmente um minuto, explicando na nossa tarefa de habituacao como deslocar, rodar e escalar
os nossos objetos em todos os graus de liberdade de forma a que este se sentisse preparado para
a realizacao dos testes. De seguida era pedido ao utilizador que tentasse imitar o que tinha
acabado de ver. Para isso era posta ao seu dispor a tarefa de habituacao durante um total de dois
minutos. Enquanto o utilizador tentava replicar o que tinha visualizado estavamos ao seu dispor
para esclarecer qualquer duvida com a interacao.
(c) Execucao das tarefas
Apos a tarefa de testes e com o utilizador preparado, procedia-se entao a execucao das tres tarefas,
tal como serao apresentadas em detalhe mais a frente.
(d) Preenchimento de questionario
Apos a conclusao do conjunto das tres tarefas, era pedido aos utilizadores que preenchessem
um questionario onde classificavam esta tecnica segundo diversos parametros com uma escala de
Likert em cinco valores. Essa classificacao era feita segundo cinco metricas, facilidade de interacao,
rotacao e escala, assim como fluidez de interacao e diversao. Era tambem dito ao utilizador que
este poderia repensar e alterar sempre que quisesse as cotacoes dadas as tecnicas anteriores se
achasse pertinente.
48
3. Preenchimento do questionario de Perfil
Apos a conclusao dos testes com todas as cinco tecnicas de interacao, era pedido aos utilizadores
que preenchessem um pequeno questionario nao so para definir o perfil do utilizador como tambem
para colocar algumas questoes gerais sobre o ambiente estereoscopico. Este questionario encontra-se
disponıvel para consulta no Anexo A1.
5.2 Tarefas
O planeamento das tarefas para o nosso estudo baseou-se na tecnica de encaixe introduzida por Zhai [45] em
1998, e desde entao utilizado por muitos autores para avaliar as suas tecnicas desenvolvidas, inclusive nos
trabalhos apresentados na seccao 2 deste documento [1, 33, 28, 46, 10]. Na tecnica de encaixe e pedido ao
utilizador que mova um cursor tridimensional tao rapido quanto possıvel de forma a alinhar corretamente
com um alvo tridimensional, tal como se pode ver na Figura 5.1.
Figura 5.1: Docking task tal como apresentada por Zhai [45]
Sendo esta tarefa bastante identica aos brinquedos de encaixe em madeira para criancas, decidimos que
as nossas tarefas se centrariam no encaixe de um objeto num buraco com a sua forma. Assim, criamos tres
tarefas com um grau de dificuldade incremental, comecando com uma tarefa mais simples e terminando com
uma tarefa que requer um controlo total da tecnica para a sua conclusao. Criamos tambem uma tarefa inicial
como meio de adaptacao a cada tecnica.
Como a nossa avaliacao se baseia em tarefas de encaixe, nao utilizamos qualquer motor fısico (gravidade)
nem qualquer colisao entre objetos, permitindo assim que os objetos atravessem outros objetos. Tambem
e relevante referir que em todas as tarefas, exceto na tarefa de habituacao, o utilizador apenas consegue
manipular o objeto que devera ser encaixado. Estando o objeto que possui o buraco para encaixe desativo de
qualquer manipulacao. No seguimento desta seccao serao explicadas individualmente cada uma das tarefas
criadas. A duracao destas tarefas e as tolerancias foram calculadas atraves de um estudo empırico. Todas
as medidas apresentadas neste capıtulo, quer para o tamanho dos objetos, quer para as tolerancias, estao
reproduzidas a escala real no ambiente virtual do nosso prototipo.
49
5.2.1 Tarefa de Habituacao
Como forma de apresentacao e treino, foi criado um ambiente, ao qual chamamos de tarefa de habituacao,
que permite ao utilizador habituar-se a cada tecnica de forma descontraıda. O ambiente virtual consiste em
quatro objetos colocados com um espacamento igual entre eles. Um cubo azul, um cilindro amarelo, uma
esfera verde e um triangulo vermelho, tal como se pode ver na Figura 5.2. O utilizador podia entao manipular
livremente cada um destes objetos, tendo total liberdade para aprender a utilizar cada tecnica.
Figura 5.2: Tarefa de habituacao, onde o utilizador podera aprender as tecnicas de manipulacao.
5.2.2 Tarefa de Translacao (TR)
Como primeira tarefa de teste do nosso estudo, decidimos que a forma do objeto a encaixar era uma esfera,
sendo desta forma invariante na rotacao. Esta primeira tarefa consiste na colocacao de uma esfera, por parte
do utilizador dentro de um cubo que possui um encaixe para esta na sua face superior, como se pode ver na
Figura 5.3. O utilizador apenas precisa de mover a esfera segundo o plano da superfıcie, nao necessitando de
a movimentar na vertical, uma vez que nao existem colisoes no ambiente virtual.
Para manter a tarefa simples bloqueamos qualquer escala que o utilizador podesse fazer inadvertidamente
ao objeto, sendo assim uma tarefa com um criterio de encaixe que recorre meramente a posicao. A caixa
tem 10 centımetros de lado e a esfera 4,5 centımetros de raio, sendo dada uma tolerancia de 1 centımetro a
posicao correta de encaixe para cobrir qualquer imprecisao por parte do dispositivo de tracking. Para esta
tarefa foi pedido a cada participante que encaixasse a esfera 5 vezes no interior da caixa num tempo limite
de 60 segundos.
50
Figura 5.3: Tarefa TR: primeira tarefa de teste do nosso estudo. E pedido ao utilizador que coloque a esfera
dentro do encaixe do cubo.
Tabela TR:
Manipulacao Avaliada Translacao
Objecto de Encaixe Esfera
Criterio de conclusao 60 segundos ou 5 vezes
Tolerancia Posicao 1 centımetro
Tolerancia Angular -
Tolerancia Escalar -
5.2.3 Tarefa de Translacao e Escala (TRE)
Com o intuito de criar uma segunda tarefa com um grau superior de dificuldade superior, comparativamente
a primeira tarefa, decidimos que o utilizador teria, nao so de deslocar, mas tambem escalar o objeto. Com
isto em mente criamos um torus estilizado e colocado na vertical que tem de encaixar no buraco da face
frontal do cubo com a sua forma.
Esta tarefa intermedia requer, nao so uma deslocacao no plano da superfıcie, como tambem um ajuste
na sua altura. Para conseguir o seu encaixe o utilizador teria tambem de reduzir a escala do torus, pois
este aparece sempre com o dobro da escala pretendida. Neste ambiente o cubo possui as mesmas dimensoes
da primeira tarefa, ou seja 10 centımetros de lado. O torus estilizado, em condicoes de encaixe, tem 4,5
centımetros de raio exterior, 2,5 centımetros de raio interior e 2 centımetros de largura. O buraco da face
frontal do cubo tem tambem estas dimensoes. Foi dada aos utilizadores uma tolerancia escalar de 10 %,
uma tolerancia angular de 10 graus assim como uma tolerancia de posicao de 1 centımetro. Nesta tarefa era
pedido a cada utilizador que encaixasse o torus na caixa 5 vezes num perıodo maximo de 120 segundos.
51
Figura 5.4: Tarefa TRE: segunda tarefa de teste do nosso estudo. E pedido ao utilizador que encaixe o
torus estilizado no interior do buraco frontal do cubo, tendo em conta a sua escala.
Tabela TRE:
Manipulacao Avaliada Translacao e Escala
Objecto de Encaixe Torus estelizado
Criterio de conclusao 120 segundos ou 5 vezes
Tolerancia Posicao 1 centımetro
Tolerancia Angular 10 graus
Tolerancia Escalar 10 %
5.2.4 Tarefa Completa (TC)
Como terceira e ultima tarefa, pretendıamos criar um cenario que necessitasse de total controlo de 7 DOFs
por parte do utilizador para atingir os criterios de encaixe. Para concretizar este cenario criamos um cubo
com um buraco na face do topo, que atravessa o seu interior, com a forma de um semicilindro. Escolhemos
um semicilindro, uma vez que para este encaixar no buraco e relevante nao so a sua posicao como tambem a
sua orientacao.
Para o utilizador conseguir atingir os criterios de encaixe tera de orientar o semicilindro segundo dois
eixos, um vertical e um horizontal, diminuir o seu tamanho e posiciona-lo. Neste nosso cenario o cubo tem
novamente as mesmas dimensoes das tarefas anteriores, 10 centımetros de lado, e o seu buraco de encaixe na
face superior tem as medidas do semicilindro, ou seja, 4 centımetros de raio e 10 centımetros de comprimento
(o tamanho da caixa). Nesta tarefa era pedido ao utilizador que encaixasse o semicilindro no interior do cubo
e que este devia estar escalado para se encontrar na dimensao do encaixe.
52
Figura 5.5: Tarefa TC: terceira tarefa do nosso estudo. E pedido ao utilizador que coloque o semicilindro
no interior do buraco do cubo, tendo em conta a escala e a sua rotacao.
Tabela TC:
Manipulacao Avaliada Translacao, Escala e Rotacao
Objecto de Encaixe semicilindro
Criterio de conclusao 180 segundos ou 5 vezes
Tolerancia Posicao 1 centımetro
Tolerancia Angular 15 graus
Tolerancia Escalar 10 %
5.3 Prototipo de Testes
Para ser possıvel avaliar as tecnicas desenvolvidas e apresentadas anteriormente, foi necessario adaptar a
nossa aplicacao para o efeito.
Tal como vimos anteriormente, o ambiente do prototipo de testes consiste sempre num plano coincidente
com a superfıcie da mesa, visto que pretendemos testar as nossas tecnicas num ambiente estereoscopico
dando a ilusao ao utilizador que os objetos estao efetivamente acima do vidro da mesa interativa. Uma vez
que o sistema de seguimento das maos do utilizador nao e perfeito e possui um volume limitado onde a
interacao e estavel, sendo que fora desta pode ter comportamento indesejado, criamos uma caixa para limitar
o volume da interacao centrado na superfıcie com 70 centımetros de comprimento, 70 centımetros de largura
e 30 centımetros de altura. Esta caixa tem apenas as suas arestas constantemente visıveis em tons de azul
(wireframe), mas da feedback visual ao utilizador quando este o tenta atravessar um dos seus lados com um
objeto. Ao chegar a qualquer um dos planos dos lados dessa caixa que representam os limites e dado um
feedback visual ao utilizador, tornando a face vermelha, impedindo ao mesmo tempo que o objeto atravesse,
como se pode ver na Figura 5.6. Assim criamos uma area de interacao estavel durante todo o processo de
53
Figura 5.6: Plano que da feedback visual dos limites de interacao do nosso prototipo
avaliacao, sem criar frustracao aos utilizadores.
Uma vez que nas nossas tarefas e pedido ao utilizador que cumpra os criterios de encaixe mais que uma
vez, foi criada uma funcao que reposiciona os objetos interativos em volta do objeto onde estes encaixam,
sempre a uma distancia constante, mas numa posicao aleatoria. Por forma ao utilizador perceber que os
criterios de encaixe foram cumpridos, o objeto muda a sua cor para branco, bloqueando ao mesmo tempo
todas as suas transformacoes. Este bloqueio foi introduzido para evitar frustracao por parte do utilizador, que
apos conseguir concluir uma tarefa, ao largar o objeto, devido a algumas imprecisoes por parte do seguidor
das maos, este se desloque e tenha de voltar a tentar. Assim ao ficar branco, o utilizador pode libertar o
objeto e este sera colocado novamente em posicao para recomecar, como descrito anteriormente. De referir
ainda que apos o tempo pre-definido por cada tarefa a aplicacao termina e grava para um ficheiro todos os
dados relevantes sobre a sessao do utilizador.
5.4 Aparato e Participantes
Para avaliar as nossas tecnicas de interacao, foi elaborado um estudo em ambiente controlado, sem influencias
externas, seguindo a metodologia apresentada. Neste estudo foi executado o nosso prototipo de testes com
as diversas de tecnicas numa mesa interativa com dimensoes 1.80x1.20x0.95 metros, tal como e possıvel ver
na Figura 5.7.
Este setup e constituıdo por dois sensores de profundidade, Microsoft Kinect para Xbox 360 (A e B), um
plano de luz infravermelha mesmo sobre a superfıcie (D), criado por seis lasers e capturados por uma camara
PointGrey, uns oculos de obturador ativo Nvidia Vision 2 (D), um projetor Benq 720p e dois computadores.
Tal como explicado na seccao da arquitetura foram necessarios dois computadores, um para o seguimento
das maos e outro para correr o nosso prototipo, ambos ligados em rede. Esses dois computadores tinham as
seguintes especificacoes: processador Intel Core i7-3770K e 16Gb de RAM. O computador que corria o nosso
54
Figura 5.7: Aparato encontrado pelos utilizadores nos testes. A e B sensores de profundidade Microsoft
Kinect. C - Oculos Nvidia 3D Vision 2. D - Mesa multitoque com ecra de retroprojecao.
prototipo estava tambem equipado com uma Nvidia Quadro K5000 para ser capaz de produzir a visualizacao
estereo.
Nas sessoes de testes estiveram presentes doze utilizadores. As suas idades estavam compreendidas entre
os 19 e os 35 anos, estando a grande maioria acima dos 25 e tendo pelo menos o grau de licenciatura. Ape-
nas dois desses utilizadores nao possuıam pelo menos um dispositivo multi-toque (Smartphone, Tablet, etc),
no entanto todos eles tinham experiencia com este tipo de dispositivos. No que diz respeito a experiencia
com ferramentas de modelacao tridimensional, apenas tres usavam com frequencia, dois nunca tinham tido
contacto, e os restantes ja teriam usado ferramentas deste tipo. Quando questionados se tinham tido alguma
experiencia com ambientes estereoscopicos, apenas um utilizador efetivamente tinha contacto frequente com
este tipo de ambientes, tendo a maior parte (83%) nunca interagido atraves de visualizacao estereoscopica.
Na Figura 5.8 e possıvel observar um utilizador a interagir no nosso prototipo de testes.
Todas as sessoes de testes foram individual e automaticamente registadas pelo nosso prototipo em ficheiros
de texto com os dados relevantes, como o tempo que o utilizador levou a alcancar os criterios de encaixe para
a tarefa com a abordagem que estava de momento a testar. Todas as sessoes foram ainda gravadas por uma
camara que registou vıdeo e audio. Foram tambem apontadas todas as afirmacoes e acoes relevantes por
parte utilizador. Todos os dados recolhidos destas observacoes, da visualizacao das gravacoes e dos registos
automaticos de tempos serao discutidos no proximo capıtulo.
55
Figura 5.8: Utilizador a interagir com o nosso prototipo de testes utilizando uma abordagem de interacao
acima da mesa.
5.5 Resultados e Discussao
Com o objetivo de perceber qual das tecnicas desenvolvidas era mais natural e facil de utilizar e ao mesmo
tempo qual era a preferida pelos utilizadores, levamos a cabo uma avaliacao com os utilizadores tal como
apresentado anteriormente. Para avaliar as nossas tecnicas, monitorizamos o tempo dispensado por cada
utilizador para conseguir satisfazer os criterios de encaixe para cada tarefa. Apos a conclusao dos testes
com as cinco tarefas, os utilizadores tambem preencheram um breve questionario com vista a avaliarem as
diferentes abordagens de interacao. Apos a recolha e compilacao de todos estes dados para cada tarefa e
abordagem, foi feita uma analise quantitativa e qualitativa que sera apresentada neste capıtulo. Tambem
sera apresentada uma compilacao de observacoes relevantes registadas durante estas sessoes. Neste capıtulo
a discussao dos resultados obtidos sera feita ao longo da sua apresentacao.
5.5.1 Analise Quantitativa
Para proceder a uma analise estatıstica detalhada da nossa experiencia com utilizadores, comparamos as
tecnicas implementadas separadas por tarefa. Para cada tarefa foi avaliado o tempo levado por cada utilizador
a cumprir os requisitos. Obtivemos uma media de 249 dados unicos por cada tarefa conjugando todas as
tecnicas desenvolvidas e repeticoes dos utilizadores. Estes resultados foram processados estatisticamente
atraves do teste One-Way ANOVA. Quando estes revelaram ter diferencas estatisticamente relevantes foi
aplicado um teste multi-comparativo Post-hoc Turkey HSD.
56
Tarefa de Translacao
Na primeira tarefa obtivemos os resultados que estao ilustrados pelo grafico da Figura 5.9. Ao aplicar o
teste One-Way ANOVA nesta tarefa, este sugeriu que existiam diferencas estatisticamente relevantes entre
as abordagens (F(4,317)=6.426, p<.05). Aplicando posteriormente o teste de Turkey Post-hoc, uma vez
que existiam diferencas, este mostrou que a tecnica baseada em multi-toque (Touch TRS + Widgets) e
significativamente mais lenta que as demais. A ausencia de diferencas entre as restantes abordagens pode ser
facilmente justificada pelo facto de apenas ser necessario deslocar o objeto para atingir os criterios de encaixe
nesta tarefa, sendo todas as tecnicas identicas nesse especto. Se tivermos em conta apenas a translacao, de
facto as tecnicas 6 DOF Hand, 3 DOF Hand e Air TRS sao exatamente iguais.
Technique
Touch TRS + Widgets
Air TRSHandle-Bar3 DOF Hand6 DOF Hand
Tim
e (s
)
5
4
3
2
1
0
Page 1
Figura 5.9: Tempo de conclusao para a tarefa de translacao (TR) usando as cinco tecnicas de interacao.
57
Tarefa de Translacao e Escala
Os tempos de conclusao obtidos para a tarefa de translacao e escala estao ilustrados no grafico da Figura 5.10
Aplicando novamente o mesmo teste One-Way ANOVA para os resultados desta tarefa, identificamos diferencas
estatisticamente significativas (F(4,261)=81.359, p<.05). Procedendo da mesma forma que na primeira tarefa,
recorremos ao teste Turkey Post-hoc para analisar essas diferencas. O teste revelou que a abordagem Handle-
Bar reduz significativamente o tempo de conclusao em relacao as restantes. Por outro lado, a tecnica Touch
TRS + Widgets foi, mais uma vez, a tecnica mais lenta. Tambem descobrimos que a tecnica Air TRS e mais
rapida que a tecnica 3 DOF Hand. Uma possıvel explicacao para o facto de a tecnica Handle-Bar ser mais
veloz que as restantes, e que uma vez que na segunda tarefa apenas e necessario deslocar e escalar o objeto,
o utilizador, apos agarrar o objeto ja possui ambas as maos em posicao para escalar ao mesmo tempo que o
desloca. Uma vez que a tecnica Handle-Bar apenas usa a posicao das maos para efetuar rotacoes aos obje-
tos, nao usando as rotacoes dos pulsos, pode proporcionar uma interacao com um menor numero de rotacoes
indesejadas. A abordagem multi-toque (Touch TRS + Widgets) requer uma constante mudanca entre
o algoritmo TRS e a utilizacao de widgets, o que leva a que esta tenha tempos de conclusao mais prolongados.
Technique
Touch TRS + Widgets
Air TRSHandle-Bar3 DOF Hand6 DOF Hand
Tim
e (s
)
40
30
20
10
0
Page 1
Figura 5.10: Tempo de conclusao para a tarefa de translacao e escala (TRE) usando as cinco tecnicas de
interacao.
58
Tarefa Completa
No grafico da Figura 5.11 e possıvel verificar os tempos de conclusao para cada tecnica na tarefa completa.
Analisando os valores obtidos pelo teste One-Way ANOVA, quando aplicado aos resultados desta terceira
tarefa, verificamos que existem diferencas estatisticamente significativas (F(4,155)=19.966, p<.05). Conse-
quentemente, aplicando o teste de Turkey Post-hoc, a semelhanca do que tem sido feito nas tarefas anteriores,
verificamos que quer a tecnica 6 DOF Hand, quer a tecnica Handle-Bar se destacaram positivamente em
relacao as restantes, obtendo tempos de conclusao menores. Acreditamos que a tecnica Handle-Bar tenha
obtido este resultado, uma vez que esta e a unica abordagem acima da mesa que proporciona ao utilizador
uma interacao sem oclusoes, ou seja, o utilizador consegue realizar todas as transformacoes sem nunca tapar
a visao que tem sobre o objeto com as suas maos. Isto permite uma melhor percecao do objeto relativamente
a sua posicao e orientacao. A tecnica 6 DOF Hand tenta imitar as interacoes com objetos fısicos, sendo
desta forma a de utilizacao mais natural para os utilizadores, o que se reflete nos resultados obtidos dos
tempos que cada utilizador levou para concluir esta tarefa.
Technique
Touch TRS + Widgets
Air TRSHandle-Bar3 DOF Hand6 DOF Hand
Tim
e (s
)
120
100
80
60
40
20
0
Page 1
Figura 5.11: Tempo de conclusao para a tarefa completa (TC) usando as cinco tecnicas de interacao.
59
5.5.2 Analise Qualitativa
Nos questionarios, foi pedido aos utilizadores para que classificassem cada tecnica testada relativamente
a cinco criterios diferentes usando uma escala de Likert com 5 valores (1 - muito mau, 5 - muito bom).
As respostas dadas pelos utilizadores estao compiladas na Tabela 5.2. Avaliando esses resultados atraves
de um teste estatıstico Wilcoxon Signed Rank foi possıvel obter diferencas estatisticamente significativas.
Comecando por analisar os dados respeitantes a translacao, nas cinco tecnicas apresentadas, conclui-se que
nao existem diferencas estatisticamente significativas em termos de preferencias por parte dos utilizadores.
No que respeita a rotacao, os utilizadores concordam plenamente que a tecnica 3 DOF Hand e mais difıcil
de usar que a tecnica 6 DOF Hand, Air TRS e Touch TRS + Widgets (Z=-2.965, p=.003 e Z=-2.292,
p=.022 e Z=-2.976, p=.003). Os utilizadores tambem concordam vivamente que a tecnica Handle-Bar
oferece uma dificuldade acrescida para rodar objetos em relacao a tecnica 6 DOF Hand e Touch TRS +
Widgets (Z=-2.588, p=.010 e Z=-2.157, p=.031). Uma possıvel razao para que os utilizadores nao apreciem
a tecnica 3 DOF Hand para rotacoes pode residir no facto de que para rodar o objeto sao utilizadas as
rotacoes da mao oposta a que o agarra, o que nao e natural, e pode necessitar de algum tempo de habituacao.
Exatamente o contrario pode ser aplicado a tecnica 6 DOF Hand, pois esta imita a forma como interagimos
com objetos fısicos, explicando a sua preferencia por parte dos utilizadores em relacao a todas as restantes
tecnicas, no que diz respeito a rotacoes.
Relativamente a escalar os objetos, os utilizadores concordam fortemente que ambas as tecnicas, 6 DOF
Hand e Handle-Bar sao mais faceis de utilizar em relacao a tecnica 3 DOF Hand (Z=-2.070, p=.038 e
Z=-2.913, p=.004). A abordagem 3 DOF Hand, sem experiencia por parte dos utilizadores, pode tornar
a tarefa de escalar o objeto mais complicada do que era pretendido, uma vez que esta usa o pulso da mao
contraria a que esta a segurar o objeto para controlar as rotacoes e escala em simultaneo, o que pode levar
6 DOF Hand 3 DOF Hand Handle-Bar Air TRS Touch TRS + Widgets
Translacao 4,5 (1) 4 (1) 4 (2) 4 (1) 4 (2)
Rotacao* 4 (2) 2 (2) 3 (2) 3 (2) 4 (2)
Escala* 4,5 (1) 3,5 (2) 5 (1) 4 (2) 4 (0)
Fluidez* 4 (1) 3 (1) 4 (1) 4 (2) 3,5 (3)
Diversao* 5 (1) 2 (1) 4 (1) 4 (2) 4 (1)
* indica significancia estatıstica
Tabela 5.2: Compilacao dos resultados das preferencias dos utilizadores usando criterios diferentes
(Mediana, Intervalo inter-quartil).
60
a rotacoes indesejadas.
Em termos de fluidez das tecnicas, os utilizadores concordam que a tecnica 6 DOF Hand e superior
as tecnicas 3 DOF Hand, Air TRS e Handle-Bar (Z=-2.994, p=.003 e Z=-2.226, p=.026 e Z=-2.333,
p=.020). Os utilizadores concordam tambem que a tecnica Handle-Bar tem uma maior fluidez que a tecnica
3 DOF Hand (Z=-2.636, p=.008). Estas opinioes podem ser explicadas pelo facto de a tecnica 6 DOF
Hand tentar imitar a forma como interagimos com objetos fısicos, tornando a abordagem mais natural de
utilizar.
Finalmente, considerando o fator diversao, os utilizadores concordam plenamente que a tecnica 6 DOF
Hand e melhor relativamente as restantes (seguindo a ordem das tecnicas apresentada na tabela: Z=-2.992,
p=.003 e Z=-2.887, p=.004 e Z=-2.070, p=.038 e Z=-2.308, p=.021). Os utilizadores concordam tambem
que a tecnica 3 DOF Hand e a menos divertida de todas (seguindo a ordem das tecnicas apresentada na
tabela: Z=-2.877, p=.004 e Z=-2.850, p=.004 e Z=-2.854, p=.010). Nos acreditamos que a forma facil e
direta como sao realizadas as interacoes na tecnica 6 DOF Hand, imitando a forma como interagimos com
objetos fısicos, pode facilmente explicar estes resultados.
5.5.3 Observacoes
Durante todas as sessoes de teste foram observadas, gravadas e anotadas todas as acoes e expressoes dos uti-
lizadores. Considerando o ato de agarrar objetos, foi possıvel observar que nao existe uma estrategia comum
entre os utilizadores. Alguns preferem utilizar a mao que se encontra mais perto do objeto, enquanto outros
preferem usar a sua mao dominante. Mas nem sempre o utilizador mantem a mesma estrategia ate ao fim
da interacao. O mesmo acontece para rodar um objeto, alguns utilizadores preferem usar a mao dominante
para rodar em vez de para mover. Este facto foi especialmente notorio na tecnica 3 DOF Hand, uma vez
que a mao dominante oferece uma maior estabilidade e precisao ao utilizador, e este prefere ter essa precisao
extra nas rotacoes em vez de nas translacoes. Alguns utilizadores queixaram-se de rotacoes nao intencionais
provocadas por falhas aleatorias do seguidor das maos, especialmente notorias nas tecnicas 6 DOF Hands
e 3 DOF Hands, que utilizam as rotacoes do pulso. Estes problemas de seguimento tambem foram notorios
quando os utilizadores tentavam largar os objetos, com o seguidor das maos por vezes a nao reconhecer o
abrir da mao. Estes problemas de precisao, quando presentes, aumentaram significativamente a dificuldade
das tarefas. Ainda respeitante as translacoes, mas desta vez na tecnica Touch TRS + Widgets, os uti-
lizadores, quando utilizavam o widget para controlar a altura do objeto (widget com a metafora de dar ou
tirar corda ao balao), comecavam geralmente por realizar a acao contraria a que desejavam, subindo o balao
quando o tencionavam descer e vice-versa. Ainda de referir que grande parte dos utilizadores sentia alguma
dificuldade inicial quando tentavam realizar rotacoes aos objetos usando as tecnicas Air TRS e Handle-Bar.
61
Todos os utilizadores que fizeram parte do nosso estudo concordam que abordagens espaciais sao mais
divertidas de usar que abordagens multi-toque. Contudo, muitos utilizadores queixam-se que abordagens
que interajam diretamente com os objetos (caso da tecnica 6 DOF Hand, 3 DOF Hand e Air TRS)
sofrem de problemas de oclusao pela mao que agarra o objeto. Apesar do facto de serem menos divertidas,
os utilizadores pensam que interacoes com toque sao faceis de usar. Alguns utilizadores sugeriram o uso de
um widget para realizar as interacoes referentes ao algoritmo TRS na abordagem com toque, uma vez que se
esqueciam que podiam tocar em qualquer local da superfıcie. Mas que com um pouco de mais pratica, talvez
este nao fosse necessario.
Relativamente a estereoscopia do nosso cenario, enquanto alguns utilizadores se queixaram de cansaco
devido ao uso dos oculos 3D, a maior parte reagiu de forma bastante positiva por ser capaz de visualizar
os objetos acima da superfıcie. De notar tambem que grande parte dos utilizadores usou o corpo para
tirar vantagem da perspetiva personalizada, segundo a posicao da sua cabeca, para melhor compreender
a posicao e orientacao dos objetos no espaco. Tambem notamos um grande sentido de envolvimento em
varios utilizadores, julgando pelo empenho que demonstravam na tarefa de habituacao, ao tentar elaborar
construcoes arquitetonicas com os quatro objetos da cena.
62
Capıtulo 6
Conclusoes e Trabalho Futuro
O avanco tecnologico dos ultimos anos permitiu a criacao de novos cenarios que oferecem capacidades unicas
de interacao. Embora haja solucoes robustas para interacoes multi-toque, estas estao limitadas a um espaco
de interacao bidimensional, nao oferecendo interacoes diretas no espaco de visualizacao. Alguns trabalhos
tentam colmatar este problema, mas em todos eles, ou recorrem a solucoes intrusivas para o utilizador, ou
nao sao aplicados em cenarios com estereoscopia.
Usando o nosso setup inovador que aumenta a percecao espacial de forma nao intrusiva, procuramos
encontrar a melhor forma de interagir com objetos virtuais tridimensionais acima da superfıcie num cenario de
mesas interativas com visualizacao estereoscopica. Isto foi conseguido atraves de um sensor de profundidade
acessıvel, capaz de seguir a posicao da cabeca e, atraves desta, gerar imagens de acordo com a perspetiva
do utilizador, dando a ilusao de que os objetos virtuais tridimensionais estao acima da superfıcie. Utilizando
outro sensor de profundidade, colocado estrategicamente por cima da superfıcie, e possıvel obter a posicao,
orientacao e pose das maos do utilizador.
Com esta combinacao e possıvel explorar novas formas de manipular objetos virtuais tridimensionais, num
cenario de mesas interativas com visualizacao estetoscopica. Foram implementadas cinco diferentes tecnicas
de interacao, quer diretas quer indiretas, por forma a permitir ao utilizador manipular objetos tridimensionais
acima da superfıcie.
Para avaliar e comparar as cinco tecnicas desenvolvidas levamos a cabo um estudo com utilizadores. Este
estudo consistiu em pedir aos utilizadores que testassem cada uma das cinco tecnicas, independentemente,
num conjunto de tres tarefas de encaixe aplicadas num cenario pratico, numa aplicacao prototipo especial-
mente desenvolvida para o efeito. Durante todas as sessoes registamos a preferencia dos utilizadores, as
suas acoes mais relevantes, os seus comentarios e o tempo dispendido em cada tarefa. Realizamos tambem
uma analise qualitativa e quantitativa de todos os dados recolhidos, usando metodos estatısticos, que nos
permitissem aferir resultados estatisticamente significativos.
63
Os participantes do nosso teste concordam que a tecnica 6 DOF Hands e a mais natural de usar neste
cenario, uma vez que esta reproduz a forma como interagimos com objetos fısicos. Atraves da analise dos tem-
pos para conclusao dos objetivos de cada tarefa, concluımos que a tecnica Handle-Bar [10] e tao rapida como
a tecnica 6 DOF Hand. Foi possıvel observar tambem que a nossa abordagem para controlar diretamente seis
graus de liberdade com a mao dominante pode causar oclusoes indesejadas no objeto que o utilizador esta
a manipular. Isto e uma consequencia da visualizacao estereoscopica ja identificada na literatura [47, 48].
No entanto, a tecnica Handle-Bar nao e afetada por estas oclusoes, uma vez que usa o ponto medio entre as
maos. Acreditamos que ao conseguir ultrapassar este desafio, isto nos ira permitir melhorar a tecnica 6 DOF
Hand, tornando-a ainda mais adequada para manipular objetos virtuais em tres dimensoes num ambiente
com visualizacao estereoscopico, reduzindo assim a lacuna existente entre interacoes fısicas e virtuais.
O uso de mundos virtuais tridimensionais tem provado ajudar a estudar e entender o nosso patrimonio
cultural, passando esta heranca, nao so a corrente, como tambem as futuras geracoes. Com o projeto Alberti
Digital desenvolvemos um prototipo para dar a conhecer aos visitantes das exposicoes publicas organizadas,
uma forma interativa e inovadora de observar, estudar e modificar modelos arquitetonicos segundo as regras
de forma presentes no tratado de Leo Battista Alberti (1404-1472). Com a positiva rececao e elogios que o
prototipo obteve, consideramos que o nosso objetivo foi conseguido, aumentando e tornando mais apelativa
a visita a exposicao Alberti Digital.
Como trabalho futuro consideramos que seria interessante, a inclusao de um motor fısico com gravidade
e colisoes de forma a colocar as tecnicas desenvolvidas num novo ambiente, e assim, observar o seu com-
portamento num cenario de simulacao fısica. Seria tambem interessante explorar outros tipos de cenarios,
como por exemplo, introduzir estas novas abordagens de manipulacoes espaciais no trabalho LTouchIT [32]
e avaliar o seu desempenho num ambiente de construcao de modelos com pecas de Lego.
Consideramos tambem que seria pertinente o estudo e desenvolvimento de widgets espaciais para a ma-
nipulacao dos objetos, pois desta forma, evitar-se-iam os problemas de oclusoes registados durante os testes
nas tecnicas de manipulacao direta e permitindo assim tambem aumentar a precisao [33]. Seria ainda inter-
essante comparar o desempenho destes widgets com as tecnicas apresentadas neste documento, assim como
o desenvolvimento de um estudo para perceber a preferencia por parte dos utilizadores.
O setup inovador apresentado neste documento abre portas a exploracao de cenarios diferentes, como por
exemplo interfaces espaciais. Seria interessante desenvolver uma interface em tres dimensoes (com botoes no
espaco de visualizacao acima da mesa) e verificar o seu desempenho relativamente a uma interface em duas
dimensoes (com botoes na superfıcie).
64
Com o aparecimento do novo Microsoft Kinect apresentando uma evolucao da sua camara VGA para
FULL HD, ou tambem com o LEAP Motion, seria interessante testar se o uso desta nova tecnologia poderia
tornar o seguimento das maos mais estavel, tornando a interacao espacial mais precisa, reduzindo assim o
aparecimento de manipulacoes indesejadas. Gostarıamos tambem de explorar novas formas de interagir no
prototipo Alberti Digital, como por exemplo, atraves da definicao de planos de corte usando as maos no
espaco de visualizacao. Isto daria ao utilizador um outro nıvel de liberdade de exploracao, permitindo a
visualizacao do interior dos modelos de forma mais detalhada e personalizada.
Acreditamos que o trabalho desenvolvido neste documento leva as interacoes espaciais um pouco mais
alem do que tinha sido explorado ate entao. Este setup inovador e tecnicas de interacao podem ser aplicadas
a um vasto leque de cenarios, desde a prototipagem rapida de modelos a montagem de pecas de engenharia.
Sentimos tambem que a visualizacao estereoscopica reforca a necessidade de uma manipulacao tridimensional
direta, ao mesmo tempo que aumenta a percecao espacial e ajuda a que as interacoes parecam mais familiares.
65
Referencias
[1] Bjorn Bollensdorff, Uwe Hahne, and Marc Alexa. The effect of perspective projection in multi-touch 3d
interaction. In Proceedings of Graphics Interface 2012, GI ’12, pages 165–172, Toronto, Ont., Canada,
Canada, 2012. Canadian Information Processing Society.
[2] Martin Hachet, Benoit Bossavit, Aurelie Cohe, and Jean-Baptiste de la Riviere. Toucheo: multitouch
and stereo combined in a seamless workspace. In Proceedings of the 24th annual ACM symposium on
User interface software and technology, UIST ’11, pages 587–592, New York, NY, USA, 2011. ACM.
[3] Sven Strothoff, Dimitar Valkov, and Klaus Hinrichs. Triangle cursor: interactions with objects above the
tabletop. In Proceedings of the ACM International Conference on Interactive Tabletops and Surfaces,
ITS ’11, pages 111–119, New York, NY, USA, 2011. ACM.
[4] Hrvoje Benko and Steven K. Feiner. Balloon selection: A multi-finger technique for accurate low-fatigue
3d selection. In 3DUI, page 22, 2007.
[5] Robert Y. Wang and Jovan Popovic. Real-time hand-tracking with a color glove. In ACM SIGGRAPH
2009 papers, SIGGRAPH ’09, pages 63:1–63:8, New York, NY, USA, 2009. ACM.
[6] Robert Wang, Sylvain Paris, and Jovan Popovic. 6d hands: markerless hand-tracking for computer aided
design. In Proceedings of the 24th annual ACM symposium on User interface software and technology,
UIST ’11, pages 549–558, New York, NY, USA, 2011. ACM.
[7] L. Gallo, A. P. Placitelli, and M. Ciampi. Controller-free exploration of medical image data: Experienc-
ing the kinect. In Proceedings of the 2011 24th International Symposium on Computer-Based Medical
Systems, CBMS ’11, pages 1–6, Washington, DC, USA, 2011. IEEE Computer Society.
[8] Kittasil Silanon and Nikom Suvonvorn. Real time hand tracking as a user input device. In Proceedings of
the 5th international conference on Knowledge, information, and creativity support systems, KICSS’10,
pages 178–189, Berlin, Heidelberg, 2011. Springer-Verlag.
[9] Robert Y. Wang and Jovan Popovic. Real-time hand-tracking with a color glove. In ACM SIGGRAPH
2009 papers, SIGGRAPH ’09, pages 63:1–63:8, New York, NY, USA, 2009. ACM.
66
[10] Peng Song, Wooi Boon Goh, William Hutama, Chi-Wing Fu, and Xiaopei Liu. A handle bar metaphor for
virtual object manipulation with mid-air interaction. In Proceedings of the 2012 ACM annual conference
on Human Factors in Computing Systems, CHI ’12, pages 1297–1306, New York, NY, USA, 2012. ACM.
[11] Pierre Wellner. The digitaldesk calculator: tangible manipulation on a desk top display. In Proceedings
of the 4th annual ACM symposium on User interface software and technology, UIST ’91, pages 27–33,
New York, NY, USA, 1991. ACM.
[12] Hiroshi Ishii. Tangible bits: designing the seamless interface between people, bits, and atoms. In
Proceedings of the 8th international conference on Intelligent user interfaces, IUI ’03, pages 3–3, New
York, NY, USA, 2003. ACM.
[13] Andrew D. Wilson. Playanywhere: a compact interactive tabletop projection-vision system. In Proceed-
ings of the 18th annual ACM symposium on User interface software and technology, UIST ’05, pages
83–92, New York, NY, USA, 2005. ACM.
[14] Alex Olwal and Andrew D. Wilson. Surfacefusion: unobtrusive tracking of everyday objects in tangible
user interfaces. In Proceedings of graphics interface 2008, GI ’08, pages 235–242, Toronto, Ont., Canada,
Canada, 2008. Canadian Information Processing Society.
[15] Daniel Avrahami, Jacob O. Wobbrock, and Shahram Izadi. Portico: tangible interaction on and around
a tablet. In Proceedings of the 24th annual ACM symposium on User interface software and technology,
UIST ’11, pages 347–356, New York, NY, USA, 2011. ACM.
[16] Jinha Lee, Rehmi Post, and Hiroshi Ishii. Zeron: mid-air tangible interaction enabled by computer
controlled magnetic levitation. In Proceedings of the 24th annual ACM symposium on User interface
software and technology, UIST ’11, pages 327–336, New York, NY, USA, 2011. ACM.
[17] Johnny Chung Lee. Hacking the nintendo wii remote. IEEE Pervasive Computing, 7(3):39–45, July
2008.
[18] Paul Doliotis, Alexandra Stefan, Christopher McMurrough, David Eckhard, and Vassilis Athitsos. Com-
paring gesture recognition accuracy using color and depth information. In Proceedings of the 4th Inter-
national Conference on PErvasive Technologies Related to Assistive Environments, PETRA ’11, pages
20:1–20:7, New York, NY, USA, 2011. ACM.
[19] Eamonn Keogh. Exact indexing of dynamic time warping. In Proceedings of the 28th international
conference on Very Large Data Bases, VLDB ’02, pages 406–417. VLDB Endowment, 2002.
[20] Nikolaos Kyriazis Iason Oikonomidis and Antonis Argyros. Efficient model-based 3d tracking of hand
articulations using kinect. In Proceedings of the British Machine Vision Conference, pages 101.1–101.11.
BMVA Press, 2011. http://dx.doi.org/10.5244/C.25.101.
67
[21] Jean-Baptiste de la Riviere, Cedric Kervegant, Emmanuel Orvain, and Nicolas Dittlo. Cubtile: a multi-
touch cubic interface. In Proceedings of the 2008 ACM symposium on Virtual reality software and
technology, VRST ’08, pages 69–72, New York, NY, USA, 2008. ACM.
[22] M.S. Hancock, F.D. Vernier, D. Wigdor, S. Carpendale, and Chia Shen. Rotation and translation mech-
anisms for tabletop interaction. In Horizontal Interactive Human-Computer Systems, 2006. TableTop
2006. First IEEE International Workshop on, pages 8 pp.–, 2006.
[23] Russell Kruger, Sheelagh Carpendale, Stacey D. Scott, and Anthony Tang. Fluid integration of rotation
and translation. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems,
CHI ’05, pages 601–610, New York, NY, USA, 2005. ACM.
[24] Mark Hancock, Sheelagh Carpendale, and Andy Cockburn. Shallow-depth 3d interaction: design and
evaluation of one-, two- and three-touch techniques. In Proceedings of the SIGCHI Conference on Human
Factors in Computing Systems, CHI ’07, pages 1147–1156, New York, NY, USA, 2007. ACM.
[25] Mark Hancock, Thomas ten Cate, and Sheelagh Carpendale. Sticky tools: full 6dof force-based interac-
tion for multi-touch tables. In Proceedings of the ACM International Conference on Interactive Tabletops
and Surfaces, ITS ’09, pages 133–140, New York, NY, USA, 2009. ACM.
[26] Jason L. Reisman, Philip L. Davidson, and Jefferson Y. Han. A screen-space formulation for 2d and 3d
direct manipulation. In Proceedings of the 22nd annual ACM symposium on User interface software and
technology, UIST ’09, pages 69–78, New York, NY, USA, 2009. ACM.
[27] Miguel A. Nacenta, Patrick Baudisch, Hrvoje Benko, and Andy Wilson. Separability of spatial manip-
ulations in multi-touch interfaces. In Proceedings of Graphics Interface 2009, GI ’09, pages 175–182,
Toronto, Ont., Canada, Canada, 2009. Canadian Information Processing Society.
[28] Anthony Martinet, Gery Casiez, and Laurent Grisoni. The effect of dof separation in 3d manipulation
tasks with multi-touch displays. In Proceedings of the 17th ACM Symposium on Virtual Reality Software
and Technology, VRST ’10, pages 111–118, New York, NY, USA, 2010. ACM.
[29] Anthony Martinet, Gery Casiez, and Laurent Grisoni. The design and evaluation of 3d positioning
techniques for multi-touch displays. In Proceedings of the 2010 IEEE Symposium on 3D User Interfaces,
3DUI ’10, pages 115–118, Washington, DC, USA, 2010. IEEE Computer Society.
[30] Aurelie Cohe and Martin Hachet. Understanding user gestures for manipulating 3D objects from touch-
screen inputs. In Graphics Interface, pages 157–164, Toronto, Canada, May 2012. ACM.
[31] Aurelie Cohe, Fabrice Decle, and Martin Hachet. tbox: a 3d transformation widget designed for touch-
screens. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, CHI ’11,
pages 3005–3008, New York, NY, USA, 2011. ACM.
68
[32] Daniel Mendes, Pedro Lopes, and Alfredo Ferreira. Hands-on interactive tabletop lego application. In
Proceedings of the 8th International Conference on Advances in Computer Entertainment Technology,
ACE ’11, pages 19:1–19:8, New York, NY, USA, 2011. ACM.
[33] Sebastian Knoedel and Martin Hachet. Multi-touch rst in 2d and 3d spaces: Studying the impact of
directness on user performance. In Proceedings of the 2011 IEEE Symposium on 3D User Interfaces,
3DUI ’11, pages 75–78, Washington, DC, USA, 2011. IEEE Computer Society.
[34] Stephanie Houde. Iterative design of an interface for easy 3-d direct manipulation. In Proceedings of
the SIGCHI Conference on Human Factors in Computing Systems, CHI ’92, pages 135–142, New York,
NY, USA, 1992. ACM.
[35] Otmar Hilliges, Shahram Izadi, Andrew D. Wilson, Steve Hodges, Armando Garcia-Mendoza, and An-
dreas Butz. Interactions in the air: adding further depth to interactive tabletops. In Proceedings of the
22nd annual ACM symposium on User interface software and technology, UIST ’09, pages 139–148, New
York, NY, USA, 2009. ACM.
[36] Nicolai Marquardt, Ricardo Jota, Saul Greenberg, and Joaquim A. Jorge. The continuous interaction
space: interaction techniques unifying touch and gesture on and above a digital surface. In Proceedings
of the 13th IFIP TC 13 international conference on Human-computer interaction - Volume Part III,
INTERACT’11, pages 461–476, Berlin, Heidelberg, 2011. Springer-Verlag.
[37] Max Mollers, Patrick Zimmer, and Jan Borchers. Direct manipulation and the third dimension: co-
planar dragging on 3d displays. In Proceedings of the 2012 ACM international conference on Interactive
tabletops and surfaces, ITS ’12, pages 11–20, New York, NY, USA, 2012. ACM.
[38] Florian Daiber, Eric Falk, and Antonio Kruger. Balloon selection revisited: multi-touch selection tech-
niques for stereoscopic data. In Proceedings of the International Working Conference on Advanced Visual
Interfaces, AVI ’12, pages 441–444, New York, NY, USA, 2012. ACM.
[39] Otmar Hilliges, David Kim, Shahram Izadi, Malte Weiss, and Andrew Wilson. Holodesk: direct 3d
interactions with a situated see-through display. In Proceedings of the 2012 ACM annual conference on
Human Factors in Computing Systems, CHI ’12, pages 2421–2430, New York, NY, USA, 2012. ACM.
[40] Bruno R. De Araujo, Gery Casiez, Joaquim A. Jorge, and Martin Hachet. Mockup builder: 3d modeling
on and above the surface. Computers & Graphics, 37(3):165 – 178, 2013.
[41] P. Davis, M.S. Horn, L. Schrementi, F. Block, B. Phillips, E. M. Evans, J. Diamond, and C. Shen. Going
deep: Supporting collaborative exploration of evolution in natural history museums. In Proceedings
Conference on Computer Supported Collaborative Learning (CSCL’13), Madison, Wisconsin., 2013.
[42] Eva Hornecker. I don’t understand it either, but it is cool” visitor interactions with a multi-touch table
in a museum. In Proc. of IEEE Tabletop, pages 121–128, 2008.
69
[43] Nuno Correia, Tarquınio Mota, Rui Nobrega, Luıs Silva, and Andreia Almeida. A multi-touch tabletop
for robust multimedia interaction in museums. In ACM International Conference on Interactive Tabletops
and Surfaces, ITS ’10, pages 117–120, New York, NY, USA, 2010. ACM.
[44] Robert Wang, Sylvain Paris, and Jovan Popovic. 6d hands: markerless hand-tracking for computer aided
design. In Proceedings of the 24th annual ACM symposium on User interface software and technology,
UIST ’11, pages 549–558, New York, NY, USA, 2011. ACM.
[45] Shumin Zhai. Quantifying coordination in multiple dof s movement and its application to evaluating 6
dof input devices. pages 320–327, 1998.
[46] A. Martinet, G. Casiez, and L. Grisoni. The design and evaluation of 3d positioning techniques for
multi-touch displays. In 3D User Interfaces (3DUI), 2010 IEEE Symposium on, pages 115–118, 2010.
[47] Gerd Bruder, Frank Steinicke, and Wolfgang Stuerzlinger. Effects of visual conflicts on 3d selection
task performance in stereoscopic display environments. In Proceedings of IEEE Symposium on 3D User
Interfaces (3DUI). IEEE Press, 2013. (accepted).
[48] Li-Wei Chan, Hui-Shan Kao, Mike Y. Chen, Ming-Sui Lee, Jane Hsu, and Yi-Ping Hung. Touching
the void: direct-touch interaction for intangible displays. In Proceedings of the SIGCHI Conference on
Human Factors in Computing Systems, CHI ’10, pages 2625–2634, New York, NY, USA, 2010. ACM.
70
Appendix A
Appendix
A.1 Questionario
Questões
Responda de 1 (Muito mau) a 5 (Muito bom)
Método 1: _____________________
1 2 3 4 5
Facilidade de translação □□□□□
Facilidade de rotação □□□□□
Facilidade em escalar □□□□□
Fluidez de utilização □□□□□
Diversão □□□□□
Método 2: _____________________
1 2 3 4 5
Facilidade de translação □□□□□
Facilidade de rotação □□□□□
Facilidade em escalar □□□□□
Fluidez de utilização □□□□□
Diversão □□□□□
Método 3: _____________________
1 2 3 4 5
Facilidade de translação □□□□□
Facilidade de rotação □□□□□
Facilidade em escalar □□□□□
Fluidez de utilização □□□□□
Diversão □□□□□
Método 4: _____________________
1 2 3 4 5
Facilidade de translação □□□□□
Facilidade de rotação □□□□□
Facilidade em escalar □□□□□
Fluidez de utilização □□□□□
Diversão □□□□□
Método 5: _____________________
1 2 3 4 5
Facilidade de translação □□□□□
Facilidade de rotação □□□□□
Facilidade em escalar □□□□□
Fluidez de utilização □□□□□
Diversão □□□□□
Visualização 1 2 3 4 5 Esforço / Cansaço visual (1 – Muito cansaço; 5 – Nenhum cansaço)
□□□□□
Percepção espacial da posição e orientação dos objectos (1 – Muito mau; 5 – Muito bom)
□□□□□
3DOF HANDS Acima da mesa usando translação numa mão e rotações com o pulso na outra
6DOF HANDS Acima da mesa usando translação e rotação numa só mão
HANDLE BAR Acima da mesa usando o ponto médio entre mãos para as manipulações
TRS HANDS Acima da mesa usando translação numa mão e a rotação com a posição relativa da outra.
TRS com toque Na mesa usando o toque para interagir
Sugestões e Observações:
Perfil
Sexo: □ Masculino □ Feminino
Idade: □ < 14 □ 15 a 18 □ 19 a 24 □ 25 a 35 □ 35 a 50 □ > 50
Habilitações Literárias: □Até 12º Ano □Licenciatura □Mestrado
Experiência com dispositivos multitoque (iPad, iPhone, Tablet, Smartphone): □Uso diariamente □Uso algumas vezes por semana □Uso algumas vezes por mês
□Já Usei □Nunca usei
Possui algum dispositivo multitoque: □Sim □Não
Experiência com programas de modelação 3D: □Nunca usei □Tenho alguma experiência □Utilizo frequentemente
Experiência com ambientes estereoscópicos: □Nunca usei □Tenho alguma experiência □Utilizo frequentemente
Se sim, em que situações:
___________________________________________________________________________
A PREENCHER PELA EQUIPA
ID: DATA: HORA:
71
A.2 Resultados do Questionario
72
73
Top Related