(Amphithéâtre)
Cassell, Justine
(The ArticuLab, Northwestern University, Evanston (USA))
Trading spaces : Gesture Morphology
and Semantics in Humans and Virtual Humans
It is a commonly held belief in the gesture research community that
gestures differ from language in that they have no syntax (meaning
structure over the individual gesture) nor morphology (meaning
structure within the individual gesture). In this talk I challenge that
belief with data from a study on the sub-parts of gesture, and multipart
gestures, during direction-giving. On the basis of these data, I
propose a framework to analyze gestural images into semantic units
(image description features), and to link these units to morphological
features (hand shape, trajectory, etc.).
Such a feature-based framework has an additional benefi t, which is
to allow one to generate gestures and language together in a virtual
human. I will describe work on an integrated computational microplanner
for multimodal descriptions that derives the form of both
natural language and gesture directly from communicative goals.
The outcome of the empirical work and the computational modeling
is a direction-giving virtual human - an embodied conversational
agent that can perform appropriate speech and novel gestures in
direction-giving conversation with real humans.
Une opinion répandue veut que les gestes soient différents du langage
verbal, n’ayant ni syntaxe (structure de signifi cation rassemblant
les gestes individuels), ni sémantique (structure de signifi cation
où chaque forme est liée à une signifi cation fi xe), ni morphologie
(structure de signifi cation subdivisant les gestes individuels). Dans
cette conférence, je remets en question cette idée. Je présente
les résultats d’une étude des composantes de gestes et des gestes
composés de multiples parties observés dans des dialogues d’indication
d’itinéraire. Me basant sur ces résultats, je propose d’analyser les
images tracées par les gestes en termes d’unités sémantiques (image
description features, attributs de description d’images) et de lier
ces unités sémantiques aux attributs morphologiques des gestes (la
forme de la main, la trajectoire, etc.)
Une telle approche basée sur attributs a aussi l’avantage que, dans l’implémentation d’un humain virtuel autonome, on peut générer,
en même temps et de façon integrée, les gestes et le langage. Je
vais décrire un micro-planifi cateur intégré générant des descriptions
multi-modales qui déduit la forme du langage ainsi que la forme des
gestes directement des objectifs communicatifs.
Le résultat du travail empirique et de la modélisation computationelle
est un humain virtuel qui peut indiquer le chemin --- un agent
conversationnel autonome qui peut mener des interactions où
des indications d’itinéraire sont produites pour des interlocuteurs
humains, en utilisant un mélange approprié de langage et de gestes
nouveaux.