L’inscription matérielle des activités. L’asymétrie contextuelle dans l’interaction visiophonique entre agents et usagers d’une administration
Velkovska Julia & Zouinar Moustafa France Telecom R&D moustafa.zouinar, julia.velkovska@orange-ftgroup.com
Résumé
L'interaction interpersonnelle se déroulant à travers des systèmes de communication visiophonique a fait l'objet de nombreuses études ces dernières années, dans différents contextes (professionnels, domestiques). Les recherches ont notamment montré que ces systèmes engendrent des formes d'interaction spécifiques impliquant des asymétries communicatives - liées à l'accès limité à l'environnement distant et aux actions de l'interlocuteur - qui peuvent fragiliser l'intercompréhension. A travers l'analyse vidéo de séquences d'interaction issues d'entretiens visiophoniques et d'entretiens en coprésence entre les agents d'une administration et ses usagers en situation naturelle, nous examinons l'asymétrie contextuelle propre à ce cadre communicationnel visiophonique. Plus précisément, l'analyse porte sur le lien entre l'action et l'environnement et sur les problèmes interactionnels émergeant lorsque la perception de ce lien est perturbée. L'analyse montre alors comment l'intelligibilité mutuelle de l'interaction entre les agents et les usagers se constitue dans son inscription dans un environnement matériel. Elle met en évidence l'importance de la co-visualisation et de la co-manipulation d'objets et de documents à la fois pour la compréhension mutuelle entre participants et pour l'accomplissement du travail de l'agent. Il en ressort que la manière dont l'agent réalise son travail est directement liée au cadre interactionnel de l'entretien et au type de ressource qu'il rend disponibles pour son déroulement.
Mots-clés : interaction visiophonique ; relation de service ; couplage action/ environnement ; asymétrie contextuelle ; pratiques de pointage ; analyse vidéo des activités en situation naturelle.
Introduction
Le modèle de l'interaction qui a prédominé dans la conception des systèmes visiophoniques a été celui de l'interaction en face à face couramment réduite à ce que Whittaker (1993) a appelé le modèle des « têtes parlantes » (« talking heads »). Suivant ce modèle - qui ne tient pas compte des inscriptions spatiales et matérielles des interactions humaines - la plupart des dispositifs visiophoniques ont été conçus en visant à restituer une image de bonne qualité des interlocuteurs en excluant les objets de leurs environnements.
Pourtant, le bilan des études sur le rôle de l'image dans la communication à distance remet en question ce modèle idéalisé du face à face (Whittaker, 2003) : comparée à l'échange audio, l'image des participants ne semble pas améliorer ni la communication, ni la performance. Dans certains cas, elle peut même entraver l'échange1. Ce constat a conduit au développement d'une approche qui privilégie le partage de données et de l'image des objets utilisés au cours de l'interaction visiophonique plutôt que celle des personnes (Luff, et al. 2000 ; Whittaker, 2003).
Par ailleurs, même si certaines caractéristiques de l'interaction en coprésence - par exemple, la structuration en tours de parole, le lien entre la parole et les gestes - se retrouvent dans l'interaction visiophonique (Fornel, 1991 ; Whittaker, 2003), les recherches indiquent que celle-ci présente des caractéristiques propres qui la différencient des échanges en face à face2. Dans ce sens l'interaction visiophonique implique un travail d'adaptation des pratiques interactionnelles aux propriétés du dispositif technique (Fornel 1994, O'Conaill et al. 1993).
Enfin, les recherches sur la visiophonie ont notamment montré qu'elle implique des asymétries interactionnelles qui peuvent fragiliser l'intercompréhension. Ainsi, Heath et Luff (1992) analysent comment la vidéocommunication introduit des asymétries communicatives impliquant des "distorsions" des comportements non-verbaux produits par les participants. Par exemple, lorsque les changements posturaux fins ou de l'orientation des regards ne sont pas assez visibles ils sont inopérants pour la gestion de l'interaction.
Ces asymétries sont également liées à la réduction de l'environnement visuel mutuellement accessible aux participants, qui a comme conséquence une rupture de la relation entre l'action et son environnement. Cette rupture dégrade la capacité des participants à produire des actions intelligibles et reconnaissables pour leur partenaire et peut être source de malentendus (Heath et al., 1992 ; Luff et al., 2003).
Pour les participants, la visiophonie crée une illusion d'interaction symétrique les conduisant ainsi à interagir comme s'ils étaient en face à face alors qu'elle n'offre pas les mêmes ressources interactionnelles que la coprésence "physique" (Heath et al., 1992 ; Luff et al., 2000). Cette illusion peut être source de problèmes interactionnels (de coordination, d'alignement, etc).
Le présent article traite de l'asymétrie contextuelle dans les entretiens visiophoniques entre les agents d'une administration (l'ANPE) et ses usagers (les demandeurs d'emploi).
Par asymétrie contextuelle nous entendons le fait que les participants ont un accès très limité à l'environnement distant. En conséquence, ils n'ont pas accès de façon commune à certains éléments contextuels (objets, événements) qui peuvent être pertinents pour l'interaction. De plus, certaines actions de l'interlocuteur distant restent invisibles pour son partenaire. L'asymétrie contextuelle peut donc perturber la perception du lien entre les actions de l'interlocuteur et leur environnement et peut être source d'incompréhension. L'analyse montre alors comment l'intelligibilité mutuelle de l'interaction entre les agents et les usagers se constitue en relation avec son environnement matériel. Elle met en évidence l'importance de la co-visualisation et la co-manipulation d'objets et de documents à la fois pour la compréhension mutuelle entre participants et pour l'accomplissement du travail de l'agent.
Dans le domaine de recherches sur la visiophonie cette étude présente plusieurs spécificités. Tout d'abord elle analyse les interactions visiophoniques dans la relation entre une administration (l'ANPE) et ses usagers (demandeurs d'emploi) dans une situation d'usage réel. En effet, l'ANPE utilise le système pour réaliser une de ses tâches principales - les entretiens sur rendez-vous avec les demandeurs d'emploi. Ensuite, il s'agit d'étudier les usages de la visiophonie dans la durée, ce qui nous a amené à observer leur évolution et leur intégration dans l'organisation des activités à l'agence sur un temps long (plus d'un an). Le système de visiophonie étudié et ses contraintes propres constituent une autre particularité de cette étude. Enfin, sur le plan méthodologique, nous avons travaillé sur des enregistrements vidéo des entretiens visiophoniques et des entretiens se déroulant en coprésence physique, ce qui a permis des comparaisons fines entre les activités dans les deux cadres interactionnels.
Situation d'usage de la visiophonie et dispositif d'enquête Introduction des bornes visiophoniques dans une agence locale de l'ANPE
Cette étude a été réalisée dans le cadre d'une expérimentation en situation réelle d'un système visiophonique visant à assurer à distance la relation de service entre une administration (ANPE) et ses usagers (demandeurs d'emploi)3. Ce système a été mis en place pour permettre aux demandeurs d'emploi habitant dans une zone rurale enclavée de réaliser leurs entretiens avec les agents de l'ANPE sans se déplacer à l'agence. Le système est utilisé pour réaliser les « entretiens programmés », sur rendez-vous, qui constituent un passage obligatoire pour les demandeurs d'emploi soit pour leur première inscription à l'ANPE, soit pour le maintien de leur statut. Dans ce deuxième cas ils avaient lieu tous les six mois au moment de l'enquête (2004-2005). Leur objectif est de faire le bilan, avec le demandeur d'emploi, sur ses recherches, ainsi que de lui proposer des formations ou des aides adaptées à sa situation.
Pour l'ANPE, l'objectif était double : renforcer sa présence et améliorer l'accessibilité de ses services dans les zones rurales ; éviter les déplacements des agents pour les permanences hors agence car ils sont coûteux et ne permettent pas aux conseillers de réaliser leur travail dans de bonnes conditions (par exemple, système d'information inaccessible, entretiens non réalisés).
Description du système
Le système étudié est composé de deux terminaux, une borne Client et une borne Agent, offrant trois groupes de fonctions principales : fonctions de communication, d'échange de documents numérisés et de partage synchrone de documents, cette dernière n'ayant pas pu être testée au cours de l'étude. La borne Agent se compose de deux écrans : un écran "visio" qui restitue une image en surplomb du demandeur d'emploi et un écran d'ordinateur qui est connecté au système d'information (SI) de l'ANPE (pour la consultation des dossiers des demandeurs et des offres d'emploi, la saisie d'informations au cours de l'entretien, etc.) (cf. figure 1 droite). Celui-ci permet également d'accéder à certaines fonctions de la borne (fonctions de partage de documents, de réception de documents numérisés, de réglage du son, etc.).

Constituée d'un écran "visio" et d'un écran tactile insérés dans un même module, la borne Client (figure 1 gauche) fournit une vue de face de l'agent, sur un écran plus large (image à l'échelle 1). La Figure 1 permet d'observer les différences de cadrage entre les deux terminaux : alors que le demandeur d'emploi voit l'agent de face et à l'échelle 1, l'agent ne dispose que d'une vue en surplomb de son interlocuteur.
La version de la borne Client étudiée au cours de la première phase de l'enquête disposait de fonctions d'initiation de l'appel et de numérisation de documents (scanner) qui étaient activables à partir de l'écran tactile.
La borne Client a été placée dans une pièce située dans un centre socioculturel d'une petite ville éloignée d'une soixantaine kilomètres environ de l'agence ANPE impliqué dans l'expérimentation. Ce centre abrite un espace d'initiation à l'Internet et aux nouvelles technologies (appelé Cyberbase) géré par trois animateurs. L'accueil des demandeurs d'emploi a été délégué à ces animateurs, dont le rôle est également d'initier l'appel et d'intervenir en cas de problème au cours de l'entretien. La borne Agent a été placée dans un bureau de l'agence ANPE.
Méthode
Vingt-deux entretiens d'une durée moyenne de vingt cinq minutes entre les conseillers de l'ANPE et les demandeurs d'emploi se déroulant via les bornes ont été observés et filmés par deux caméras contextuelles : l'une placée dans le bureau de l'agent, l'autre dans la pièce où était située la borne Client utilisée par les demandeurs d'emploi. Nous avons choisi un cadrage qui offre la meilleure vue possible des participants (la plus grande partie possible de leurs corps) et de leur environnement local (plan de travail des conseillers, partie de la borne avec laquelle les demandeurs d'emploi sont susceptibles d'interagir). Nous avons également réalisé des enregistrements vidéo d'entretiens se déroulant en face à face à l'agence dans le but de bien comprendre le travail des agents et de comparer l'organisation de ces entretiens avec celles des entretiens visiophoniques. Bien que tout dispositif technique visiophonique implique des pratiques "propres" (Fornel, 1994 ; Dourish et al., 1996 ; Kraut et al., 2003), l'objectif de cette comparaison était d'examiner les transformations dans le travail des agents introduites par le système dans la mesure où sa mise en place visait à permettre la réalisation d'entretiens qui se déroulaient habituellement en face à face.
Il convient également de noter que la complexité de la situation rendait difficile la mise en place d'un dispositif d'observation avec enregistrement puisqu'il fallait couvrir deux espaces distants où se déroulent différentes activités (d'un côté celle des animateurs, de l'autre celle des conseillers). Ces observations ont été complétées par des entretiens in situ avec les acteurs impliqués dans l'usage du système (agents, demandeurs d'emploi et animateurs de la Cyberbase). L'ensemble des données issues des observations et des entretiens ont été recueillies au cours de deux phases séparées dans le temps : la première phase s'est déroulée quelques semaines après l'installation du système ; la seconde série d'observations, six mois plus tard, a permis d'étudier les processus d'appropriation et d'installation des usages dans la durée.
Dissociation du geste et de la parole : la production collective des malentendus
Lorsque les conditions d'audibilité et de visibilité sont optimales, la communication visiophonique entre l'agent et le demandeur d'emploi se déroule de manière satisfaisante : ils mobilisent assez naturellement leur savoir-faire interactionnel ordinaire et arrivent à mener à bien l'entretien. Cependant, au cours de leur échange ils sont confrontés à la gestion de difficultés liées à l'asymétrie contextuelle due à la visibilité limitée sur les actions et l'environnement de l'interlocuteur distant. En effet, l'image restituée sur l'écran du demandeur d'emploi est limitée à la tête et au buste de l'agent (cf. fig. 1 ci-dessus, gauche). Le demandeur d'emploi ne voit pas les objets manipulés par l'agent sur son poste de travail ; il peut voir des gestes ou des regards mais ne peut voir les objets sur lesquels ils portent ; certaines actions de l'agent restent invisibles pour son interlocuteur (par exemple, la prise de notes sur papier). Autrement dit, les ressources disponibles dans le cadre interactionnel visiophonique ne permettent pas au demandeur d'emploi de percevoir l'inscription spatiale et matérielle des activités de l'agent4. Il en est de même pour l'agent qui dispose d'une vue en surplomb du demandeur d'emploi (cf. fig. 1, droite).
Les participants mettent en œuvre différentes pratiques interactionnelles pour gérer ces problèmes liés au cadre interactionnel visiophonique et au type de ressources qu'il rend disponibles. Tel est par exemple le cas des explicitations systématiques des actions sur lesquelles nous revenons plus loin.
Ces spécificités du cadre interactionnel visiophonique fragilisent le processus de construction et de maintien de l'intercompréhension comme le montre la séquence 1 ci-dessous extraite d'un entretien visiophonique entre une conseillère et une demandeuse d'emploi. Le fait que l'employée ne voit pas les actions de son interlocutrice ainsi que leur ancrage dans l'environnement conduit à toute une série de malentendus qui restent non résolus pendant toute l'interaction.


Séquence 1 : Asymétrie contextuelle et production collective des malentendus (entretien visiophonique) : « c'est là ? »
La séquence commence par une requête de la conseillère (N) qui invite la demandeuse d'emploi (I) à scanner son cv5. Dans la suite, N donne une série d'instructions sur le fonctionnement du scanner pour guider les actions de I. Le travail de coordination entre les deux participantes autour du dispositif prend la forme de la production interactive de deux malentendus : le premier concerne l'identification de l'élément « touche options » sur la borne (1-15), le deuxième - la localisation de la « touche scanner » (16-23). A chaque fois la conseillère - qui ne voit pas les actions de son interlocutrice mais se base sur ses descriptions - traite comme correctes les fausses manipulations effectuées par la demandeuse d'emploi sur la borne et l'encourage à continuer.
Le premier malentendu apparaît lorsque N indique à I le mode opératoire pour réaliser la numérisation (7). N'arrivant pas dans un premier temps à identifier sur l'écran l'élément "touche options" qui permet d'ouvrir un menu contenant la fonction de numérisation, I s'oriente sur l'élément "écran tactile" (9) qui est une étiquette inactive sur le bord de l'écran indiquant son emplacement. Cette orientation s'effectue suite au tour de parole 8 dans lequel N indique la position de l'élément "barre d'option" sur l'écran : « en bas ». Le malentendu provient de l'incapacité des interlocutrices à s'accorder sur les frontières de l'objet « écran tactile ». Pour la demandeuse d'emploi les bords de l'écran et les indications qu'ils contiennent en font partie, alors que pour la conseillère, il se limite à sa partie écranique. De son côté, la conseillère ne voit pas l'écran tactile que son interlocutrice manipule et, se fiant à l'orientation de son regard vers le bas de la borne et à ses descriptions, valide l'action qu'elle se prépare à réaliser (10). A partir du tour 11 la demandeuse d'emploi s'engage dans une première fausse manipulation de la borne qui consiste à appuyer sur l'étiquette "écran tactile" de la flèche marquée sur le bord de cet écran au lieu d'appuyer sur l'écran tactile lui-même. La conseillère ne voit pas cette action et n'est pas en mesure de constater l'erreur. Elle traite la manipulation comme correcte et la valide à plusieurs reprises (12, 14). En effet, après la première confirmation en 12, I poursuit son action et ré-appuie sur l'étiquette (13) tout en explicitant ce qu'elle fait et en lisant à haute voix ce qui est écrit sur la barre d'option. Ces éléments, ainsi que l'orientation du regard de I sont traités par l'employée comme indications du bon déroulement de la manipulation permettant de lancer la numérisation puisqu'elle ratifie de manière appuyée l'action énoncée par le demandeur d'emploi (14).
Cette première partie de la séquence montre comment les ressources disponibles pour l'interaction dans l'échange visiophonique ne permettent pas aux interlocuteurs d'aligner leurs perspectives sur un objet et ses frontières.
A partir de 16, un deuxième malentendu de même nature se produit et vient s'ajouter au premier. Encore une fois, la demandeuse d'emploi appuie sur l'étiquette indiquant l'emplacement du scanner et non sur l'option active affichée par l'écran tactile. Cette action n'est pas visible pour la conseillère qui, se fiant à la description produite par son interlocutrice et à son orientation corporelle sur laquelle elle a une visibilité limitée, confirme de nouveau que la manipulation est correcte (20). Même le doute exprimé par I en 21 et 22 est normalisé par l'employée et attribué au fait qu'elle n'est pas familière avec le système (23).
Cette séquence montre que si la compréhension mutuelle est constamment produite et soutenue par des actions réciproques coordonnées des participants dans l'interaction, il en est de même pour l'incompréhension : les malentendus sont également collectivement produits et entretenus à travers l'organisation séquentielle de l'échange visiophonique asymétrique.
Ainsi, cette séquence montre que l'impossibilité pour l'agent de voir les actions du demandeur d'emploi sur la borne, en particulier celles relatives à la numérisation, conduit à une accumulation de malentendus que les ressources disponibles dans le cadre interactionnel visiophonique ne permettent pas de résoudre. L'invisibilité de ces actions réduit en effet drastiquement toute possibilité de réparation ou de récupération.
Cet exemple montre l'importance de l'inscription matérielle des activités pour la production et le maintien de l'intelligibilité mutuelle de l'interaction. La rupture du lien entre l'action et son environnement est source d'incompréhension : l'agent voit certains mouvements corporels du demandeur d'emploi qui lui permettent d'inférer ce qu'il est en train de faire mais il est incapable de comprendre ce qu'il fait effectivement car il n'a pas pleinement accès et ne peut voir sur quelles parties de l'environnement ils portent. Par conséquent, le cadre interactionnel n'a pas permis à la conseillère d'apprécier le niveau de connaissance pratique de la demandeuse d'emploi concernant l'usage des outils informatiques. Elle n'a donc pas pu la guider dans l'usage de l'écran tactile6.
Enfin, pour gérer de manière routinière l'asymétrie liée au découplage entre l'action et l'environnement les participants mettent en œuvre des procédures d'explicitations de leurs actions, ou de façon plus générale, des événements qui se produisent dans leur environnement immédiat mais qui sont inobservables pour leur interlocuteur. Pour les agents ces pratiques concernent en particulier les actions d'écriture du compte rendu de l'entretien, de saisie informatique, et les événements relatifs à ce qui se passe sur leur poste informatique (par exemple, problèmes de démarrage de l'application). Ces pratiques de verbalisation des actions en cours et des évènements locaux contribuent à la gestion interactionnelle du non-partage de l'environnement et par là - à la production et au maintien du contexte partagé. Par ces procédures les participants s'engagent dans un travail de « connexion des espaces distants » : en se rendant mutuellement accessibles à travers les descriptions les actions et les événements ayant lieu dans chacun des espaces ils collaborent dans l'élaboration du cadre interactionnel partagé et intelligible.
Environnement partagé et mobilisation de ses ressources dans l'accomplissement du travail des agents
L'analyse des interactions visiophoniques entre les agents et les demandeurs d'emploi a montré que pour comprendre les actions de l'interlocuteur il est nécessaire de percevoir leur ancrage dans un environnement matériel composé d'objets et d'artefacts mobilisés dans le cours d'action. En effet, comme l'illustre la séquence 1 ci-dessus, des problèmes de compréhension mutuelle peuvent surgir quand les participants ont un accès visuel insuffisant à l'environnement distant. Ceci limite le contexte partagé élaboré au cours de l'interaction et rend difficile la perception du lien entre les actions de l'interlocuteur et les objets environnants.
L'activité qui fait l'objet de notre analyse ici - l'entretien programmé sur rendez-vous entre l'agent de l'ANPE et le demandeur d'emploi - est composée d'un ensemble d'opérations consistant à manipuler et à examiner ensemble des documents ou des informations affichées à l'écran de l'ordinateur de l'agent. D'un point de vue formel l'agent accomplit trois tâches au cours de l'entretien faisant chacune appel à des documents ou à des interfaces informatiques et nécessitant la coordination des interlocuteurs autour de ces objets. Il procède tout d'abord à un examen de la situation actuelle du demandeur d'emploi : il prend connaissance de son dossier composé d'un CV et d'autres documents attestant sa trajectoire professionnelle et ses qualifications lors d'une première inscription ou alors de ses démarches de recherche d'emploi ou de création d'entreprise lors des entretiens de suivi. Puis, sur la base de ce diagnostic, l'agent lui propose des offres d'emploi ou différentes prestations (formations, ateliers, aides à la création d'entreprise). Lorsque l'entretien se déroule en coprésence physique son écran est tourné de telle sorte que le demandeur d'emploi peut lire les informations affichées. Enfin, l'agent met à jour le dossier informatique du demandeur d'emploi dans le système d'information de l'ANPE7.
Dans la séquence suivante, la conseillère (B) est engagée dans l'examen de la situation du demandeur d'emploi (D) lors d'un entretien de suivi. Plus précisément, elle fait le point sur les contacts pris par ce dernier au cours de ses démarches de création d'entreprise.

Séquence 2 : Objets et gestes dans la régulation de l'interaction (entretien en coprésence) : « mais j' vois que vous *avez un dossier »
Cette séquence montre comment l'orientation commune des interlocuteurs vers les objets mobilisés dans l'interaction et leur organisation spatiale contribuent à la coordination de leurs actions et à l'accomplissement collaboratif de la tâche en cours, à savoir la mise à jour du dossier du demandeur d'emploi. La première partie de la séquence (jusqu'au tour 14) traite de l'attachement institutionnel d'un des contacts pris par D. L'employée B produit une première hypothèse (7 : « espace gestion »). Dans le tour suivant (8) D sort de son dossier une carte de visite et la tient dans la main tout en continuant le récit de ses démarches (8-12). L'alignement des regards des deux participants sur cette carte leur permet d'anticiper sur la suite de l'interaction : tout en écoutant D entre les tours 8 et 13 B regarde la carte, ce qui lui permet d'introduire une nouvelle description de l'attachement institutionnel de la personne en question avant que celui-ci soit formulé par D (13-14 : « c'est la chambre des métie :rs »). Cette description est suivie d'un acquiescement (14 : « oui, d'accord ») suite au geste de pointage vers la carte de D (12). Ainsi, le fait que les interlocuteurs voient ensemble ce document assure leur alignement dans les tours 13-15 et la fluidité de l'interaction.
La première partie de la paire adjacente « affirmation (12) - acquiescement (13-14) » est constituée par un geste de pointage. Ce segment montre ainsi l'importance des objets et des gestes de pointage dans l'interaction, ces derniers pouvant constituer un des termes des paires adjacentes à part entière et occuper ainsi une place dans l'organisation séquentielle de l'interaction.
Au-delà de leur rôle dans la constitution de l'intelligibilité mutuelle de l'interaction, dans le cas de l'activité des agents de l'ANPE les objets et les gestes mobilisés par les participants contribuent directement à la manière dont le travail est effectué. Ainsi, dans la séquence 2, l'enquête de l'agent sur la situation du demandeur d'emploi est relancée par le fait qu'elle voit des documents dans le dossier que celui-ci manipule (16).
Ce fait est explicitement utilisé pour lancer cette nouvelle séquence de l'entretien, qui n'aurait peut-être pas eu lieu si l'agent ne pouvait pas voir l'ensemble du dossier du demandeur d'emploi et orienter ainsi l'entretien vers des aspects que celui-ci n'aborderait pas spontanément. Or avec les bornes, le partage de documents par la numérisation est très limité. D'une part, on ne peut envisager de numériser de nombreux documents au cours de l'interaction. Ainsi, cette utilisation opportuniste des objets dans la conduite de l'entretien s'en trouve également très limitée. D'autre part, même quand le document est transmis par le scanner, il est impossible de recourir aux gestes de pointage comme ressource dans l'organisation de l'interaction dans la mesure où les participants se trouvent dans des espaces différents8 (cf. fig. 2).

Fig. 2 : Geste de pointage invisible pour l'interlocuteur
Guide de lecture :
Écran en haut à gauche : vue contextuelle de la demandeuse d'emploi
Ecran en haut à droite : vue contextuelle de la conseillère de l'ANPE
Ecran du bas : vue de la demandeuse d'emploi telle qu'elle est reconstituée sur l'écran de la conseillère (récupération du flux sortant de la borne Client)
Ce problème d'invisibilité des gestes est observable sur la figure 2 qui montre les deux participantes engagées dans la lecture du CV sur lequel la demandeuse d'emploi (à gauche) pointe un élément. Ce geste est inaccessible pour la conseillère qui dispose d'une vue partielle de son interlocutrice (écran du bas).
Conclusion
Le système de visiophonie étudié ici a été implicitement conçu sur la base d'un modèle selon lequel l'entretien se résume à deux corps en interaction. Cependant, l'enquête montre que cette activité ne met pas seulement en jeu deux corps, mais deux corps inscrits dans l'espace et en interaction avec ses objets et artefacts. La perception du couplage entre les mouvements corporels et les espaces matériels est une ressource essentielle pour la production de l'intelligibilité mutuelle de l'interaction.
Les pratiques de co-visualisation et de co-manipulation d'objets et de documents sont importantes non seulement pour la compréhension mutuelle entre l'agent et le demandeur d'emploi, mais également pour la réalisation de la mission de l'agent. En ce sens, l'analyse des interactions menée ici est indissociable d'une analyse des activités de travail et des manières dont elles mobilisent les ressources disponibles dans les différents environnements, médiatisés ou non par des technologies.
En effet, l'accomplissement du travail des conseillers à l'ANPE (mener l'entretien, répondre aux demandes du demandeur d'emploi, diagnostiquer sa situation, prescrire des prestations, actualiser son dossier) est directement liée au cadre communicationnel de l'entretien et aux ressources qu'il offre au déroulement de l'interaction. L'entretien en coprésence est moins contraint que celui en visiophonie en ce sens qu'il offre plus d'opportunités au déroulement de l'interaction (pour le suivi du dossier du demandeur d'emploi). De ce point de vue, l'introduction de la visiophonie dans les relations avec les demandeurs d'emploi reconfigure les manières de travailler des agents. C'est pourquoi elle exige une réflexion préalable sur les tâches et les situations pour lesquelles elle est le plus adaptée, ainsi que sur les façons de réaménager les activités de travail, réflexion qui doit s'appuyer sur une analyse fine de ces activités.
Références
Chapanis, A., Ochsman, R. B., Parrish, R. N., & Weeks, G. D. (1972). Studies in interactive communication : The effects of four communication modes on the behaviour of teams during cooperative problem-solving. Human Factors, 14, 487-509.
de Fornel, M. (1994). Le cadre interactionnel de l'échange visiophonique, Réseaux, 64, 107-132.
Dourish, P., Adler A., Bellotti, V., & Anderson, A. (1996). Your place or mine ? Learning from long-term use of audio-video communications. Computer Supported Cooaporatative Work, 5(1), 33-62.
Fussell, R., Kraut, R., & Siegel, J. (2000). Coordination of Communication : Effects of Shared Visual Contexts on Collaborative Work. Proceedings of the Conference on Computer Supported Cooperative Work, New York : ACM.
Gülich, E., & Mondada, L. (2001). Analyse conversationnelle. In G. Holtus, M. Metzeltin & C. Schmitt (Eds.), Lexikon der romanistischen Linguistik :Vol. Band I, 2 p. (196-250). Tübingen : Niemeyer.
Heath, C., & Luff, P. (1992). Media space and communicative asymmetries : Prelimiminary observations of video mediated interaction. Human Computer Interaction, 7, 315-346.
Heath, C., & Hindmarsh, J. (1997). Les objets et leur environnement local. La production interactionnelle de réalités matérielles. In B. Conein & L. Thévenot (Eds.), Cognition et information en société (p. 149-176). Paris : Editions de l'Ecole des Hautes Etudes en Sciences Sociales.
Kraut, R., Fussell, S. R., & Siegel, J. (2003). Visual information as a conversational resource in collaborative physical tasks. Human-Computer Interaction, 18(1-2), 13-49.
Luff, P., Hindmarch, J., & Heath, C. (Eds.). (2000). Introduction de workplace studies. recovering work practice and informing system design (p. 1-26) Cambridge : Cambridge University Press.
Luff, P., Heath, C., Hideaki K., Hindmarsh, J., Yamazaki K., & Oyama S. (2003). Fractured ecologies : Creating environments for collaboration. Human-Computer Interaction, 18(1-2), 51-84.
Martin, D., & Rouncefield, M. (2003). Making the organization come alive : Talking through and about the technology in remote banking. Human-Computer Interaction, 18(1-2), 11-148.
Mondada, L. (2004). Temporalité, séquentialité et multimodalité au fondement de l'organisation de l'interaction : Le pointage comme pratique de prise de tour. Cahiers de Linguistique Française, 26, 169-192.
Olson, J. S., Olson, G. M., & Meader, D. K. (1995). What mix of video and audio is useful for remote real-time work. Proceedings of the Conference on Human Factors in Computing Systems, p. 362-368. Denver, CO : Academic Press.
O'Conaill, B., Whittaker, S., & Wilbur, S. (1993). Conversations over video conferences : An evaluation of the spoken aspects of video-mediated communication. Human-Computer Interaction, 8, 389-428.
Reid, A. (1977). Comparing the telephone with face-to-face interaction. In I. Pool (Ed.), The Social Impact of the Telephone (p.386-414). Cambridge, MA : MIT.
Sellen, A. J. (1995). Remote conversation : The effects of mediating talk with technology. Human Computer Interaction, 10, 401-444.
Whittaker, S. (2003). Things to talk about when talking about things. Human Computer Interaction, 18(1-2), 149-170.
Annexe : conventions de transcriptions
[ chevauchements
. .. ... pauses inférieures à 0,5 sec.
(2) pauses quantifiées en secondes
xxx segment inaudible
/ \ intonation montante/ descendante\
exTRA segment accentué
((rire)) phénomènes non transcrits
: allongement vocalique
< > délimitation des phénomènes
par- troncation
& continuation du tour de parole
= enchaînement rapide
regarde i ? actions non verbales réalisées
pendant toute la duré d'un tour de parole
_xx alignement d'une partie d'un tour de parole
avec une action non verbale de l'interlocuteur
*xx alignement d'une partie d'un tour de parole
avec une action non verbale du locuteur
Notes
1 Pour analyser le rôle de l'image dans la communication à distance, la visiophonie a été comparée à la communication audio du point de vue de la qualité de l'échange et de la performance, le plus souvent dans des conditions expérimentales (en laboratoire) (par exemple, Chapanis et al., 1972 ; Reid, 1977 ; Olson et al., 1995 ; Fussell et al., 2000). L'étude de Martin et Rouncefield (2003) sur les conséquences de l'introduction de la vidéocommunication en milieu bancaire montre comment la relation visiophonique, notamment lorsqu'elle est accompagnée de la mise en partage d'éléments (données informatiques) initialement invisibles pour le client dans la relation téléphonique, transforme l'activité de l'agent à tel point qu'elle le contraint à insérer dans son activité ordinaire, un travail de guidage du client et d'explication des dysfonctionnements qui apparaissent sur son système informatique.
2 Plusieurs auteurs se sont intéressés aux spécificités interactionnelles de la communication visiophonique : Heath et Luff (1992) ont examiné la coordination entre les conduites verbales et non-verbales (regards, postures) ; Sellen (1995) et O'Connaill et al. (1993) ont analysé la capacité des systèmes visiophoniques à permettre aux participants de gérer l'alternance des tours de parole ; Kraut el al. (2003) ont étudié leur capacité à soutenir le processus de construction du « common ground ».
3 Nous remercions l'ensemble des responsables de l'agence ANPE, les conseillers et les demandeurs d'emploi pour leur précieuse coopération à la réalisation de cette étude.
4 En étudiant un système de vidéocommunication différent de celui analysé ici (un Media Space) Luff et al. (2003) décrivent des problèmes interactionnels similaires liés à la coupure entre l'action et son environnement tels qu'ils sont perçus par l'interlocuteur distant.
5 Les conventions de transcription des séquences se trouvent en annexe. Elles s'inspirent de l'Analyse Conversationnelle (cf. Gülich et Mondada, 2001).
6 La mise en évidence des problèmes interactionnels liés à l'asymétrie contextuelle a permis d'améliorer le système dans la deuxième version par le choix d'une caméra grand-angle qui élargit ainsi la vue sur l'environnement distant. Elle a également conduit à simplifier l'usage de la borne Client en déléguant à la borne Agent les fonctions de numérisation.
7 Pour plus de clarté nous présentons les trois tâches de manière schématique. Dans le déroulement de l'entretien elles apparaissent dans un enchevêtrement beaucoup plus complexe. En particulier, la saisie des informations dans le SI peut intervenir à plusieurs moments de l'entretien.
8 Pour une analyse des pratiques de pointage dans l'organisation de l'interaction, cf. Mondada (2004).
|