De nouvelles techniques d'interaction sont régulièrement proposées dans la littérature scientifique dans le but de rendre l'interaction plus efficace et plus naturelle. La plupart de ces publications montrent que même l'interaction avec des applications conventionnelles employant des dispositifs standard est susceptible d'être sensiblement améliorée.
Le terme d'interface post-WIMP est couramment évoqué pour décrire des interfaces employant ces nouveaux paradigmes d'interaction. Bien qu'il n'existe pas de définition consensuelle de ces interfaces, nous pouvons en dégager quelques fils conducteurs. Nous les décrivons ici, avant de passer en revue des exemples spécifiques de nouveaux paradigmes d'interaction, à savoir: l'interaction gestuelle, les outils transparents, l'interaction parallèle et la réalité mixte.
Les nouveaux paradigmes d'interaction tendent essentiellement vers des interactions toujours plus concises et plus directes.
La notion de concision est en rapport étroit avec le concept de phrasé decrit par Buxton [Buxton, 1986a]. Dans une interface conventionnelle, l'ouverture d'un menu suivi du choix d'un de ses éléments peut se faire en deux clics. Ces clics successifs forment en quelque sorte une phrase. Or selon Buxton, toute phrase traduit une connectivité conceptuelle entre les tâches atomiques, qu'il est préférable de renforcer par une tension physique. Autrement dit, tout concept ou transaction pouvant être décrit en un seul mot ou une seule phrase devrait pouvoir être articulé en un seul geste [Buxton, 1986a]. Lorsqu'un menu est ouvert par la méthode du cliquer-glisser, la tension musculaire est maintenue entre l'ouverture du menu et le choix d'un élément, ce qui rend impossible toute erreur de syntaxe. Le geste est en outre plus fluide et plus naturel.
La propriété de concision est également liée à la propriété d'amodalité. Les modes dans les interfaces désignent des états dans lesquels les entrées sont interprétées différemment [Poller and Garter, 1984]: par exemple, les modes « insertion » et « remplacement » dans un traitement de texte. Les modes peuvent générer des ambiguïtés et être à la source d'erreurs appelées erreurs de mode1.13 [Norman, 1981]. En outre, les changements de modes sont autant d'étapes supplémentaires dans l'interaction, et peuvent la ralentir considérablement (palette d'outils). Les nouvelles techniques d'interaction visent à supprimer ces changements de mode, ou à les rendre plus rapides et naturels (quasi-modes).
Tout le monde s'accorde également à dire que l'interaction doit être la plus directe possible, bien que cette notion reste encore relativement vague.
Le principe de la manipulation directe [Shneiderman, 1983] a exercé une forte influence sur le développement des interfaces grand public. En pratique cependant, l'interaction est loin d'être toujours directe: les boîtes de dialogues et les widgets, en particulier, occupent de l'espace sur l'écran et déplacent l'attention de l'utilisateur hors des objets d'intérêt [Beaudouin-Lafon, 1997,Beaudouin-Lafon, 2000]. Le modèle de l'interaction instrumentale (voir section 2.5.2) emploie le terme de degré d'indirection pour désigner à la fois le décalage temporel (modes) et le décalage spatial suscité par ces techniques. De nouvelles techniques sont régulièrement proposées pour revenir à une interaction plus locale, essentiellement centrée sur les objets d'intérêt.
La compatibilité stimulus/réponse [Buxton, 1986b,Norman, 2002] que nous avons évoquée dans la section 1.2.1 met en avant la compatibilité entre le dispositif d'entrée physique et la tâche. Jacob et al. [Jacob et al., 1994] ont par ailleurs confirmé que les performances sont faibles lorsque que des tâches intégrales (comme le placement d'un objet 3D) sont morcelées par l'emploi d'un dispositif dont le nombre de degrés de libertés est insuffisant. L'ensemble de ces résultats incite à une simplification des techniques d'interaction à travers l'usage de dispositifs dédiés. Dans les procédés de contrôle direct caractérisés par la quasi-absence de techniques d'interaction, la sensation de contrôle et d'engagement se trouvent intensifiés. Ces dimensions sont notamment dominantes dans les jeux vidéo.
Tout comme l'interaction concise, l'interaction directe suppose une continuité plutôt qu'une séquentialité dans les actions.
L'interaction gestuelle constitue un moyen non conventionnel d'employer les dispositifs de pointage en exploitant notre capacité musculaire à mémoriser et à reproduire des trajectoires, capacité que nous employons notamment pour écrire.
![]() |
Dans la plupart des interfaces à manipulation directe, les dispositifs de pointage servent essentiellement à spécifier des positions1.14. Dans un mouvement de cliquer-glisser par exemple, seules la position initiale et la position finale sont interprétées (figure 1.15). En exploitant la dynamique du mouvement, les techniques d'interaction gestuelles permettent d'enrichir la sémantique des actions élémentaires de l'utilisateur [Baudel, 1995].
![]() |
La figure 1.16 illustre quelques techniques d'interaction gestuelle classiques, telles qu'on peut les trouver dans des applications comme [Mankoff et al., 2000] ou [Hong and Landay, 2000]. Chaque action de type cliquer-clisser produit, à la manière d'un logiciel de dessin, une trace, qui disparaît une fois interprétée. La trace pourra être interprétée comme un nouvel objet à créer, dont le type la taille et la position seront déduits des caractéristiques du geste. Elle pourra également être interprétée comme une commande d'édition, dont la nature et les objets ciblés seront également déduits du geste selon un algorithme prédéterminé.
L'avantage principal de l'interaction gestuelle est qu'elle permet d'effectuer des interactions concises [Baudel, 1995]. Ainsi, la plupart des opérations gestuelles de l'exemple précédent réclament habituellement au moins deux étapes dans une interface classique : créer un rectangle nécessite de cliquer sur l'outil « rectangle » puis de désigner deux côtés opposés du rectangle par un cliquer-glisser. De même, la suppression d'un objet requiert une sélection, puis l'appui d'une touche ou un clic sur le bouton « supprimer ». Or, un geste suffit pour spécifier à la fois une commande et les arguments de cette commande. En outre, l'interaction gestuelle n'utilise pas de widgets intermédiaires tels que les barres d'outils, ce qui économise de la place sur l'écran et permet à l'utilisateur de se focaliser sur les objets d'intérêt.
L'autre atout de l'interaction gestuelle est qu'elle exploite une métaphore déjà connue, à savoir le dessin sur une feuille de papier. L'utilisation de stylets et l'exploitation de gestes iconiques tel que le geste de rature (figure 1.16) exploitent davantage encore la puissance de cette analogie. Ainsi, les techniques d'interaction gestuelle ont été largement utilisées dans les applications conçues selon une approche d'« interaction informelle »1.15 et abondamment exploitées pour la saisie textuelle [Landay and Myers, 1995]. L'interaction gestuelle est également la technique de prédilection des ordinateurs de poche, qui utilisent le stylet comme principal dispositif de saisie, et pour lesquels il convient de maximiser l'espace d'affichage utile.
Bien que fort prometteuses, les interfaces essentiellement basées sur les
techniques gestuelles restent difficiles à mettre en
uvre. Les ambiguïtés potentielles, par exemple, sont nombreuses : ainsi, dans
l'exemple de la figure 1.16, le cercle pourrait être
interprété comme la lettre « O », et le déplacement d'objets comme la
création d'un segment de droite. Plus encore que les difficultés liées à
l'apprentissage, les erreurs de reconnaissance résultant d'un vocabulaire
gestuel complexe sont une source de frustration considérable pour
l'utilisateur. La tendance actuelle semble ainsi aller vers l'utilisation de
gestes simples, plus rapides et plus tolérants aux erreurs de par leur
construction logique [MacKenzie and Zhang, 1997,Ng et al., 1998], mais ce au détriment de leur
facilité d'assimilation dû à leur nature arbitraire.
Les gestes permettent d'explorer le monde physique (fonction épistémique), d'agir matériellement sur ce monde (fonction ergotique), et de communiquer avec les autres (fonction sémiotique) [Cadoz, 1994].
La plupart des techniques conventionnelles emploient des gestes sémiotiques. Les quelques exemples de techniques exploitant les fonctions ergotique et épistémique montrent cependant que celles-ci possèdent de nombreux avantages: ce sont des gestes simples, souvent utilisables à la souris, qui ne réclament pas d'apprentissage car ils s'expliquent d'eux-mêmes. Ces techniques sont la preuve que l'interaction gestuelle n'impose pas nécessairement de compromis entre facilité d'assimilation et efficacité d'utilisation.
![]() |
C'est le cas des Marking Menus, version circulaire des menus contextuels [Kurtenbach and Buxton, 1994]. Dans un menu circulaire, le choix d'un élément se fait en imprimant une direction donnée au pointeur, après avoir fait apparaître le dit menu (figure 1.17). Les menus hiérarchiques des Marking Menus induisent des gestes qui sont affichés sous forme de traces (figure 1.17, image de droite). L'utilisateur novice commencera par maintenir le bouton enfoncé afin de faire apparaître les menus (figure 1.17, image de gauche), et pourra ensuite directement effectuer les gestes pour les commandes auxquelles il est habitué (figure 1.17, image de droite).
La figure 1.18 illustre un autre exemple tiré du logiciel Digistrips, un prototype de strips électroniques pour contrôleurs aériens [Mertz et al., 2000]. Les Strips sont des objets disposés verticalement. Un Strip peut être décalé vers la droite, ou déplacé vers le haut ou vers le bas, auquel cas il pousse les autres afin de conserver l'ordre. Mais un court mouvement vers la droite suivi d'un déplacement vertical le désolidarise des autres, ce qui lui permet d'être inséré ailleurs. Le passage à ce mode de déplacement se fait par un geste implicite, « mécanique », dont la compréhension et l'assimilation sont immédiates.
La méthode de saisie textuelle QuikWriting de Ken Perlin constitue un autre exemple de gestes ergotiques [Perlin, 1998]. Pour la saisie textuelle au stylet sur les ordinateurs de poche, les vocabulaires gestuels simplifiés comme Graffiti [MacKenzie and Zhang, 1997] sont souvent préférées aux techniques d'« écriture naturelle » [Paragon, 2003,Microsoft, 2003b] qui sont sujettes aux erreurs de reconnaissance. Cependant, ces vocabulaires gestuels nécessitent d'être appris. La technique QuikWriting se distingue de ces approches car elle peut être utilisée, tout comme les Marking Menus, de façon exploratoire. L'espace de saisie de QuikWriting est divisée en neuf zones (figure 1.19). Chaque geste commence dans la zone centrale, puis passe par une ou deux zones avant de revenir au centre. La correspondance entre caractères et gestes est représentée de façon synthétique sur l'espace de saisie: pour saisir une lettre, il suffit de diriger le geste dans la zone où elle se trouve, puis dans la zone indiquée par sa position relative.
![]() |
Les outils semi-transparents1.16 sont des widgets que l'on peut librement déplacer sur l'écran, et qui sont en général regroupés dans des palettes flottantes appelées toolglass. Ces outils possèdent des zones transparentes qui permettent de voir les objets d'intérêt situés en-dessous1.17.
Lorsqu'un utilisateur clique sur un outil semi-transparent, celui-ci modifie les propriétés de l'objet qui se trouve en dessous, à la position du curseur. Sur la figure 1.20 par exemple, un utilisateur modifie la couleur d'un objet graphique en cliquant dessus à travers un bouton transparent. Ce bouton permet d'affecter une couleur donnée (affichée dans le coin inférieur droit de l'outil) à tout objet graphique.
Les outils semi-transparents ont été introduits par Eric A. Bier [Bier et al., 1993], comme alternative aux techniques indirectes de manipulation d'objets graphiques, telles que la sélection, les barres d'outils modales ou les menus contextuels. Contrairement à ces techniques, les outils semi-transparents permettent de spécifier à la fois l'objet sur lequel on veut effectuer une opération et l'opération elle-même. Couplée à l'interaction bimanuelle décrite quelques lignes plus bas (la Toolglass peut être contrôlée de la main gauche), cette technique permet d'effectuer en un seul geste des manipulations qui, avec les techniques classiques, requièrent plusieurs étapes et des déplacements répétés de l'attention visuelle.
Nous employons le terme d'interaction parallèle pour désigner l'ensemble les paradigmes d'interaction faisant un usage simultané de plusieurs dispositifs d'entrée.
![]() |
L'efficacité de l'interaction peut se décrire en termes de bande passante, c'est-à-dire de la quantité d'information que l'utilisateur est capable d'acheminer vers la machine en un temps donné. Actuellement cette vitesse est bien inférieure à la vitesse limite théorique, qui dépend essentiellement de la bande passante motrice humaine. L'homoncule représenté sur la figure 1.21 donne un aperçu de l'ensemble de cette bande passante, et montre notamment que certains groupes moteurs peuvent être contrôlés plus finement que d'autres.
L'homme est capable, par apprentissage, d'utiliser de façon conjuguée n'importe quel ensemble de groupes musculaires. C'est le cas lorsqu'il apprend à jouer d'un instrument de musique ou à conduire une voiture. En outre, nombre de gestes quotidiens instinctifs mettent en jeu ce type de coordination musculaire, et c'est également le cas pour le langage.
Dans les interactions parallèles, plusieurs dispositifs d'entrée sont employés simultanément afin de mieux exploiter la bande passante motrice humaine. Certains des dispositifs alternatifs que nous avons évoqués dans la section 1.2.2 mettent en jeu des groupes musculaires spécifiques et peuvent être employés en complément des dispositifs standard. Ici, nous nous contenterons de décrire les deux principaux paradigmes d'interaction reposant sur l'interaction parallèle, à savoir l'interaction bimanuelle et l'interaction multimodale.
Une expérience de William Buxton et Brad Myers [Buxton and Myers, 1986] a mis en évidence que des techniques d'interaction utilisant deux mains permettaient d'accomplir certaines tâches plus rapidement. Leur expérience consistait à spécifier d'une part la taille et la position d'une cible, et d'autre part à naviguer dans un document et sélectionner un mot. Dans les deux cas, le parallélisme était exploité de façon naturelle et augmentait significativement les performances.
Au même moment, Yves Guiard [Guiard, 1987] a montré que dans les tâches manuelles courantes, les deux mains travaillent de façon coopérative et asymétrique, et a mis notamment l'accent sur l'importance de la main non-dominante. Ainsi, la main non-dominante peut servir de référentiel spatial pendant que la main dominante opère sur l'objet tenu par la main gauche, et la première effectue en général des mouvements de grande amplitude alors que la dernière effectue des mouvements précis (exemple du peintre qui tient sa palette). En outre, la main non-dominante précède souvent le geste, que la main dominante termine (prendre une feuille de papier pour écrire).
![]() |
L'emploi de modificateurs clavier et la saisie textuelle à deux mains constituent déjà des interactions bimanuelles rudimentaires. Mais sur la base des expériences de Buxton et Myers et de la théorie de Guiard, des techniques bien plus intéressantes ont pu être explorées. Appliquées à l'infographie, de telles techniques permettent, comme le font les dessinateurs, d'orienter l'espace de travail de la main gauche tout en dessinant de la main droite [Kurtenbach et al., 1997]. La figure 1.22 montre une autre technique bimanuelle où l'utilisation simultanée des deux mains permet de zoomer en avant ou en arrière sur une carte, tout en la déplaçant [Hinckley et al., 1998].
![]() |
D'autres techniques d'interaction bimanuelle ont été décrites dans la littérature scientifique. Nous avons évoqué trois d'entre elles dans les sections précédentes: la manipulation d'un plan de coupe (figure 1.2), le tape drawing (figure 1.7), et en particulier les outils transparents (figure 1.20). Récemment, un dispositif d'entrée expérimental mais très prometteur, nommé Smartskin, a permis d'appliquer certaines techniques bimanuelles à la manipulation « multidigitale », comme illustré sur la figure 1.23 [Rekimoto, 2002].
Selon Laurence Nigay, la multimodalité est la capacité d'un système à communiquer avec un utilisateur en employant différents types de canaux de communication [Nigay and Coutaz, 1993]. En général, les interfaces multimodales emploient des entrées « naturelles » mais qui produisent des ambiguïtés comme la parole, et les complètent par des entrées explicites comme le pointage ou la manipulation directe. Bien que le terme de multimodalité soit parfois employé dans le sens plus général d'interaction parallèle, le domaine de l'interaction multimodale s'attache essentiellement aux problèmes liés à la fusion et à l'interprétation d'entrées issues de canaux de nature hétérogène.
La notion d'interfaces multimodales a été introduite par Richard Bolt [Bolt, 1980] dans son système « put-that-there », qui associe des commandes vocales à des techniques de pointage (figure 1.24). Pour déplacer un objet, l'utilisateur pointe du doigt sur cet objet en prononçant « met ça », puis sur sa destination en prononçant « là ». D'autres prototypes ont été construits par la suite afin expérimenter l'usage combiné de la manipulation directe et du langage naturel textuel [Cohen et al., 1989], ou des gestes et de la parole [Weimer and Ganapathy, 1989]. Plus récemment, des techniques de traitement vidéo en temps réel ont été exploitées pour améliorer la reconnaissance vocale par la lecture des mouvements des lèvres, et pour contrôler une application de visualisation d'images panoramiques en combinant mouvements oculaires et commandes vocales [Yang et al., 1998].
Les interfaces multimodales offrent la possibilité de combiner les avantages des entrées naturelles mais équivoques comme la parole, et des entrées univoques comme la manipulation directe. L'utilisation de plusieurs canaux de communication permet à chaque canal de compenser les faiblesses des autres, lorsqu'il s'agit notamment de résoudre des ambiguïtés, mais permet également la propriété de redondance, dans laquelle une tâche peut être accomplie de diverses manières. Cette redondance des entrées est souvent désirable, en particulier lorsque les contraintes liées à l'environnement sont variables.
Paul Milgram [Milgram and Kishino, 1994] a introduit le terme de réalité mixte pour désigner l'ensemble des approches combinant environnements virtuels et environnements réels dans des proportions variables. Il décrit ainsi un continuum entre la réalité et la virtualité à partir duquel on peut distinguer deux grandes approches (figure 1.25): la virtualité augmentée qui consiste à intégrer du réel dans le monde virtuel, et la réalité augmentée qui consiste à intégrer du virtuel dans le monde réel. Nous décrivons ces deux paradigmes.
Nous possédons des capacités innées à interagir de façon physique avec des objets du monde réel, et ces capacités sont très peu exploitées dans les interfaces actuelles où les objets sont essentiellement virtuels [Fitzmaurice and Buxton, 1997,Ishii and Ullmer, 1997]. La virtualité augmentée traduit une nouvelle tendance dans la recherche en IHM qui vise à introduire des objets physiques dans les interfaces utilisateur conventionnelles.
![]() |
George Fitzmaurice et Hiroshi Ishii [Fitzmaurice et al., 1995] ont employé le terme d'interfaces « saisissables »1.18, pour décrire des interfaces où certains objets interactifs traditionnels sont remplacés par des objets physiques. Ils évoquent un prototype où des « briques » comportant des capteurs de position et d'orientation sont librement placés sur une table, sur laquelle sont projetés des objets graphiques. Lorsqu'une brique est posée sur un objet virtuel, celui-ci peut être librement manipulé (figure 1.26, image de gauche). Plusieurs briques peuvent être manipulées simultanément, soit sur des objets séparés, soit sur le même objet pour le redimensionner ou le déformer. Hiroshi Ishii [Ishii and Ullmer, 1997] généralisera ces concepts dans une perspective plus générale de réalité mixte, et introduira le terme maintenant couramment employé d'interfaces tangibles.
Dans le même esprit, Saul Greenberg [Greenberg and Boyle, 2002] propose de s'aider de contrôleurs physiques supplémentaires pour interagir avec les applications existantes. Ses phidgets sont les homologues physiques des widgets qui structurent nos interfaces. Ainsi, des boutons ou des potentiomètres électroniques peuvent être assignés aux fonctions les plus couramment utilisés, puis agencés sur l'espace de travail. Sur la figure 1.26, image de droite, une combinaison de potentiomètres linéaires est assignée à des fonctions de contrôle sonore.
Dans ces interfaces, les objets physiques sont plus efficaces et plus faciles d'utilisation car ils mettent à profit nos capacités préhensiles innées [Fitzmaurice and Buxton, 1997]. En outre, ils permettent et même encouragent l'interaction bimanuelle et le travail coopératif.
![]() |
La réalité augmentée [Mackay, 1996] désigne des techniques consistant à superposer au monde réel des informations générées par ordinateur. L'exemple typique est un utilisateur (chirurgien, militaire,...) qui est assisté dans sa tâche par un système vestimentaire (voir section 1.2.3) comprenant un casque virtuel ou des lunettes translucides. Une autre technique courante consiste à projeter des images sur un espace de travail: les surfaces augmentées telles que les tables, les tableaux ou les murs interactifs emploient des techniques d'interaction basées sur la capture des mouvements de la main ou s'appuient sur des interfaces tangibles [Ishii and Ullmer, 1997]. L'argile lumineuse [Piper et al., 2002] par exemple, consiste en un matériau déformable destiné à concevoir des maquettes de paysages, et sur lequel sont projetées des informations topographiques (figure 1.27, image de gauche). L'interaction se fait par modelage du matériau, dont la forme est capturée en temps réel par un scanner laser.
L'informatique diffuse1.19 décrit une réalité augmentée où l'informatique, s'aidant de la miniaturisation et de la mise en réseau, se fond avec l'environnement quotidien jusqu'à être invisible et fournit des informations et des services à l'endroit et au moment opportuns [Weiser, 1991]. Ce nouveau paradigme d'informatique embarquée (voir section1.2.3) met en avant une interaction naturelle entre l'utilisateur et l'environnement augmenté, mais surtout le remplacement des interactions explicites par une sensibilité au contexte, où des informations provenant de l'environnement (identité de l'utilisateur, localisation spatiale, objet d'intérêt, type d'activité) sont automatiquement collectées et interprétées. Ici, les dispositifs d'entrée sont remplacés par des capteurs. Le sol intelligent [Orr and Abowd, 2000], par exemple, est un système non intrusif d'identification biométrique et de localisation basé sur des profils de charge (figure 1.27, image de droite).