Michel Beaudouin-Lafon
Laboratoire de Recherche en Informatique (LRI), Université Paris-Sud
mbl@lri.fr
Cet article présente quelques points de repères importants dans l'histoire de l'interaction homme-machine, avec pour objectif de montrer que les interfaces graphiques actuelles sont le résultat d'une longue évolution "à rebours". Du système NLS/Augment de Doug Engelbart dans les années 60 au Star de Xerox dans les années 80 jusqu'au Macintosh, Windows et les browsers Web des années 90, la puissance des interfaces homme-ordinateur n'a fait que diminuer par rapport à la puissance des machines. La réalité virtuelle et les agents intelligents n'ont pas (encore ?) fait leurs preuves, et le futur semble promis à des appareils de plus en plus petits et difficiles à utiliser. Aussi, après ce panorama historique, l'exposé présentera quelques perspectives sur ce que pourrait être l'histoire des interfaces de demain.
Depuis qu'existent les ordinateurs, la question de l'interface avec les utilisateurs s'est posée. Si la programmation aux clés des premiers ordinateurs pourrait être qualifiée de "manipulation directe" au sens littéral du terme, et si l'on peut présenter l'invention des langages de programmation comme un moyen de faciliter l'interaction avec les machines informatiques, ce sont les travaux de Ivan Sutherland sur SketchPad au début des années 60 qui marquent le début de l'histoire de l'interaction homme-machine. En quarante ans, l'interaction homme-machine (IHM) a permis de démocratiser l'informatique d'une façon que nul ne pouvait prédire. Que serait le visage de l'informatique aujourd'hui sans les interfaces graphiques ?
Le reste de cet article présente quelques points de repère importants de l'histoire de l'IHM. Il ne prétend en aucun cas être exhaustif (voir par exemple [Myers, 1992] pour une liste plus complète, ainsi que les sites Web mentionnés en annexe). L'objectif est de mettre en regard les travaux des pionniers de l'IHM avec les systèmes interactifs commerciaux actuels et d'attirer ainsi l'attention sur le décalage entre l'état de l'art et les standards du marché.
SketchPad, développé par Ivan Sutherland au début des années 60 et publié dans sa thèse de doctorat en 1963, est considéré comme la première interface graphique [Sutherland, 1963]. Développé au MIT Lincoln Laboratory, c'est le premier système à utiliser un écran cathodique et un crayon optique pour permettre l'édition graphique, par manipulation directe, de dessins techniques (Figure 1). De nombreux concepts fondamentaux des interfaces graphiques ont vu le jour avec SketchPad : désignation directe des objets à l'écran, feed-back sous forme de lignes élastiques, alignements des segments, zoom avant et arrière sur le dessin avec un facteur de 2000, etc. Même au niveau de la mise en uvre, les concepts sont étonnamment modernes : représentation des objets graphiques en mémoire, système de contraintes simplifié, système de rendu graphique.
Figure 1 : Ivan Sutherland à la console du TX-2, travaillant sur SketchPad (MIT, 1963)
Sutherland a développé SketchPad sur le TX-2, l'un des rares ordinateurs de l'époque utilisable en ligne : à cette époque, la grande majorité des ordinateurs sont utilisés en traitement par lots ("batch"). Le TX-2 avait 320Ko de mémoire, deux fois plus que les plus gros ordinateurs commerciaux de l'époque, une unité de bande magnétique, la première imprimante de Xerox, et l'entrée des programmes se faisant par ruban perforé. Surtout, le TX-2 avait un écran cathodique (en fait un oscilloscope) de 9 pouces (21 cm), un crayon optique, et un panneau de boutons que Sutherland utilisa pour construire son interface.
Plus tard, Ivan Sutherland sera l'un des pionniers de l'infographie, avec notamment un algorithme d'elimination des parties cachées, et de la réalité virtuelle. En 1967, alors qu'il est professeur à Harvard, il crée avec son étudiant Bob Sproull le premier casque de réalité virtuelle affichant des images de synthèse (figure 2). Plus tard encore, il s'intéressera à la robotique, et créera l'entreprise Evans & Sutherland, célèbre pour ses systèmes graphiques haut de gamme.
Figure 2 : le premier casque de réalité virtuelle, réalisé par Sutherland et Sproull (Harvard, 1967).
En 1962, Doug Engelbart publie un article séminal, "Augmenting Human Intellect: A Conceptual Framework" [Engelbart, 1962], qui présente sa vision du rôle des systèmes informatiques dans l'élévation du niveau intellectuel de la collectivité notamment grâce aux possibilités de collaboration qu'ils offrent. Cet article préfigure une grande partie de l'évolution de l'informatique depuis 1960. D'une certaine façon, il fait écho à un autre article séminal, "As We May Think" de Vannevar Bush qui présentait en 1945 un système imaginaire appelé Memex, considéré aujourd'hui comme l'ancètre de l'hypertexte [Bush, 1947]. Lorsque Vannevar Bush écrit son article, l'ordinateur existe à peine. Quinze ans plus tard, l'informatique s'est développée et Engelbart peut commencer à mettre en uvre sa vision, sur laquelle il travaillera le reste de sa vie, jusqu'à aujourd'hui : le Bootstrap Institute qu'il créera en 1989 lorsque McDonnell Douglas arrêtera le financement de son projet, existe toujours (www.bootstrap.org).
En 1964, Doug Engelbart invente la souris, qu'il brevète (figure 3), car il veut pouvoir facilement désigner des objets à l'écran. Le brevet ne lui rapportera jamais rien, car les souris qui seront commercialisées plus tard utiliseront une boule au lieu des deux roues de son système. Il crée également des claviers à accord ("chord keyboards") qui permettent d'entrer des données en composant des accords avec les doigts d'une main. Peu de gens seront capables de maîtriser ces claviers, tandis que la souris s'imposera comme le périphérique incontournable des interfaces graphiques.
Figure 3 : le clavier du système NLS, avec le "chord keyboard" sur sa partie gauche et la souris sur sa partie droite. Au milieu et à droite : la souris inventée par Doug Engelbart.
Fin 1968, Engelbart fait une démonstration publique devant 1000 personnes de son système NLS (On-Line System), développé depuis plusieurs années au SRI, à Stanford. La démonstration est filmée [Engelbart, 1968] et elle est aujourd'hui disponible sur le site de Stanford. NLS est un système hypertexte collaboratif couplé à un système de vidéoconférence. Des utilisateurs séparés de 45 km éditent collaborativement des données organisées hiérarchiquement, comme une liste de commissions. Lorsqu'ils collaborent, ils peuvent se voir par vidéoconférence et utiliser des télépointeurs pour montrer des objets à l'écran. L'interaction avec NLS est complexe, notamment à cause de l'utilisation du "chord keyboard". Mais Doug Engelbart a toujours été perplexe devant l'idée de systèmes conviviaux ou faciles d'utilisation. Pour lui, l'important est que le système permette aux utilisateurs de développer leurs compétences et de construire des organisations humaines plus évoluées, ce qu'il illustre par la métaphore du tricycle et du vélo : le tricycle est plus facile à utiliser mais le vélo permet de faire plus de choses. En fait, Engelbart défend l'idée d'interfaces adaptées aux capacités des utilisateurs plutôt que des interfaces simplistes pour être accessibles à tout le monde.
Beaucoup d'aspects présents dans NLS (repabtisé Augment lorsque Engelbart quitte le SRI en 1978) sont encore aujourd'hui loin d'être réalisés, particulièrement pour ce qui concerne les aspects de collaboration, Même les systèmes hypertextes d'aujourd'hui, et le Web en premier lieu, ne réalisent qu'une petite partie des fonctionnalités offertes par NLS/Augment. L'explication en est peut-être que, avec le Xerox Star et plus tard le Macintosh, l'informatique s'est intéressée à une catégorie d'utilisateurs différente de celles qui intéressaient Engelbart : les "knowledge workers" pour NLS, les secrétaires pour le Star. L'avènement de l'informatique dite individuelle est d'ailleurs bien la preuve que la vision d'Engelbart de systèmes dédiés à la collaboration est restée ignorée.
En 1970, Xerox crée son laboratoire de recherche à Palo Alto, le PARC. Xerox veut non seulement développer sa technologie de la photocopie, mais aussi se lancer sur le marché des systèmes bureautiques. Le slogan favori des chercheurs du PARC est "la meilleure façon de prédire le futur, c'est de l'inventer". De fait, Xerox PARC a été le théâtre d'un nombre spectaculaires d'inventions qui ont marqué l'informatique. Ainsi, au moment du lancement du projet Star en 1975, Xerox avait déjà inventé l'imprimante à laser et le réseau local Ethernet.
Avant le Star, l'Alto fut la première station de travail personnelle munie d'un écran graphique, et servit de base, avec ses évolutions, à de nombreuses applications développées à PARC : édition de texte, dessin bitmap, dessin vectoriel, workflow, courrier électronique. Alan Kay, considéré comme le père de l'informatique individuelle, avait sa propre vision de l'informatique, qu'il appelait le Dynabook. Elle consistait à fournir aux utilisateurs non pas des applications pré-programmées, mais un ensemble d'outils pour construire son propre environnement. Cette vision évolua, dans les années 70, vers la création du langage Smalltalk et de son environnement de programmation graphique, premier du genre.
C'est dans ce contexte qu'est lancé le projet Star en 1975, qui débouche en 1981 sur l'annonce du "Xerox 8010 Information System", nom commercial du Star [Smith et al, 1982] [Johnson et al, 1989]. Même s'il n'est pas un succès commercial, le Star révolutionnera l'informatique en préfigurant l'avènement de l'informatique personnelle et des interfaces graphiques. Le hardware du Star a été conçu en fonction des besoins identifiés pour le logiciel. Il consiste en un CPU microcodé d'une puissance inférieure à un MIPS, muni d'opérations rapides pour accéder à l'écran (BitBlt), de 385Ko de mémoire, d'un disque de 10 à 40 Mo, d'un lecteur de diskettes 8 pouces et d'une connexion Ethernet. Les périphériques d'interaction sont un écran noir et blanc de 17 pouces, une souris à deux boutons et un clavier spécial, muni de deux pavés de touches de fonction, à droite et à gauche de la partie alphabétique (figure 4), Le logiciel est programmé en Mesa, une variante évoluée de Pascal développée au SRI. Le développement du Star représenta un effort de 30 hommes-années.
Figure 4 : L'écran, le clavier et la souris du Xerox 8010, connu sous le nom de Star. Au milieu et à droite, les pavés de touches de fonction disposés de part et d'autre du clavier alphabétique.
Le Star était, dès le départ, une machine destinée à être connectée à un réseau local Ethernet. L'interface permettait de naviguer les ressources présentes sur le réseau (imprimantes, serveurs de fichiers, etc.) de façon totalement transparente et de créer son propre environnement en déplaçant les icones de ces ressources sur le bureau. Le Star fut la première machine à offrir des fenêtres qui se superposent et à utiliser la métaphore du bureau, avec notamment des icones représentant les documents et autres ressources (figure 5). Mais le plus frappant dans l'interface du Star est que le système était centré sur la notion de document : un nouveau document était créé à partir d'un modèle existant, et tout document pouvait contenir du texte, des dessins, des formules mathématiques, des tableaux, tous éditables sur place. Pour l'utilisateur, la notion d'application était inexistante. L'interface avait été conçue pour utiliser un nombre minimal de commandes, dont les principales étaient accessibles directement par des touches de fonction du clavier (figure 4) : copier, déplacer, détruire, changer les propriétés. L'interface n'avait pas de barre de menus, seulement un ou deux menus déroulants pour les fonctions les moins fréquentes. Il n'utilisait pas de boîtes de dialogue modales, mais des boîtes de propriétés associées à la sélection (figure 6). Grâce à la configuration du clavier, l'interaction consistait à manipuler la souris à la main droite pour désigner les objets d'intérêt et sélectionner les options dans les boîtes de propriétés, et à utiliser les touches de fonctions à gauche du clavier avec la main gauche pour spécifier les actions. En cela, le Star reprenait le style d'interaction de NLS/Augment en le simplifiant.
Figure 5 : L'écran du Star avec un ensemble d'icones de documents et de ressources à droite, un document mélangeant texte, graphique et tableaux à gauche, et deux autres fenêtres au milieu.
Figure 6 : Une boîte de propriétés du Star pour l'édition de texte.
Tous les concepts des interfaces modernes sont présents dans le Star. A vrai dire, le Star est encore en avance par rapport aux interfaces actuelles : la transparence du réseau, l'environnement centré sur les documents, l'utilisation d'un petit nombre de commandes qui s'appliquent à un grand nombre de contextes, l'interaction non modale, autant de caractéristiques du Star qui ne sont toujours pas présentes dans les environnements actuels. Pourtant le Star fut un échec commercial : système trop cher, cible marketing mal évaluée, et surtout incapacité de Xerox à sortir de son marché historique des photocopieurs. C'est le Macintosh d'Apple qui, trois ans plus tard, fut le réel point de départ du marché de l'informatique personnelle. Certes le Macintosh fut largement inspiré par le Star (on cite fréquemment la visite de Steve Jobs et de son équipe à Xerox PARC en 1979). Mais le concept était, dès le départ, différent [Raskin, 2000], et une grande partie de l'interface du Macintosh était dérivée du Lisa [Perkins et al, 1997] et avait été créée avant la visite de Jobs à PARC. Apple inventa la barre de menus et les boîtes modales, laissa de côté l'aspect réseau, et conserva le concept d'application qui était familier aux utilisateurs de l'Apple ][. Qinze ans plus tard, au début des années 1990, Apple tenta d'introduire une approche centrée sur les documents avec OpenDoc, mais le projet fut abandonné. Entre autres, il remettait en cause le modèle de marketing qui s'était développé selon lequel les éditeurs de logiciels vendent des applications autonomes et indépendantes les unes des autres.
Si SketchPad, NSL/Augment et le Star sont fondamentaux dans l'histoire de l'IHM, il faut également mentionner, sans chercher à être exhaustif, quelques autres points de repères historiques qui ont influencé de façon durable la recherche et le développement en IHM.
En 1964, le système GRAIL de Tom Ellis est le premier à utiliser une reconnaissance de gestes tracés sur une tablette graphique RAND. Myron Krueger, dès 1969, crée des installations qui permettent aux utilisateurs d'interagir de façon gestuelle grâce à l'analyse en temps réel des mouvements de leurs corps et invente le terme Artificial Reality [Krueger, 1983]. La plus connue est VideoPlace, à partir de1974 [Krueger, 1985]. En 1971, les premiers travaux sur le retour d'effort sont réalisés par Fred Brooks et Henry Fuchs, dans le contexte de leurs recherches sur la réalité virtuelle. En 1980, Rich Bolt présente le système Put-That-There [Bolt, 1980], premier système multimodal qui combine reconnaissance de gestes, désignation sur un grand écran grâce à un capteur à six degrés de liberté et reconnaissance de la parole. L'interaction multimodale s'est peu développée depuis 20 ans, malgré de nombreux efforts notamment sur les interfaces vocales. En restant figée sur le clavier et la souris, les interfaces actuelles font un bien piètre usage de la bande passante de la communication humaine.
En 1979, Dan Bricklin et Bob Frankston commercialisent VisiCalc (Figure 7), le premier tableur de l'histoire (http://www.bricklin.com/history/). Bricklin, étudiant à Harvard, en a l'idée en utilisant une calculette Texas Instruments. Il imagine comment un système permettant la visualisation tête haute d'une feuille de calcul, piloté par un trackball, lui faciliterait la résolution de ses exercices d'économie en lui permettant de tester rapidement plusieurs hypothèses. Il abandonne l'idée de la visualisation tête haute pour se rabattre sur l'écran de son Apple ][, et il décide d'utiliser les touches de positionnement du curseur du clavier car le contrôleur de jeu de l'Apple ][ n'est pas assez précis pour permettre le pointage direct des cellules. L'algorithme de recalcul des cellules est dérivé d'un algorithme de Sussman et Stallman du MIT. Il n'existe peut-être pas d'autre exemple d'application informatique ayant eu un tel impact, et dont le concept n'a pas évolué en 20 ans : avec VisiCalc, des comptables peuvent faire en 1/4 d'heure ce qui leur prenait 20 heures par semaine auparavant.
Figure 7 : la version alpha de VisiCalc en 1979, sur un Apple ][.
En 1980, Tim Berners-Lee crée au CERN un système hypertexte qui sera le précurseur du Web. Le terme hypertexte a été inventé en 1968 par Ted Nelson, qui publie en 1981 un ouvrage [Nelson, 1992] où il présente Xanadu, une vision d'un système mondial en réseau pour la publication de documents, incluant la collecte de royalties grâce au procédé de "transclusion". Nelson a tenté, sans réel succès, de réaliser Xanadu depuis. En 1989, Berners-Lee propose au CERN un projet de système hypertexte en réseau et réalise un prototype en 1990 qui est à la fois un navigateur ("browser") et un éditeur (figure 7), ce qu'aucun autre système n'a proposé depuis [Berners-Lee et al, 1994]. Mais le prototype est implémenté sur le NeXT, une machine peu répandue. En 1993, Marc Andressen implémente le navigateur Mosaic sous X-Windows, qui marque le début du développement exponentiel du Web en dehors de son contexte d'origine. Non seulement le Web est loin de réaliser la vision de Nelson, mais son développement rapide à également imposé de figer des standards et des protocoles qui obèrent son avenir : il reste un système orienté essentiellement vers la diffusion de documents. L'édition de pages et la construction de sites restent difficiles, et le support à la collaboration de groupe chère à Engelbart, inexistante.
Figure 8 : le prototype de navigateur/éditeur développé par Tim Berners-Lee en 1990. Les liens sont déjà en bleu et soulignés.
En 1991, Mark Weiser publie un article qui présente sa vision de l'informatique du 21ème siècle [Weiser, 1991]: Ubiquitous Computing, ou l'accès à l'information en ligne omniprésent dans l'environnement physique, grâce à des ordinateurs et des écrans de toutes tailles. Cette vision préfigure clairement l'avènement des PDAs et téléphones mobiles, mais reste loin d'être réalisée. Elle rejoint aussi celle de la réalité augmentée [Wellner et al, 1993], qui cherche à intégrer l'information directement au sein des objets physiques, comme le papier avec le Digital Desk de Pierre Wellner. Ces approches font l'objet de nombreux travaux de recherche car il est clair que les interfaces graphique classiques ont atteint leurs limites, mais elles sont encore trop récentes pour avoir pu percoler dans des produits commerciaux.
Ce court historique de l'interaction homme-machine a montré que la plupart des concepts des interfaces actuelles sont anciens. Cependant, les technologies mettent généralement une trentaine d'années à passer des travaux initiaux des laboratoires de recherche à la diffusion de masse. L'informatique et l'interaction homme-machine ont raccourci ces délais de façon considérable. Mais cette accélération est à double tranchant : les visions de Doug Engelbart et de Ted Nelson sont loin d'être réalisées avec le Web, et les interfaces graphiques actuelles sont une pâle copie de ce que permettait et promettait le Star. Plus grave, les interfaces actuelles avec leurs cortèges de standards, de "legacy applications", risquent fort de rendre impossible la réalisation de ces visions. Comment imaginer que le modèle centré sur les applications puisse être remplacé par celui du Star, centré sur les documents, sans rupture majeure ? Comment imaginer que le Web puisse devenir un vrai media pour la collaboration distante sans remettre en cause les protocoles existants ? Ces ruptures sont pourtant nécessaires car les interfaces actuelles atteignent leurs limites : elles génèrent leur propre complexité d'utilisation et détournent l'utilisateur de l'objet de sa tâche, elles ne tirent pas parti des capacités d'action, de perception et de communication des humains, elles ne sont pas adaptées à leurs contextes d'utilisation.
De nombreuses innovations significatives en IHM sont passées inaperçues. Par exemple, les menus circulaires ("pie menus") inventés en 1986 par Don Hopkins [Callahan et al, 1988] et améliorés en 1993 par Gordon Kurtenbach [Kurtenbach et Buxton, 1993] peuvent accélérer la sélection dans un menu d'un facteur 3. Pourtant, ils ne sont implémentés dans aucune application commerciale de masse. Le modèle d'interaction qui est en train de se généraliser est celui du Web : navigation par des liens et remplissage de formulaires. Fonctionnellement, nous sommes revenus aux interfaces conversationnelles des années 70, au Minitel. Certes, les images et la souris permettent une interaction moins frustre que sur le Minitel, mais la puissance d'expression de l'interface est la même. Entre cette régression et les promesses des interfaces à base d'agents intelligents, de reconnaissance de la parole et de langage naturel, le futur de l'IHM saura se frayer un chemin. Entre évolution et révolution, les chercheurs devraient sans doute s'inspirer de leurs aînés qui ont su avoir une vision et se donner les moyens de la réaliser au moins en partie. Aujourd'hui, les chercheurs en IHM donnent l'impression de suivre avec retard l'innovation technologique (PDAs, téléphones mobiles, systèmes immersifs, etc.) alors qu'ils devraient en être la source.
Berners-Lee, T. et al (1994) The World Wide Web, Communications of the ACM, 37(8):76-82, August 1994.
Bolt, R.A, (1980) Put-That-There: Voice and Gesture at the Graphics Interface, ACM SIGRAPH Compututer Graphics 14::3 262-270, 1980.
Bush, V. (1945) As We May Think. The Atlantic Monthly, 1945. 176(July): pp. 101-108. Reprinted and discussed in ACM interactions, 3(2), March 1996, pp. 35-67.
Callahan, J., Hopkins, D., Weiser, M. & Shneiderman, B. (1988) A Comparative Analysis of Pie Menu Performance, Proc. ACM Human Factors in Computing Systems, CHI'88, Washington D.C., pp. 95-100, ACM.
Engelbart, D.C (1962) Augmenting Human Intellect: A Conceptual Framework,, Summary Report, Stanford Research Institute, on Contract AF 49(638)-1024, October 1962, 134 pages
Engelbart, D.C (1968) A Research Center for Augmenting Human Intellect, (90-min. video recording) live online hypermedia demonstration/presentation at the Fall Joint Computer Conference, San Francisco, CA, December 9, 1968.
Johnson, J. et al (1989) The Xerox "Star": A Retrospective, IEEE Computer, September 1989. Reprinted in Buxton, W. et al , Human Computer Interaction: Toward the Year 2000, Morgan Kaufman.
Kurtenbach, G. & Buxton, W (1991) The Limits of Expert Performance Using Hierarchic Marking Menus, Proc. ACM Human Factors in Computing Systems, INTERCHI'93, Amsterdam., pp.482-487, ACM.
Krueger, M (1983) Artificial Reality, Addison-Wesley, 1991.
Krueger, M. (1985) VIDEOPLACE: A Report from the Artificial Reality Laboratory, Leonardo, 18(3):145-151, 1985.
Myers, M. (1992) A brief history of human-computer interaction technology, ACM interactions , 5(2):44-54, march/april 1998.
Nelson, T. (1992) Literary Machines 93.1. Sausolito: Mindful Press, 1992.
Perkins, R., Keller, D.S. & Ludolph, F (1997) Inventing the Lisa User Interface, ACM Interactions, jan-Feb 1997, 41-53.
Raskin, J. (2000) The Humane Interface, Addison Wesley, 2000.
Smith, D.C., et al (1982) The Star User Interface: an Overview, in Proceedings of the 1982 National Computer Conference. 1982. AFIPS. pp. 515-528.
Sutherland, I.E. (1963) SketchPad: A Man-Machine Graphical Communication System, in AFIPS Spring Joint Computer Conference, 23. pp. 329-346.
Weiser, M. (1991) The Computer for the Twenty-First Century, Scientific American, 265(3):94-104, September 1991.
Wellner, P., Gold, R. & Mackay, W. (1993) Special issue on computer-augmented environments, Communications of the ACM , 36(7), July 1993.