MODÉLISATION D'UN AGENT AUTONOME : Approche Constructiviste de l'Architecture de Contrôle et de la Représentation des Connaissances THÈSE présentée à. la Faculté des sciences, pour obtenir le grade de Docteur es sciences, par Miguel Rodriguez UNIVERSITÉ DE NEUCHÂTEL Institut d'Informatique et d'Intelligence Artificielle rue Emile-Argand 11 2007 Neuchâtel, Suisse IMPRIMATUR POUR LA THÈSE M.Q4.él.is.atipn.>4^un...agent...autQnome.:....appx.oche.......... constr.uc.ti.vis.te...de...1.'.architecture ..de...contrôle. et-.de.-la..représentation..des-connaissances........ de Monsieur...Miguel...Rodriguez UNIVERSITÉ DE NEUCHÂTEL FACULTÉ DES SCIENCES La Faculté des sciences de l'Université de Neuchàtel sur le rapport des membres du jury, Messieurs; J.-P..v...Müllerr p, _j# grard, H.-H. Nägeli, ^^....Bourgine:...lM^.9.^yZ?.^.is).....et..Y.. De^azeau.............. (Grenoble)........................................................................................................... autorise l'impression de la présente thèse. Neuchàtel, le ...29...septenúQre....l994.............................................. Le doyen^ H.-H. Nägeli Remerciements Je tiens à remercier toutes les personnes qui, par leur participation et leurs encouragements, m'ont permis de mener à bonne fin ce travail de thèse. En premier lieu, le Professeur Jean-Pierre MÜLLER, mon directeur de thèse, qui m'a offert un cadre de travail des plus favorables et m'a fait bénéficier de la qualité de son encadrement et de la pertinence de ses conseils tout au long de ces quatre années de recherche. Monsieur Paul BOURGINE, responsable du Laboratoire de Vie et d'Intelligence Artificielle du CEMAGREF (Centre National du Machinisme Agricole, du Génie Rural, des Eaux et des Forêts- Paris), pour toutes les conversations enrichissantes que nous avons eues et pour l'intérêt qu'il démontre envers mon travail en acceptant de l'étudier et d'en être rapporteur. Monsieur Yves DEMAZEAU, chargé de recherches au Laboratoire d'Informatique Fondamen- tale et d'Intelligence Artificielle du CNRS (LIFIA, Grenoble), pour avoir également accepté d'être rapporteur et pour la sympathie qu'il m'a toujours témoignée lors de nos rencontres. Le Professeur Pierre-Jean Erard, de l'Institut d'Informatique et Intelligence Artificielle (IIIA) de l'Université de Neuchâtel, pour avoir accepté d'être membre du jury et pour les occasions qu'il m'a données d'élargir ma réflexion dans des domaines contigus à mon sujet de thèse. Le Professeur Hans-Heinrich NÄGELI, de PIIIA, pour avoir également accepté d'être mem- bre du jury et dont Ia critique constructive a toujours été bénéfique. D'autre part, j'associe à la réussite de ce travail mon compagnon de recherche Yoel GaT qui, par les longues discussions que nous avons eues, a partagé une grande partie de mes soucis et de mes joies. Merci à toute l'équipe de l'Institut de Microtechnique de l'Université de Neuchâtel ayant collaboré dans le cadre du projet MARS, à savoir: François TiÈCHE, Claudio Facchi- netti, Gilbert Maître, Fabrice Chantemargue, Heinz Hügli et Jean-Pierre Amman. De même, je ne saurais apprécier à sa juste valeur l'apport de Miriam Scaglione de par ses compétences en sciences cognitives et ses qualités humaines. Merci également à tous les assistants et chercheurs de l'IIIA pour leur support technique, scientifique et moral. Mon amitié à Philippe et Malika pour leurs encouragements réguliers, alors même que tout restait encore à faire. Ma plus profonde reconnaissance à mes parents qui m'ont donné la possibilité d'étudier et m'ont enseigné, de la façon la plus naturelle qui soit, à travers l'exemple, les bienfaits de la régularité et de la persévérance. Enfin, Mary-Tere, mon épouse, qui par son optimisme et sa patience a su me donner quo- tidiennement la sérénité et la force nécessaires à l'aboutissement de cette thèse. Ce travail est en grande partie le sien. Je le dédie à elle et à l'enfant qui va naître. Marin, le 4 mai 1994. Modélisation d'un agent autonome il Table des matières 1 Introduction générale 1 1.1 Préambule....................................... 1 1.2 Contexte........................................ 1 1.3 Motivations et démarche............................... 2 1.4 Problématique abordée................................ 2 1.4.1 Architectures de systèmes autonomes ................... 3 1.4.2 Représentation des connaissances...................... 3 1.4.3 Remarque................................... 4 1.5 L'autonomie et ses multiples facettes........................ 4 1.5.1 Un point de vue externe à l'agent...................... 4 1.5.2 Un point de vue interne à l'agent...................... 6 1.5.3 Discussion................................... 10 1.6 Cadre conceptuel................................... 11 1.6.1 Architecture: holisme et synthèse...................... 12 1.6.2 Représentation: constructivisme et non-objectivisme........... 12 1.7 Contributions..................................... 13 1.8 Plan de thèse..................................... 14 1.8.1 Partie I: L'autonomie en IA; un état de l'art ............... 15 1.8.2 Partie II: Un modèle d'agent autonome .................. 15 1 L'autonomie en Intelligence Artificielle 17 2 L'autonomie par le raisonnement 19 2.1 Introduction...................................... 19 2.2 Les fondements du courant cognitiviste en IA................... 19 2.3 L'architecture fonctionnelle............................. 20 2.4 La représentation du monde............................. 21 2.5 Le raisonnement en IA................................ 23 2.6 La génération de plans d'actions .......................... 23 2.7 Conclusion ...................................... 31 3 L'autonomie par l'action 33 3.1 Introduction...................................... 33 3.2 Les fondements du comportementalisme...................... 34 3.3 La problématique................................... 35 3.4 Cinq architectures de contrôle............................ 36 3.5 Le contrôle par priorités............................... 39 3.5.1 La subsumpiion architecture de Brooks................... 39 3.5.2 Le système Pengi d'Agre et Chapman................... 44 3.5.3 Commentaires ................................ 46 3.6 Le contrôle par fusion................................ 46 3.6.1 Fusion comportementale: Anderson et Donath............... 47 3.6.2 Fusion de buts: les plans internés de Payton................ 50 3.6.3 Commentaires ................................ 52 3.7 Le contrôle par compétition............................. 53 ih Modélisation d'un agent autonome 3.7.1 Compétition d'opérateurs STRIPS: Pattie Maes.............. 54 3.7.2 Compétition de pseudo-neurones: l'Aplysia de Beer............ 57 3.7.3 Commentaires ................................ 62 3.8 Le contrôle connexionniste.............................. 62 3.8.1 Généralités.................................. 63 3.8-2 Les réseaux de neurones............................ 65 3.8.3 La morphodynamique............................ 68 3.8.4 Commentaires................................ 70 3.9 Conclusion ...................................... 70 4 Approches hybrides 73 4.1 Introduction...................................... 73 4.2 Problématique .................................... 74 4.3 Solutions proposées.................................. 75 4.4 L'approche top-down de Ron Arkin......................... 76 4.5 L'approche botiom-up de Maja Mataric....................... 78 4.6 Les schemes de Piaget repris par Drescher..................... 81 4.7 Conclusion ...................................... 82 II Un modèle d'agent autonome 85 5 ARCO: une architecture d'agent autonome 91 5.1 Les trois niveaux d'abstraction ........................... 91 5.2 Des dynamiques emboîtées.............................. 92 5.3 Propriétés de l'architecture............................. 93 5.4 Implantation distribuée ............................... 94 5.5 Commentaires..................................... 95 6 Le niveau physique 97 6.1 Introduction...................................... 97 6.2 Les capteurs...................................... 97 6.3 Capteurs et autonomie................................ 100 6.4 Les effecteurs..................................... 100 6.5 Effecteurs et autonomie............................... 101 6.6 La communication.................................. 101 6.7 Commentaires..................................... 101 7 Le niveau comportemental 105 7.1 Nature de l'activité.................................. 105 7.1.1 Le comportement, le réflexe et l'instinct.................. 105 7.1-2 Une activité instinctive ........................... 106 7.1.3 Capacités innées et capacités acquises................... 106 7.2 Un langage de description.............................. 107 7.2.1 Caractérisation des boucles sensori-motrices................ 107 7.2.2 Une formalisation de l'activité ....................... 108 7.3 Remarques...................................... 108 7.3.1 Le choix des stimuli pertinents....................... 108 7.3-2 Intensité de stimulation: dichotomique ou multi-valuée.......... 109 7.4 Illustration...................................... 109 7.4.1 Quatre instincts simples.......................... . 110 7.4.2 Formalisation de l'exemple ......................... 111 7.4.3 Mesure combinatoire de l'espace sensori-moteur de l'agent........ 111 7.4.4 L'environnement physique et environnement sensoriel .......... 111 IV Tabie des matières 7.5 Discussion....................................... 112 8 Le niveau cognitif 113 8.1 Introduction...................................... 113 8.2 L'architecture cognitive............................... 113 8.2.1 Sa fonction.................................. 113 8.2.2 Sa structure.................................. 114 8.3 La connaissance: introduction............................ 115 8.4 Concepts et terminologie............................... 115 8.4.1 Cognition de bas niveau et cognition de haut niveau........... 115 8.4.2 Représentations objectivistes et non-objectivistes............. 116 8.5 Position adoptée................................... 116 8.5.1 Approche non-objectiviste et cognition de bas niveau........... 116 8.5.2 Une approche synthétique de la connaissance............... 117 8.6 La problématique abordée.............................. 118 8.7 Solutions apportées.................................. 119 8.7.1 Le vécu sensori-moteur comme unique réalité............... 119 8.7.2 Représentation de la topologie de l'interaction............... 121 8.7.3 Déterminisme et ambiguïté......................... 123 8.7.4 Optimisation................................. 125 8.8 Quelques propriétés ................................. 125 8.8.1 Représentation de l'interaction et du monde................ 126 8.8.2 Une nouvelle nature symbolique ...................... 128 8.8.3 Perspectives.................................. 128 8.9 Résumé........................................ 129 9 Les processus cognitifs 131 9.1 Introduction...................................... 131 9.2 L'interprétation.................................... 133 9.2.1 Concepts et terminologie .......................... 133 9.2.2 Une approche concrète............................ 134 9.2.3 Commentaires ................................ 137 9.3 L'apprentissage.................................... 138 9.3.1 Concepts et terminologie .......................... 138 9.3.2 Une approche concrète............................ 140 9.3.3 Commentaires ................................ 144 9.4 La motivation ..................................... 146 9.4.1 Concepts et terminologie .......................... 146 9.4.2 Une approche concrète............................ 147 9.4.3 Commentaires ................................ 152 9.5 La fonctionnalisation................................. 154 9.5.1 Fonctionnalisation générale......................... 154 9.5.2 Fonctionnalisations partielles........................ 154 9.5.3 Commentaires ................................ 156 10 Expérimentation 159 10.1 Spécifications..................................... 159 10.1.1 L'agent cognitif................................ 159 10.1.2 L'agent comportemental........................... 160 10.1.3 Le milieu................................... 160 10.1.4 Les besoins de l'agent............................ 161 10.1.5 Environnement d'expérimentation ..................... 161 10.2 Phases d'expérimentation.............................. 163 10.3 L'apprentissage.................................... 163 i V Modélisation d'un agent autonome 10.3.1 Observations................................. 164 10.4 La fonctionnalisation................................. 164 10.4.1 Observations................................. 165 10.5 Commentaires..................................... 165 11 Conclusion 167 11.1 Bilan.........................;................ 167 11.2 Comparaisons avec l'état de l'art.......................... 168 11.3 Perspectives...................................... 169 Vl 1 Introduction générale 1.1 Préambule L'Homme s'est, de tous temps, penché sur les principes régissant la cognition. Il s'est aventuré dans l'énoncé de modèles spécifiques qui, de par leurs imperfections, ont stimulé la réflexion et ont fortement influencé toute ia tradition intellectuelle occidentale. D'où provient la connaissance? En quoi consiste-t-elle? Comment est-elle représentée dans la pensée humaine? Depuis l'Antiquité, les civilisations ont successivement développé, affermi, régénéré ou bou- leversé les disciplines liées à l'étude de l'Homme et de la Connaissance. Elles ont proposé des théories et des méthodologies que le temps a permis de juger. De nos jours, une partie de la communauté scientifique, provenant de disciplines très di- verses (la philosophie, la psychologie, la linguistique, l'anthropologie, les neurosciences et l'in- telligence artificielle) remonte à ces mêmes préoccupations et se reconnaît dans l'esprit de ce qui est appelé les sciences cognitives1. Muni d'une technologie inconcevable il y a encore un siècle, ce nouveau mouvement, tendant à l'interdisciplinarité, reprend les questions fondamen- tales liées à la connaissance afin de leur apporter de nouvelles réponses en les reformulant pour les adapter au contexte de notre temps ou en les abandonnant si elles ne sont plus dignes d'intérêt. Dans cette démarche ambitieuse, l'avènement de l'informatique a joué un rôle essentiel par la nouvelle conception des mécanismes de calcul, de raisonnement et de pensée qu'elle a intro- duits. Paradoxalement, l'ordinateur a également encadré et fortement dirigé les réflexions; les sciences cognitives, fortes de leurs expériences, en ont pris conscience et tendent à reconsidérer la place de l'informatique dans l'étude de la cognition. Enfin l'intelligence artificielle (IA), la plus jeune des sciences cognitives, est née de la conjonction des préoccupations philosophiques et de la maturité technologique. Elle a, dans la seconde moitié du XXème siècle, stimulé la recherche et introduit de nouvelles interrogations liées aux capacités cognitives de systèmes artificiels construits par l'Homme. 1.2 Contexte Des modèles partiels ou complets de systèmes complexes apparaissent aussi bien en sciences pures qu'en sciences humaines, selon que l'objet d'étude soit un système artificiel (artefact) ou un système vivant (organisme). Les sciences cognitives, de par leur intérêt dans les deux types de systèmes, sont particulièrement propices au développement des travaux de modélisation de l'intelligence, de l'autonomie et de la vie; les démarches interdisciplinaires sont de plus en plus fécondes et laissent entrevoir des développements importants pour les années à venir. Le travail présenté dans ce mémoire est un modèle d'agent autonome engendré dans le cadre de l'IA. Notre aspiration a été d'élargir notre réflexion au cadre des sciences cognitives. ^'expression "sciences de la cognition" est plus appropriée (comme on dirait sciences de la physique). Nous utiliserons malgré tout le terme plus concis, en nous référant généralement au sujet commun de ces sciences (la cognition) plutôt qu'à la fédération d'un ensemble de disciplines élues. 1 Modélisation d'un agent autonome Ainsi, les sources de réflexion liées au thème de l'autonomie ont été très diverses: d'artefacts rappelant certains insectes à des travaux en éthologie sur la fourmi ou le canard, en passant par la botanique ou la psychologie de l'enfant. Par contre, nous avons précisément choisi le domaine d'application: il s'agit de la robotique mobile. Ainsi, lorsque nous parlons d'agent, nous signifions "un artefact doté de capacités de perception et d'action, un robot mobile en particulier". Ce domaine d'application nous a permis de valider le modèle proposé sur différentes plates-formes de robots mobiles. 1.3 Motivations et démarche La recherche en IA poursuit essentiellement deux buts qui apparaissent très clairement en toile de fond de notre travail: l'un est scientifique (comprendre), l'autre est pragmatique (construire). • Le but scientifique est d'enrichir notre compréhension de phénomènes tels que l'intelli- gence, l'autonomie ou la vie. En tant qu'êtres vivants, nous observons et sommes menés à donner un sens aux phéno- mènes liés à la vie. En tant que chercheurs, nous émettons des hypothèses et construisons des modèles de ces phénomènes que nous validons en simulation ou sur des artefacts. • Le but pragmatique est de construire de tels artefacts, exhibant certaines caractéristiques de ces phénomènes, afin de les rendre plus conviviaux, utiles et efficaces. L'amélioration de la qualité de vie de la société en est certainement la perspective la plus louable, en marge d'applications plus déplorables et difficilement evitables. Ces deux facettes sont complémentaires et fortement dépendantes; tout premier artefact est le fruit d'un modèle abstrait, résultat d'une première réflexion. Cette réflexion s'enrichit lors du processus de construction qui Suscite de nouvelles questions et aboutit à un raffinement du modèle et à la construction de nouvelles générations d'artefacts. Le processus d'ensemble est cyclique et auto-enrichissant. Notre travail de thèse est le fruit de plusieurs cycles de cette démarche globale. 1.4 Problématique abordée Depuis l'apparition2 de TIA, la résolution de problèmes (et en particulier la génération de plans d'actions) y occupe une place privilégiée. Les algorithmes proposés dans ce domaine par I1IA dite cognitiviste démontrent des capacités de raisonnement global basées sur des représentations symboliques qui font d'une machine programmée une machine "intelligente" aux yeux de l'ob- servateur. Néanmoins, malgré la variété des travaux réalisés dans ce domaine, les systèmes produits présentent de fortes limitations (temps de réponses prohibitifs, manque de robustesse aux données incertaines et de flexibilité face à l'imprévu) qui rendent impossible leur utilisation pour le contrôle de systèmes devant évoluer dans des environnements complexes et dans des conditions réelles. Nous pouvons dire que ces systèmes sont "déconnectés" du monde réel. Ils sont essentiellement utilisés dans des environnements de simulation, des jeux ou des mondes extrêmement simplifiés (comme le monde des blocs) facilitant une description symbolique. Face aux limitations de l'approche cognitiviste (fonctionnelle et symbolique), les années 80 ont vu apparaître l'approche dite comportementale. Cette dernière assimile l'autonomie à la ca- pacité d'évoluer dans un univers réel (dynamique, incertain, souvent inconnu, parfois hostile). Cette approche a bouleversé le monde de l'IA car elle excelle précisément dans les conditions 2On situe traditionnellement l'apparition du terme "intelligence artificielle" durant l'été 1956, lors de la conférence du Dartmouth College, Hanover, état du New Hampshire, USA. Les fondateurs de l'IA y étaient: John McCarthy, Marvin Minsky, Herbert Simon et Allen Newell. 2 J. introduction générale limites de la génération de plans d'actions; elle introduit de nouvelles architectures de contrôle liant la perception à l'action, ce qui permet, dans les cas extrêmes, d'agir par raisonnements locaux (simples, robustes et rapides) basés sur des représentations non-symboliques (proches à la fois du signal fourni par les capteurs et des commandes envoyées aux effecteurs). Malheu- reusement, ce qui fait l'originalité de cette approche, l'abandon de représentations symboliques globales permettant de raisonner sur des tâches à long terme, constitue également sa limite; les systèmes nés de l'approche comportementale passent en effet leur temps à réagir à leur environnement et sont donc essentiellement dirigés par ce dernier. Les lacunes et surtout la complémentarité des deux approches rend naturelle l'étude de leur intégration dans un cadre plus large qui permette une nouvelle compréhension de l'autonomie et favorise ainsi la construction d'artefacts plus robustes, adaptables et polyvalents. C'est la problématique générale que nous abordons dans ce travail. Notre acception de la notion d'autonomie est fortement liée à ce choix. Elle est basée sur les deux caractéristiques complémentaires qui ont tendance à s'exclure mutuellement: l'ac- tion située et le choix à long terme. De façon plus générale, l'activité et le raisonnement, le phénomène local et le phénomène global. Ce désir d'intégration nous a mené à l'étude de deux domaines clés en IA et dans les- quels notre travail apporte sa contribution: les architectures de systèmes autonomes et la représentation des connaissances. 1.4.1 Architectures de systèmes autonomes Un premier aspect du travail nous plongera dans les préoccupations de conception d'agents autonomes. Il s'agit, dans notre cas, d'étudier et valider une architecture de contrôle qui soit générale, qui permette l'intégration naturelle des approches cognitiviste et comportementaliste en conservant les qualités de l'une et de l'autre. Pour cela, nous proposons une architecture en trois niveaux d'abstraction: physique, com- portemental et cognitif. Le premier niveau englobe les constituants matériels de l'agent. Le second niveau regroupe les capacités sensorimotrices de l'agent et fournit les propriétés de l'approche comportementale (en particulier, l'aspect situé). Enfin, le troisième niveau englobe les capacités de gestion des connaissances et de décision. Il fournit les propriétés de l'approche classique (en particulier, l'aspect global, l'orientation à long terme). Le mécanisme de contrôle offert par cette architecture fournit un outil à la fois simple et général au problème de la sélection d'actions3. Ce problème est central à la propriété d'auto- nomie. 1.4.2 Représentation des connaissances Le deuxième aspect du travail aura une préoccupation sémiotique; nous traiterons de l'usage et de l'interprétation des signes dans notre choix représentationnel. En particulier, il s'agira de déterminer l'objet, Ie rôle et la nature de la connaissance d'un agent autonome. Le cadre conceptuel dans lequel ces questions ont été abordées nous a mené à prendre pour seul objet de connaissance l'interaction monde-agent, ancrée sur les capacités comportemen- tales de l'agent. Ce choix rejette toute référence à une "réalité objective" externe à l'agent. Nous adoptons une position non-objectiviste (et constructiviste) qui nous a permis d'aborder la cognition sous un angle insolite et prometteur. Concrètement, l'approche a permis d'extra- ire une représentation computationnelle de l'interaction sur laquelle viennent se greffer trois processus essentiels de la cognition: l'interprétation, l'apprentissage et la motivation. Ces processus et leur dynamique font apparaître des capacités cognitives fondamentales à l'autonomie telles que l'auto-organisation, le choix incessant des bonnes hypothèses en éliminant 3Problème généra! dont Toby Tyrrell propose la définition suivante: "how io choose, at each moment in time, the most appropriate out of a repertoire of possible actions" [Tyrrel93]. 3 Modélisation d'un agent autonome le superflu (abduction) et 3a structuration continue des connaissances. Nous y reviendrons en détail. Notre travail apporte donc sa contribution dans ces deux domaines: la conception et la représentation. Il nous a permis d'apprécier à quel point ils sont liés. Cette interdépendance apparaîtra au cours de l'exposé. 1.4.3 Remarque Le projet ambitieux d'aborder à la fois les sujets de l'architecture et de la représentation se reflète dans la diversité des problématiques couvertes dans cette thèse. Notre travail s'étend sur trois axes directeurs. Il va 1. de la percepiion à l'action, en modélisant les boucles sensori-motrices produisant les comportements de l'agent, 2. de la sensation à la représentation, en proposant un modèle d'abstraction et de structu- ration des connaissances de l'agent, 3. enfin, de la modélisation à l'application, en développant le modèle et en le validant dans le cadre de la robotique mobile. Chacun de ces axes représente un défi et est porteur d'intérêts scientifiques et technolo- giques à la fois. Après avoir présenté la problématique abordée par ce travail, nous allons décrire notre approche en précisant la méthodologie adoptée et le cadre conceptuel dans lequel nous nous plaçons. 1.5 L'autonomie et ses multiples facettes Qui, de nos jours, oserait avouer son incompréhension du terme autonomie? Pourtant, son sens est variable suivant le domaine dans lequel il est considéré; on parle par exemple de l'autonomie d'une voiture (rayon d'action), d'autonomie régionale (indépendance politique) ou d'autonomie biologique (viabilité). En général, un système, qu'il s'agisse d'un individu social, d'un organisme biologique, d'un artefact ou du marché monétaire, est qualifié d'autonome s'il se donne sa propre loi, ses règles de conduite, par opposition à un système kéiéronome, contrôlé de l'extérieur. C'est sous cette perspective générale que l'autonomie est devenue un sujet d'étude dans différentes disciplines des sciences cognitives. La question centrale que nous nous posons est: Quelles propriétés font qu'un agent soit ou non autonome? Le fait d'aborder cette question sous deux points de vue différents, celui de l'observateur du système et celui de son concepteur, permet de donner un nouvel éclairage à la question. 1.5.1 Un point de vue externe à l'agent L'appréciation du degré d'autonomie d'un agent est liée à un observateur particulier. Le point de vue est, dans ce cas, externe à l'agent. Le jugement dépendra du passé de l'observateur, de ses connaissances, de ses perturbations, de ses intentions. En tant que spectateur, c'est ce point de vue externe, propre à l'observateur, que nous adoptons dans l'analyse des capacités de l'agent. 4 1. Introduction générale Les critères d'évaluation Quels critères appliquons-nous dans notre jugement de l'autonomie? U serait illusoire de vouloir caractériser objectivement l'autonomie d'un point de vue ex- terne à l'agent. Pourtant, son comportement global doit bien satisfaire certaines contraintes plus ou moins implicites aux yeux de l'observateur qui le qualifie d'autonome. Dans le but de faciliter notre jugement, en tant qu'observateurs, nous proposons trois critères d'évaluation qui sont A. préserver (seul) son intégrité physique et énergétique [survie]. B. satisfaire (seul) les tâches qui lui sont attribuées dans la société [rôle social]. C. s'améliorer (seul) au cours du temps [évolution]. L'unique objectif des critères d'évaluation est de pouvoir juger du degré d'autonomie de notre agent4. D'un point de vue externe, nous considérons que l'agent autonome est celui qui exhibe des comportements satisfaisant ces critères d'évaluation. Nous nous en servirons régulièrement dans la suite. La survie Le critère de survie est essentiel pour l'agent; il est peu probable que l'on qualifie d'autonome un agent qui n'évite pas les chocs ou qui ne prête pas attention à l'état de ses ressources énergétiques et qui, de ce fait, tombe en panne au cours d'une mission. Malgré le caractère élémentaire d'un tel critère, cette première tentative de caractérisation permet d'illustrer le risque d'une telle démarche et de limiter l'application de ces critères d'évaluation à un agent artificiel et individuel (n'appartenant pas à une société d'agents). Le fait d'aborder des agents sociaux, par exemple, conduirait à considérer d'autres critères d'évaluation. Le comportement altruiste5 de certains insectes sociaux va par exemple à !'encontre du critère de survie. Pourtant, les fourmis et les abeilles sont de bons exemples d'organismes au- tonomes. A travers ce type de comportement particulier, l'individu semble se sacrifier, négliger son intégrité physique, pour la survie de la collectivité. Ceci peut être vu comme une marque d'autonomie plus large et que nous n'aborderons pas dans ce travail: l'autonomie collective. Le rôle social Le critère lié au rôle social est un critère d'utilité par rapport à l'observateur du système. Un agent sera généralement conçu dans le but de réaliser un type de mission. Il faut qu'il puisse réaliser sa tâche par lui-même et qu'il démontre sa tendance à satisfaire ce pourquoi il a été construit. L'IA, dans une volonté de contribution technologique, s'est généralement limitée à cet aspect utilitariste de l'autonomie. Pourtant, dans une perspective de compréhension du phé- nomène, ce critère est certainement le moins important des trois critères énoncés6. *Nous parlerons de survie, rôle social et évolution dans le texte en gardant à l'esprit que cette terminologie est empruntée au monde du vivant et appliquée au monde de l'artificiel. b Altruisme: Par opposition à l'égoïsme, l'altruisme correspond à un souci désintéressé du bien d'autrui. Des comportements altruistes sont observables dans certaines sociétés animales où l'individu semble aller jusqu'à sacrifier sa vie pour le bien (la survie) de la colonie. 6Soeiologiquement, il reste néanmoins l'élément le plus conflictuel dans toute application d'automatisation robotique. 5 Modélisation d'un agent autonome L'évolution La présence des deux premiers critères pourrait suffire à une caractérisation de l'autonomie. Or, le critère d'évolution est décisif. Lorsque les conditions externes changent, que la nature de l'environnement est différente, l'observateur s'attend à ce que l'agent puisse s'adapter aux nouvelles conditions. Dès lors, ce critère est, dans une certaine mesure, un complément essentiel au critère de survie. Enfin, précisons que le type d'évolution considéré ne porte que sur un individu; par consé- quent, nous n'abordons que l'évolution ontogénétique7 de l'agent. 1.5.2 Un point de vue interne à Pagent Sous une perspective opposée, le phénomène d'autonomie est lié à lastructure et à l'organisation interne de l'agent. Ce sont l'architecture et Ia dynamique interne qui font de l'agent ce qu'il est, indépendamment du fait d'être observé ou non. En tant que concepteur, c'est ce point de vue interne que nous adoptons dans la démarche de modélisation. Dynamique événementielle et dynamique structurelle La question est ici: Par quelles lois internes sont contrôlés les comportements d'un agent auto- nome? Cette question s'inscrit dans le cadre plus large de l'étude de l'origine des phénomènes qui peut être abordée de façons très variées. Les attitudes suivantes sont certainement deux extrêmes possibles: • D'une part, le causalisme affirme que la cause d'un phénomène (le comportement auto- nome, par exemple) se trouve dans le passé; dans un système causal, l'état présent est l'effet de ce qui le précède et la cause de ce qui le suivra. • D'autre part, le finalisme affirme que l'essence d'un phénomène est dans le futur; un système finaliste est organisé selon un plan, un but ultime et n'agit qu'en fonction d'une fin telle que la tendance à la perfection ou la volonté divine. Ces deux attitudes se penchent sur l'aspect événementiel de la dynamique des systèmes sans s'intéresser à leur structure interne. Celle-ci est implicitement considérée comme étant donnée par avance et essentiellement figée. Ainsi, leur formulation ne tend pas à se prononcer sur une localisation de l'origine du phénomène comme étant externe ou interne au système. Ces approches conduisent à un déterminisme événementiel, dirigé de l'extérieur du système. Par contre, les théories des systèmes1 et du vivant tendent à considérer la structure in- terne des systèmes; elles adoptent une position évolutionniste, portant explicitement sur la dynamique de cette structure. Dans cette attitude, • le comportement est lié à certaines propriétés favorisant la viabilité du système. Ces propriétés (homéostasie, auto-production, capacité d'anticipation) émergent de l'histoire du système et évoluent avec elle. Cette dernière position situe l'origine des phénomènes, qu'elle soit causale ou finaliste, au niveau de l'évolution de la structure interne dont la propriété décisive est sa co-évolution avec la dynamique du système dans son environnement. C'est de cette structure évolutive que découle la dynamique événementielle du système. L'approche culmine dans la notion de téléonomie qui correspond à la "propriété direction- nelle de l'organisation logique d'un système telle que tout changement semble viser une cible 7 Ontogenèse: En biologie, l'ontogenèse couvre la série de transformations subies par l'individu depuis la fécondation de l'oeuf jusqu'à l'être achevé. La Phylogenese, elle, couvre l'évolution à travers les générations. 6 1. Introduction générale dans le futur" [Schwartz92], A tout instant, l'organisation interne d'un système téléologique est le résultat de son passé (causalité structurelle) et cette organisation contient l'objectif à long terme du système (finalité structurelle). Ainsi, la capacité d'anticipation, d'orientation vers un but (explicite ou implicite), est un héritage du passé, ancré dans la structure évolutive du système. Ces différentes attitudes soulignent l'influence du passé sur le présent, la nécessité de maîtriser le futur pour éliminer les doutes du présent, enfin, l'importance de l'évolution st- ructurelle dans le but de maintenir une viabilité sans cesse remise en question. Ainsi, le modèle d'agent autonome se doit de considérer le passé, le présent et le futur à la fois; le passé est interprété, le présent est traité et le futur est anticipé par le système. Autopoièse et autonomie Différents modèles ont abordé l'autonomie d'un point de vue interne. Nous allons introduire celui proposé par Humberto Maturana et Francisco Várela qui est actuellement le modèle le plus complet et concis que nous connaissions. L'autonomie est une propriété fondamentale des systèmes vivants. Elle constitue donc un sujet central en biologie. C'est en s'appuyant sur leurs études biologiques, mais dans la perspec- tive des sciences cognitives, que Humberto Maturana et Francisco Várela ont proposé, depuis 1972, les concepts d'autopoièse [Maturana-Varela72] et de clôture opérationnelle [Varela79] comme théorie générale des phénomènes liés à la vie et à l'autonomie. Ces concepts sont construits sur la base de notions telles que l'auto-production, l'identité, l'interaction et l'organisation. Plus précisément, les auteurs donnent la définition suivante de !'autopoièse: Un système auiopoiéiique est un système organisé en un réseau de processus qui produisent (transforment et détruisent) les composants qui: (i) régénèrent et réalisent continuellement, par leurs interactions et transforma- tions, le réseau de processus qui les a produits; et (U) constituent le système en tant qu'unité concrète dans l'espace où ils existent (les composants), en spécifiant le domaine topologique où le système se réalise en tant que réseau. En paraphrasant les auteurs, un système autopoiétique est donc une sorte de machine homéostatique8 ayant la particularité de prendre pour variable à maintenir constante sa propre organisation! Dans ce sens, une organisation autopoiétique implique un réseau de processus qui se consti- tue en tant qu'unité par le simple fait qu'il est régénéré par ses propres processus. Enfin, la notion d'identité se résume à l'existence en tant qu'unité dans un espace déli- mité par le propre système. En effet, les auteurs affirment que chaque fois que l'organisation autopoiétique est réalisée en un système concret dans un espace particulier, le domaine de défor- mations auxquelles le système résiste sans perdre son identité tout en maintenant constante son organisation correspond au domaine des changements dans lesquels il existe en tant qu'unité. 8 Homéostasie: Tendance générale d'un organisme qui vise à maintenir constantes les conditions d'équilibre de son milieu. Ce terme, emprunté à la physiologie, est synonyme d'auto-régulation ou auto-stabilisation en sciences exactes. Ainsi, tout système dont la sortie est stable et indépendante des variations de l'entrée est dit homéostatique. Les travaux de la cybernétique ont montré qu'une boucle de rétroaction négative (liaison circulaire où la variation de la sortie va dans le sens opposé de celle de l'entrée) pouvait posséder la propriété d'homéostasie si elle satisfaisait certaines conditions de stabilité. Ainsi, bien que pour un observateur externe tout semble prouver que le système possède un but, une consigne ou une finalité qui est celle de maintenir sa sortie stable, en fait, seule la structure interne de ce système est l'origine de la propriété externe observable. Cette digression permet de reconsidérer la précarité des explications tirées de l'observation et d'illustrer l'importance de la structure interne d'un système sur le comportement apparemment téléologique qu'il peut démontrer aux yeux de l'observateur externe. 7 Modélisation d'un agent autonome Si l'autopoièse aspire à expliquer les caractéristiques fondamentales de la vie, le concept de clôture opérationnelle aspire lui à caractériser la classe englobante des systèmes autonomes. Ainsi, d'après Várela, un système est opéraîionnellemenl clos si son organisation est caractérisée par des processus; (i) dépendant récursivement les uns des autres pour la génération et la réalisation des processus eux-mêmes; et (ii) constituant le système comme une unité reconnaissable dans l'espace où les processus existent. Cette notion insiste sur la dynamique auto-productrice interne au système. Pourtant, la propriété de clôture opérationnelle n'implique pas un isolement et une indépendance du système par rapport à son milieu. Les influences externes restent nécessaires, elles poussent le système à se restructurer de façon à rétablir son équilibre interne. Dans ce sens, une organisation ouverte9 (caractéristique d'un système allopoiétique10) pro- duit autre chose que sa propre organisation. Les lois du système sont, dans ce cas, externes au produit du système. Par contre, si le produit est l'organisation du système lui-même, les lois de production sont inhérentes au produit. Comme le fait remarquer George Kampis [Kampis91], le produit du système est produit et producteur à la fois. Ainsi, d'un point de vue architectural, la notion de clôture opérationnelle évite de perce- voir l'agent autonome uniquement comme un système d'entrées-sorties et pousse à considérer l'évolution simultanée du système et de son environnement par de nouveaux types de couplages (voir [DelTuant92]). Tout travail traitant d'autonomie se devrait de mentionner les concepts introduits par Maturana et Várela. Ils constituent un apport fondamental à la notion d'autonomie (biologique) et plus généralement à la réflexion et à la méthodologie dans le cadre des sciences cognitives. En ce qui nous concerne, bien que la théorie de l'autopoièse n'aie pas inspiré notre travail, elle en partage certaines des hypothèses de travail et la plupart des propriétés du modèle résultant. L'IA et l'autonomie Nous allons maintenant nous intéresser à la notion d'autonomie telle qu'elle a été abordée en IA depuis les années cinquante. Le terme "autonomie" a successivement été synonyme de "capacité de raisonnement" dans le paradigme cognitiviste, puis de "capacité d'action" dans le paradigme comportementaliste. Ce n'est que récemment, dans le cadre des sciences cognitives, que l'autonomie a été abordée sous de nouvelles perspectives. Nous allons introduire, en guise de préambule à notre architecture, les éléments-clés de notre approche interne à l'autonomie: l'activité, le raisonnement et leur intégration à travers la notion de fonctionnalisation. L'activité. La nature intrinsèque de tout agent est l'action; il est plongé dans un environne- ment avec lequel il ne peut éviter d'interagir. L'action d'agents en environnement réel (activité dans la suite) est devenue l'objet d'étude d'une partie de la communauté IA qui, tout en s'inspirant des sciences de la vie, a généralement adopté la robotique mobile comme domaine d'application. Ces travaux ont contribué à valoriser le paradigme d'action située11 comme solution au problème de l'activité. Leur traitement de La systémique qualifie un système d'ouvert s'il échange de l'énergie et de la matière avec son environnement. Un système fermé n'échange que de l'énergie. Enfin, un système isolé n'échange rien avec son milieu (en fait, ¡1 n'en existe pas dans la nature; l'objet le plus "¡solé" est certainement la bouteille Thermos). 10Antonyme d'autopoiétique. 11 D'après Lucy Suchman [Suchman87]: "Actions taken in the context of particular, concrete circumstances". 8 1. Introduction générale l'action, sous la forme de stimulus-réponse, est localisé dans l'espace et dans le temps; seul est traité l'environnement immédiat, observé à l'instant présent. Ce modèle d'action facilite notamment le traitement de l'imprévu lié à toute interaction avec un environnement. Les travaux de ce paradigme ont invariablement débouché sur des systèmes sensori-moteurs, donnant lieu à des agents situés, souvent inspirés du monde animal (insectes en particulier). Le raisonnement. Le raisonnement est, avec la représentation, ìe sujet central du paradigme cognitiviste, La résolution de problèmes (en particulier la génération de plans d'actions, plus proche des applications robotiques) se résume grossièrement à un processus de recherche dans un espace de solutions. Invariablement, les formalismes logiques utilisés et les fortes exigences formelles (consistance, complétude) imposées par FIA cognitiviste font que la taille de l'espace de recherche croisse exponentiellement avec celle du problème traité. De ce fait, les programmes nés du paradigme cognitiviste s'épuisent à gérer l'explosion combinatoire à travers des heuris- tiques et des mécanismes de contrôle spécifiques. Enfin, la source d'inspiration des modèles du raisonnement est généralement l'Etre Humain. Malgré les déficiences des solutions proposées par ce paradigme (voir chapitre 2), le rai- sonnement introduit des capacités essentielles telles que l'explication (remémoration du passé), le choix entre différentes possibilités (traitement du présent) et la prévision (anticipation sur le futur). Cette dernière capacité, l'anticipation, nous semble être une caractéristique essentielle à l'autonomie dans le sens où elle permet d'introduire une orientation à long terme, par opposition à la nature située des agents comportementaux. Activité et raisonnement: vers une intégration. Les systèmes offerts par ces deux para- digmes - cognitiviste et comportementaliste - apparaissent opposés dans le schéma de la figure 1.1. • Les agents situés maîtrisent l'activité dans des environnements réels mais possèdent de très (trop) faibles capacités de raisonnement (souvent nulles). • Les programmes de planification démontrent de bonnes capacités de raisonnement mais sont essentiellement utilisés en simulation de par leur incapacité à satisfaire des temps de réponse raisonnables. degré de raisonnement (délibération) J k Planification Agents situés —? complexité de l'environnement traité (réactivité) Figure 1.1 : Raisonnement et activité. Les premiers systèmes sont situés (comportements causaux, réactifs), les seconds sont orientés-buts (comportements finalisés, délibératifs). Notre conviction est que l'intégration des ces deux propriétés apparemment antagonistes est, d'un point de vue interne, la base d'une propriété observable d'autonomie. 9 Modélisation d'un agent autonome La fonctionnalisation. La notion de fonction nal isation que nous allons spécifier aspire à intégrer les facultés d'activité et de raisonnement. Dans le paradigme com portement aliste, une boucle sensori-motrice possède certaines pro- priétés intrinsèques, essentiellement liées à sa structure interne: on parle par exemple de réactivité, d'adaptabilité, d'homéostasie. Par contre, dans le cadre du système qui l'englobe, la fonction réalisée par cette boucle sensori-motrice n'est pas une propriété de la boucle; cette fonction ne lui appartient pas, c'est le système englobant qui la suscite et l'exploite. Une autre boucle sensori-motrice, possédant d'autres propriétés, pourrait peut-être satisfaire la même fonction pour le système englobant. Ainsi, d'un point de vue interne à l'agent, l'autonomie dépend de la faculté d'utiliser les propriétés des capacités d'action pour réaliser les fonctions essentielles à la satisfaction des critères d'évaluation (survie, rôle social et évolution). C'est là une aptitude à la fois élémentaire et générale qui nous paraît être essentielle à l'autonomie. Dès lors, nous appelons fonctionnalisation l'exploitation (choix et organisation) contextuelle et systématique des propriétés d'action par rapport aux critères d'évaluation. Tout choix de l'agent doit tendre à fonctionnaliser ses capacités en vue de satisfaire les critères de survie, rôle social et évolution, par un asservissement adéquat de l'activité. Ainsi, si l'activité est le support de la fonctionnalisation, le raisonnement en est le moteur. De plus, l'agent ne peut se limiter à un raisonnement à court terme, aussi bien dans le passé que dans le futur; ni la situation courante, ni une perspective à court terme ne suffisent. Il est important que l'agent puisse raisonner à moyen et long terme, pour prévoir l'effet de ses choix et accroître l'utilité de son activité. A travers la fonctionnalisation, le raisonnement introduit une faculté d'anticipation qui vient s'ajouter au caractère situé de l'activité. Enfin, la fonctionnalisation n'étant qu'une loi d'organisation interne liée à un agent par- ticulier, elle peut s'avérer adéquate ou non. Dans un cas l'agent sera viable et autonome, dans l'autre pas. D'un point de vue interne, l'agent autonome est donc celui qui parvient à fonctionnaliser son activité de façon adéquate. Une structure évolutive. Nous avons avancé, en énonçant les critères d'évaluation, que la capacité de s'améliorer au cours du temps est une caractéristique importante de l'autonomie. D'un point de vue interne, l'agent doit pouvoir modifier sa structure logique en fonction des expériences vécues. Le fait de pouvoir se restructurer permet à l'agent de maintenir sa cohérence interne, d'améliorer l'adéquation de sa fonctionnalisation et d'aspirer ainsi aune plus grande autonomie. 1.5.3 Discussion Nous avons proposé une approche à l'autonomie selon deux points de vue; les critères d'éva- luation d'un observateur externe et les capacités de fonctionnalisation et de restructuration, internes à l'agent. Un modèle d'agent autonome est condamné à adopter un point de vue interne- Néanmoins, les critères d'évaluation restent le seul moyen pour juger l'autonomie de l'agent (adéquation de la fonctionnalisation). Remarquons au passage la similarité entre notre notion de fonctionnalisation et la notion d'enaction proposée par Várela. En argumentant sur la "redécouverte du sens commun" face à l'objectivisme et le déterminisme du courant cognitiviste en IA, Várela écrit: "La plus importante faculté de toute cognition vivante est précisément, dans une large mesure, de poser les questions pertinentes qui surgissent à chaque moment de notre vie. Elles ne sont pas prédéfinies mais enactées, on les fait-émerger sur un arrière-plan, et les critères de pertinence sont dictés par notre sens commun, d'une manière toujours contextuelle."12 [Varela88] Les termes typographies en italique le sont dans l'original. 10 J. Introduction générale A travers Ia notion de fonctionnalisation, nous abordons la même problématique de choix contextuel en tenant compte des contingences du présent, des expériences du passé et de la nécessité de satisfaire les critères d'évaluation. Ainsi, face aux difficultés rencontrées par la communauté IA dans la quête d'autonomie à travers la construction d'agents purement situés ou purement délibéra-tifs, notre travail propose un modèle d'agent ayant la capacité de fonctionnaliser (orienter à long terme et de façon évolutive) une activité de nature située. Notre objectif est d'intégrer l'activité, le raisonnement et l'évolution dans la conception d'un agent autonome13. degré de raisonnement (délibération) autonome complexité de l'environnement traité (réactivité) Figure 1.2 : Raisonnement, activité et autonomie. Enfin, globalement, notre démarche consiste à considérer des capacités de représentation et de raisonnement sur la base d'un agent comportemental. 1.6 Cadre conceptuel Tout ce qui suit repose sur la thèse d'une autonomie intrinsèquement liée à la capacité d'inté- gration de l'activité et du raisonnement. Or, si d'un point de vue temporel, l'activité et le raisonnement semblent être antagonistes lorsque l'on pense à l'Etre Humain14, cet antagonisme est renforcé lorsqu'on se situe dans le monde des systèmes artificiels; l'action et le raisonnement consomment tous deux du temps de calcul dans un programme d'ordinateur. Réaliser l'un empêche de réaliser l'autre, favoriser l'un défavorise irrémédiablement l'autre. Bien sûr, cet état de fait est fortement lié à l'archi- tecture (von Neumann) des ordinateurs que nous utilisons. Néanmoins, malgré l'architecture "connexionniste" du système nerveux humain, l'Homme semble également subir cet antago- nisme. En conception de systèmes autonomes, la solution passe certainement par une parallélisa- tion des mécanismes d'activité et de raisonnement mais cela ne suffit pas. Il faut, avant tout, simplifier aussi bien l'action que Ie raisonnement et surtout rapprocher ces deux phénomènes par une intégration adéquate. Il faudrait que l'on puisse dire "raisonner c'est agir et agir c'est raisonner" . L'un des fruits de notre travail est de pouvoir avancer la version nuancée "raisonner c'est déjà agir et agir c'est déjà raisonner", comme si l'un amorçait l'autre et réciproquement, dans un processus global auto-catalytique et fortement imbriqué. Au début de notre réflexion, aucun cadre conceptuel n'apparaissait explicitement mis à part ceux offerts par les deux courants exposés précédemment et qui sont ceux usités en IA: le cpgnitivisme et le comportementalisme. Néanmoins, au cours de l'élaboration, le plus souvent a posteriori, d'autres cadres conceptuels sont apparus. 13D'autres travaux ont récemment aborde une telle intégration. Nous en parlerons au chapitre 4. 14En effet, Ia plupart du temps on raisonne avant d'agir et on agit sans raisonner. 11 Modélisation d'un agent autonome D'un point de vue architectural, notre travail se reconnaît dans le courant holistique par opposition au réductionnisme. D'un point de vue representationnel, il se reconnaît dans le courant constructîviste par opposition au réalisme et à l'idéalisme. Ces étiquettes épistémologiques se reflètent dans les méthodologies que nous adoptons en conception et en représentation: l'approche synthétique (par opposition à analytique) en conception, l'approche non-objectiviste en représentation. Quelques précisions s'imposent. 1.6.1 Architecture: holisme et synthèse L'aspect architectural de notre travail adopte un point de vue holistique qui, méthodologique- ment, débouche sur une approche synthétique. La science occidentale repose traditionnellement sur de forts présupposés inspirés de la méthode cartésienne. D'un point de vue architectural, ces présupposés mènent de façon natu- relle au réductionnisme; un système complexe est réduit à ses composants plus simples qui sont considérés comme étant fondamentaux par rapport au système global. A l'opposé, l'approche dite holistique propose de considérer et d'étudier les systèmes dans leur globalité; le centre d'intérêt devient l'interaction entre les parties, de même que l'interaction entre le système et son environnement. Du fait de l'antagonisme activité-raisonnement et poussés par notre volonté d'intégration, c'est une vue d'ensemble que nous avons adoptée dans notre réflexion liée à la conception; afin d'étudier le phénomène général d'autonomie, nous avons "pensé" l'agent dans sa globalité. L'approche est également holistique dans le sens de la règle "le tout est plus que la somme des parties". En effet, notre architecture est plus que la simple réunion d'une couche compor- tementale "agissante" et d'une couche cognitive "pensante". C'est la dynamique, le processus circulaire généré par l'intégration de ces couches, qui fait que l'on puisse observer des propriétés d'autonomie, du type "à la fois situé et orienté buts". Il est d'usage en IA de différencier l'approche dite descendante (top down) de celle dite ascendante (bottom up) dans la modélisation de capacités intelligentes. La première est liée à la méthode d'analyse; on aborde un sujet complexe et on émet des hypothèses sur sa composition. La seconde est liée à la méthode de synthèse; étant donné un ensemble de composants, que peut-on déduire sur la totalité? Dans le cadre des architectures, on parle souvent d'approche "deliberative", respectivement "réactive". Notre travail réunit les deux aspects: réactif dans l'action et délibératif par le raisonnement. Néanmoins, la démarche globale de ce travail a adopté une approche synthé- tique. Chronologiquement, nous avons formalisé les niveaux de l'architecture de bas en haut: physique, comportemental puis cognitif. Il s'agit là d'un élément essentiel de notre travail; ancrer le raisonnement dans les capacités d'action. C'est également l'ordre dans lequel nous décrirons l'architecture proposée. 1.6.2 Représentation: constructivisme et non-objectivisme L'aspect représentationnel de notre travail adopte un point de vue constructiviste qui, métho- dologiquement, débouche sur une approche non-objectiviste. Les présupposés de l'epistemologie cartésienne apparaissent également au niveau représen- tationnel à travers l'approche réaliste; celle-ci proclame une réalité existante, objective, acces- sible et indépendante de l'esprit qui la perçoit. A l'opposé, le constructivisme15 met l'accent sur le phénomène créatif de l'implication du sujet dans la représentation de la "réalité externe" et sur l'importance de la prise en compte de l'interaction du sujet avec son environnement. 15 Constructivisme: Thèse selon laquelle la réalité vécue par un individu, une société ou n'importe quel système connaissant, n'est pas l'image fidèle d'une réalité externe, mais est une construction propre au système, qui dépend aussi bien de la façon de communiquer du système que des propriétés de son environnement. Les précurseurs de ce courant ont été Husserl, J. Piaget et E. Schrödinger. Plus récemment, P. Watzlawick, E. von Glaserfeld, H. von Foerster, E. Morin, H. Maturane, F. Várela. [Schwartz92] 12 1. Introduction générale Le courant constructiviste est à mettre en liaison avec la phénoménologie16 ([Heidegger64], [Merleau-Ponti45]) ou l'approche dite écologique des travaux de J. J. Gibson17 en vision. Ce dernier introduit la notion d'affordance18 qui correspond aux potentialités d'action offertes par un objet ou une scène observés. Dans ce cadre, le sens d'un phénomène observé réside dans les potentialités qu'il offre à son observateur, les objets ne prennent sens que par ce qu'ils nous poussent à agir avec eux, pour eux ou en réaction à eux. Le cadre conceptuel que nous avons adopté dans le problème de la connaissance de l'agent autonome s'est avéré être proche du constructivisme. Par opposition à l'approche réaliste, nous ne supposons pas une réalité externe objective qui, si elle existait, serait inaccessible à l'agent. Cette position a dirigé notre travail sur la prise en compte de l'interaction monde-agent observée par l'agent lui-même. Cette méthodologie est dite non-objectiviste par opposition à l'approche objectiviste supposant des représentations "objectives", données a priori au système par un concepteur omniscient. De nos jours, la plupart des systèmes artificiels utilisent des représentations objectivistes, reflet de l'interprétation du concepteur ou de l'observateur du système au sujet d'une "réalité" supposée. Cette prise de position non-objectiviste a, comme nous le verrons, des conséquences fon- damentales sur la nature des connaissances qu'un agent peut acquérir, gérer et utiliser. Elle contraint également les processus cognitifs que l'on peut attribuer à un système autonome. Dans notre cas, ce choix a mené à nous intéresser aux trois processus d*interprétation, d'apprentissage et de motivation. Ces choix conceptuels ont parfois demandé un effort intellectuel dans le sens où nous avons eu à combattre une quantité insoupçonnée de préjugés liés à notre interprétation des choses en tant qu'Etre Humain (guidé par notre intuition) et en tant que scientifique (conditionné par la tradition cartésienne). Ce mémoire reflète certainement le besoin de déconditionnement que nous avons tenté de maintenir présent à notre esprit tout au long du travail. Enfin, précisons que ces étiquettes epistemologiques ne sont qu'une tentative de situer, a posteriori, le point de vue adopté dans ce travail. En aucun cas elles n'ont été le moteur explicite de notre réflexion. De plus, nous n'y adhérons que dans la limite des connaissances restreintes que nous en avons. En particulier, elles ne constituent pas un outil par lequel nous prétendrions justifier les choix conceptuels ou méthodologiques faits dans ce travail. 1.7 Contributions Notre contribution apparaît donc dans deux domaines clé de la conception d'agents autonomes: celui des architectures de contrôle (modèle et réalisation) et celui de la représentation des connaissances (nature de la connaissance, modèle, processus de traitement et réalisation). Cette contribution inclut également l'application du modèle au domaine de la robotique mobile. Architecture de contrôle Cette thèse propose Varchitecture ARCO (Architecture Réactive et Cognitive) comme modèle général de contrôle d'un agent autonome. ARCO est composée de trois niveaux d'abstraction: physique, comportemental et cognitif. Cette approche modulaire s'accompagne d'une spécification précise et générale des in- terfaces liant forictionnellement les trois niveaux d'abstraction. Elle détermine en particulier la nature des informations transitant entre ces différents niveaux. Ainsi, les deux niveaux inférieurs (physique et comportemental) s'échangent les données provenant des capteurs et les commandes destinées aux effecteurs. Ils permettent donc la réalisation de boucles de contrôle 16Phénoménologie: Etude philosophique des phénomènes qui consiste essentiellement à les décrire et à décrire les structures de la conscience qui les connaît. 1 Pour une analyse minutieuse de l'oeuvre de Gibson, voir [Scaglione90]. ]8Howard Gardner propose la traduction "facilitation" [Gardner87], 13 Modélisation d'un agent autonome sensori-moîrices (comportements). Les deux niveaux supérieurs (comportemental et cognitif) s'échangent les données provenant des comportements (caractéristiques observées, états de sti- mulation) et les commandes de sélection comportementale. Ces deux niveaux permettent donc la réalisation de boucles de coordination comportementale. La donnée d'un formalisme simple et général permettant de décrire les capacités compor- tementales de l'agent constitue un apport formel essentiel à la modélisation du niveau cognitif. Cette description se fait en termes de stimuli observables et de comportements stimulables. Elle permet de raisonner au niveau cognitif en termes d'états sensoriels observés et de com- portements réalisés. Représentation des connaissances En relation directe avec l'architecture proposée, notre travail se caractérise également par la proposition et l'utilisation d'une représentation dynamique de l'environnement perçu par l'agent en termes d'interactions sensori-motrices. Cette représentation est construite par l'agent de façon incrémentale et située. Elle apparaît à deux degrés successifs de structuration: tout d'abord sous la forme d'un historique sensori- moteur représentant l'interaction expérimentée (vécue) par l'agent puis sous la forme d'un graphe sensori-moteur représentant indirectement la structure topotogique de l'environnement en termes d'interaction sensori-motrice. Processus cognitifs Notre contribution apparaît également à travers la proposition et l'intégration de trois processus cognitifs permettant d'interpréter, de structurer et d'exploiter les connaissances de l'agent. La coordination adéquate de ces trois processus résulte en une capacité de fonctionnalisa- tion susceptible de rendre l'agent autonome (aux yeux de l'observateur du système). Réalisation Ce modèle général d'agent autonome à été développé dans le cadre du projet national PNR- 23 et validé dans le domaine de la robotique mobile à travers des tâches de navigation. Les résultats ont été concluants, justifiant ainsi les prétentions du modèle. 1.8 Plan de thèse Ce mémoire de thèse comporte 10 chapitres regroupés en deux parties: un état de l'art et notre approche de la modélisation d'un agent autonome. La mise sur pied d'un état de l'art est une partie importante de tout travail de thèse. Nous avons pensé qu'il était important de garder une trace de ce travail; c'est l'objectif de la première partie du présent mémoire dont la lecture peut permettre au lecteur de s'imprégner des différentes problématiques liées à la modélisation et réalisation d'un agent autonome. Tou- tefois, ce chapitre introductif suffit à la compréhension de la deuxième partie du mémoire correspondant à une description complète de notre modèle d'agent autonome. Ainsi, le lecteur peut poursuivre sa lecture à partir de la seconde partie (page 87) et considérer la première partie comme un complément auquel il peut se référer ponctuellement. Nous avons également voulu maintenir une même structure tout au long du mémoire. Ainsi, au risque d'introduire des redondances avec cette introduction générale mais dans le but de leur donner une consistance propre, chaque chapitre possède son introduction et sa conclusion. Une conclusion générale en reprend l'essentiel, fait le bilan du travail et présente les extensions possibles et les perspectives de travaux futurs. 14 1. Introduction générale 1.8.1 Partie I: L'autonomie en IA; un état de Fart C'est dans le cadre de l'I A, en tant que produit des préoccupations théoriques et technologiques de notre temps, que s'inscrivent les chapitres de cette première partie. Les fondements ainsi que les travaux les plus représentatifs du courant cognitiviste en conception d'agents autonomes sont abordés au chapitre 2. Ce sont des travaux devenus classiques en IA. Nous y décomposons l'architecture fonctionnelle, commune à tous ces travaux, et le type de représentation des connaissances et de raisonnement rencontrés dans le domaine de la résolution de problèmes et de la génération de plans d'actions en particulier. Le chapitre 3 passe en revue les travaux plus récents du courant comportementaliste, Nous en exprimons les fondements et la problématique avant de disséquer cinq types d'architectures génériques d'agents comportementaux. Le chapitre 4 introduit le domaine des systèmes hybrides, dans lequel s'inscrit notre travail. La problématique liée à l'intégration de capacités d'activité et de raisonnement est énoncée par rapport à nos préoccupations architecturales et représentationnelles. Trois travaux récents, illustrant différents degrés d'intégration, sont présentés. Cet état de l'art est structuré suivant un critère chronologique lié à l'aspect architectural de la modélisation d'agents autonomes. La succession des travaux fait également apparaître la chronologie liée à l'aspect représentationnel. 1.8.2 Partie II: Un modèle d'agent autonome C'est dans le cadre de ITA, en tant que discipline des sciences cognitives, que s'inscrivent les six chapitres de cette deuxième partie. Après un bref rappel des concepts que nous venons d'introduire, le chapitre 5 décrira l'architecture ARCO. Il s'agit du modèle de conception que nous proposons comme solution au problème de la sélection d'actions. Les trois niveaux d'abstraction (physique, comportemental et cognitif), les dynamiques qu'ils supportent ainsi que les propriétés de l'architecture et son implantation distribuée y sont spécifiés. Deux chapitres introduisent ensuite les couches inférieures (physique et comportementale) de notre architecture en introduction au modèle cognitif qui sera présenté dans les deux cha- pitres suivants (connaissance et processus cognitifs). Ainsi, le chapitre 6 décrit les caractéristiques physiques de notre plate-forme robotique en mentionnant certaines analogies avec l'appareil senso ri-moteur d'organismes vivants. Nous mentionnons les dangers mais également des apports conceptuels et méthodologiques pouvant résulter d'une telle comparaison. La nature de l'activité considérée dans notre modèle est précisée au chapitre 7. Nous caractérisons le comportement et formulons un langage de description des capacités comporte- mentales de l'agent. Nous terminons par un exemple simple qui permet d'illustrer l'approche à travers une application de navigation du robot mobile. La connaissance du niveau cognitif est développée au chapitre 8. Dans un premier temps, nous exposons les concepts, la méthodologie et la position adoptée par ce travail. Nous expli- citons ensuite la problématique abordée et décrivons la solution apportée. Nous terminons par relever certaines propriétés de notre approche représentationnelle et en évaluons la complexité d'un point de vue informatique. Le chapitre 9 développe, sous les angles conceptuel et algorithmique, les trois processus cognitifs (interprétation, apprentissage et motivation) pour aboutir à la capacité de fonction- nalisation de l'activité, comme résultat de la coopération des processus cognitifs autour de la connaissance introduite au chapitre précédent. Enfin, le chapitre 10 fait part des observations tirées de nos applications à la robotique mobile. Ces observations permettent de juger de l'autonomie de notre agent et de tirer un bilan de ce travail. 15 Modélisation d'un agent autonome 16 Partie I L'autonomie en Intelligence Artificielle 2 L'autonomie par le raisonnement 2.1 Introduction Si, de nos jours, l'autonomie n'est pas le thème central de PIA, il l'était encore moins à ses débuts lorsque des chercheurs tels que Herbert Simon, Allen Newell, Marvin Minsky ou John McCarthy posaient les jalons de l'IA et de son courant cognitiviste, en particulier. A cette époque et jusqu'au début des années quatre-vingt, l'IA était loin de parler d'autonomie ou même de vie artificielle. Traditionnellement, la modélisation et la conception de systèmes ar- tificiels ont étudié l'intelligence en tant que capacité de raisonnement, les compétences d'un système n'étant jugées qu'en termes de rationalité. Cette tradition a porté ses fruits dans des domaines aussi divers que ceux de la théorie des jeux (avec le jeux d'échecs comme défi permanent), du traitement de langues naturelles (traducteurs automatiques, correcteurs grammaticaux) ou des systèmes experts. La robotique, et en particulier la robotique mobile, a également offert un domaine important d'applications et d'inspirations. Ce premier chapitre commence par introduire les fondements et la problématique du cou- rant cognitiviste. Tous deux procèdent des origines de l'IA et en partagent les hypothèses de base. Nous décrivons ensuite les contributions du courant cognitiviste dans le domaine de !a conception d'agents autonomes. En particulier, nous développons l'architecture fonctionnelle proposée, ainsi que les méthodes de génération de plans d'actions dans le cadre du raisonnement symbolique. Enfin, nous récapitulons les apports et les limitations de cette approche. En guise d'avertissement, si les travaux mentionnés dans ce chapitre sont précurseurs de la problématique abordée dans cette thèse, force est de constater qu'après plus de vingt ans de maturation, ils sont devenus classiques en IA. La problématique demeure toutefois intacte et le domaine reste largement ouvert. Beaucoup d'auteurs proposent, encore de nos jours et dans le même cadre cognitiviste, des améliorations des travaux initiaux. 2.2 Les fondements du courant cognitiviste en IA L'approche cognitiviste s'inscrit dans le cadre de l'IA symbolique1. Elle repose essentiellement sur une hypothèse forte, souvent appelée hypothèse symbolique (le terme anglais de Knowledge Representation Hypothesis permet de mieux évaluer sa portée). L'hypothèse s'exprime comme suit: Hl: L'Intelligence peut être décrite comme une suite d'opérations sur des structures symbo- liques, interprétables de façon propositionnelle.2 'D'un point de vue informatique, L'IA s'est longtemps caractérisée par le traitement et la combinaison de symboles. De nos jours, certains courants de l'IA, l'approche connexionniste en particulier, proposent des représentations dites sub-symboliques proches du traitement d'informations essentiellement numériques. 2La version donnée ici est tirée de [Haton9l], p.20. 19 Modélisation d'un agent autonome effecteurs ---------? Figure 2.1 : Architecture fonctionnelle proposée par l'approche cognitiviste. Cette prise de position audacieuse, prétendant que les théorèmes de la logique formelle sont les lois de la pensée, a souvent été critiquée (voir [Dreyfus72]). Nous nous limitons-ici à l'énoncer et à la resituer dans le contexte scientifique et technologique des années cinquante. Ce choix épistémologique est certainement le fruit du développement de la logique sym- bolique (Frege, Rüssel, Godei et autres Church) entre 1850 et 1950. Pendant le siècle ayant précédé l'avènement de ITA, les logiciens contribuèrent à l'exploitation de l'axiome qui veut que la pensée soit soumise à des lois et que la logique formelle permette de les décrire. L1IA symbolique se situe donc dans le prolongement de cette tradition logique. Se présentant ini- tialement comme son domaine de validation, ITA a, au cours du temps, suscité de longues discussions philosophiques sur ce principe3. Rappelons également que l'hypothèse symbolique fut formulée et adoptée dans un contexte d'expansion technologique, liée à l'apparition de l'ordinateur. C'est dans ce cadre qu'elle a na- turellement débouché sur la métaphore compuiationnelle qui considère les processus mentaux comme des systèmes de traitement de l'information (en particulier, des programmes informa- tiques) et le cerveau comme une sorte d'ordinateur. Ainsi, d'un point de vue architectural, l'approche cognitiviste soutient que H2: l'intelligence est separable de son support physique. Ceci suppose l'existence d'un niveau d'abstraction dans lequel les processus mentaux peu- vent être considérés indépendamment des mécanismes qui les engendrent. La suite de ce chapitre va permettre de revenir sur le contenu et les conséquences de ces hypothèses, tant du point de vue architectural que representationnel. Nous les retrouverons dans la conclusion. 2.3 L'architecture fonctionnelle La métaphore computationnelle (H2) a permis aux fondateurs de ITA d'extraire totalement les mécanismes du raisonnement de leur support physique. Cette prouesse a conduit à proposer une architecture fonctionnelle4 de la pensée (ou du raisonnement dans un système intelligent); un ensemble de fonctions génériques bien déterminées, générales et stables, se succèdent dans le traitement de l'information allant de l'entrée à la sortie du système. Ces fonctions sont la perception, la modélisation, la planification et l'action. Dans cette architecture, le module de perception est connecté aux capteurs du système. Il a pour tâche de distinguer la situation courante dans le monde externe et fournir au module de modélisation les données symboliques décrivant cette réalité externe. 3Voir [Searlc83a], [Fodor86], [Lévy87]. * On parle parfois d'architecture verticale par opposition à Varchitecture horizontale proposée par le courant comportemental] s te que nous développerons au chapitre suivant. capteurs 7 7, 7 O O O ATI ATI Z U MODELIS IFIC en PER PLAN < 20 2. L'autonomie par ¡e raisonnement La modélisation s'occupe de projeter et mettre à jour les connaissances du système sur une ou plusieurs représentation(s) Ìnterne(s). Le contenu de ces représentations porte essentielle- ment sur Ie monde externe et la tâche à accomplir. Sur la base des représentations internes, le module de planification tente d'établir une suite d'actions permettant au système de réaliser sa tâche. Enfin, le module d'action traite séquentiellement la suite d'actions fournie par la planifica- tion et contrôle en conséquence les effecteurs du système. L'information est transmise séquentiellement de module en module et reste symbolique du début à la fin. Des terminologies différentes sont utilisées pour se référer aux étapes de cette boucle fonctionnelle de contrôle: Chris Malcolm parle de boucle "sense-think-act" [Malcolm90], Rodney Brooks de boucle "sense-model-plan-act" [Brooks91c]. Allan Newell, l'un des fondateurs et défenseurs du courant cognitiviste, voit dans cette architecture les avantages suivants: (i) Il s'agit d'une décomposition convenable et stable des fonctions devant être réalisées par un système intelligent. (ii) L'architecture est totalement indépendante de toute implantation particulière ou struc- ture physique sous-jacente. (Ui) Elle décompose la problématique de l'IA en différents sous-domaines, ce qui permet de définir des spécialités telles que la perception, la représentation des connaissances et la résolution de problèmes. Le point (i) est une profession de foi que les chercheurs en IA ont longtemps tenté d'appuyer. Le point (ii) s'inscrit parfaitement dans le cadre de la métaphore computationnelle. Il révèle également la volonté d'aborder le raisonnement dans sa généralité. L'IA cognitiviste abordera des problèmes généraux et tentera de proposer des techniques générales dans chacun de ces sous-domaines fonctionnels5. Enfin, le point (iii) a déterminé la spécialisation dans les domaines encadrés par chacun des modules de l'architecture fonctionnelle. Le résultat des travaux approfondis dans chacune des spécialités doivent idéalement permettre de synthétiser l'intelligence par leur intégration ultérieure. Il est à noter que, dans cette approche parcellaire, les modules centraux (modélisation et planification) ont accaparé l'attention et l'effort des chercheurs en IA. Cette adhésion s'est faite au détriment des modules d'interface (perception et action). Elle a défavorisé une approche globale qui, de nos jours, constitue un axe de recherche prometteur et dont notre travail se veut l'expression. 2.4 La représentation du monde Le courant cognitiviste s'est confronté au problème de la représentation des connaissances d'un système capable de raisonner. Trois questions sont apparues: 1. que doit-on représenter? 2. comment peut-on le représenter? 3. qui doit le représenter? Les réponses au Quoi et au Qui sont uniques et précises dans le courant cognitiviste, alors que la réponse au Comment s'est traduite par un foisonnement de représentations symboliques différentes. 5Lc "General Problem Solver" [Newell-Simon63] est l'un des produits les plus connus et caractéristiques de cette approche. 21 Modélisation d'un agent autonome Le quoi C'est le monde, les objets qui le composent, leurs propriétés, l'environnement de travail, le milieu de l'agent, qui sont l'objet de la représentation. Invariablement, les symboles représentent une réalité externe au système. De fait, du point de vue cognitiviste, pour qu'un système raisonne bien, qu'il puisse exhiber des traces d'intelligence, il faut que les symboles qu'il utilise soient le reflet du monde dans lequel il doit accomplir sa tâche. La réponse étant donnée, d'autres questions apparaissent: Peut-on tout représenter? Com- ment délimiter le domaine de connaissances et sa granulante? Quelle est la correspondance entre le symbole et la réalité qu'il représente? Comment atteindre le sens des symboles? Ces questions dépassent le cadre de FIA qui se voit obligée de faire des choix. Ceux-ci apparaîtront dans la suite de l'exposé. Le comment Ici également, la logique intervient en proposant le premier langage de description utilisé en IA. Les formalismes logiques (logique des propositions et logique des prédicats du premier ordre) offrent à la fois une syntaxe précise (termes, connecteurs, quantificateurs) et des mécanismes de raisonnement associés (modus ponens, modus tollens, résolution). La connaissance du système est constituée par un ensemble de formules logiques satisfaisant la syntaxe. Le raisonnement consiste à manipuler ces formules suivant certaines règles pour en extraire de nouvelles et/ou en éliminer des anciennes. D'autres formalismes sont venus enrichir la puissance d'expression des formalismes lo- giques pour exprimer, par exemple, des connaissances temporelles, hiérarchiques, incertaines ou l'héritage de propriétés. En général, Ie choix d'une représentation symbolique est un compromis devant satisfaire des contraintes telles que la clarté: la connaissance doit être codée et exprimée de façon claire. En général, le mode de représentation doit permettre à l'observateur du système d'interpréter les résultats fournis par ce dernier. la puissance d'expression: la représentation doit permettre d'exprimer toutes les connais- sances nécessaires au raisonnement utilisé pour résoudre un problème. l'utilisation efficace: son traitement doit pouvoir être fait par des algorithmes de complexité acceptable et permettre un stockage des connaissances dans un espace (mémoire) limité. Il est toujours difficile de trouver un compromis par le choix d'une représentation parti- culière. Il n'existe pas de représentation générale idéale. Ce choix dépend du type de connais- sances à traiter pour un problème particulier (diagnostic, planification, reconnaissance) et du degré de contrôle que l'on veut exercer sur le raisonnement. Le qui Pour compléter cette caractérisation des représentations du courant cognitiviste, il nous faut parler de l'auteur des représentations: le Qui. En règle générale, et en partie à cause de l'importance réduite donnée aux modules d'inter- face de l'architecture fonctionnelle (perception et action), le système est vu comme un système d'entrées-sorties où • les entrées sont données au système par le concepteur, • les sorties sont données au concepteur par le système. 22 2. L'autonomie par Je raisonnement C'est donc le concepteur qui décrit le monde et interprète les solutions. Le système "se limite" à conduire le raisonnement symbolique. Ce qu'il est important de retenir, c'est que la correspondance entre le symbole et ce qu'il représente n'apparaît qu'aux yeux du concepteur, de l'observateur du système. Com- ment pourrait-il en être autrement? En effet, la réponse au Quoi conduit naturellement à cette intervention du concepteur. Cette question méthodologique (du Qui) prendra toute son importance dans la suite de notre exposé (chapitre 8, en particulier). 2.5 Le raisonnement en IA Le raisonnement humain peut avoir différents objectifs tels que démontrer, expliquer, in- terpréter ou décider. Les éléments de connaissances sont également de nature très variée: énoncés verbaux, hypothèses, sensations, images mentales ou souvenirs. La logique, et plus récemment l'IA, s'intéressent à modéliser les techniques de raisonnement et leurs stratégies. Ainsi, on retrouve une grande partie de ces modalités en IA. Un agent doté de connaissances raisonne en produisant de nouveaux éléments de connaissance, afin de satisfaire Ia modalité recherchée sur la base des informations disponibles. Les éléments de connaissance sont ici des structures symboliques. Dans le cadre des agents autonomes, le but du raisonnement consiste en grande partie à décider des actions de l'agent. C'est le domaine de la planification6. En IA, la planification couvre deux problématiques: la génération de plans d'actions (quelles actions réaliser) et l'ordonnancement (quand les réaliser). Elles sont étroitement liées et parfois confondues, bien qu'elles utilisent des techniques différentes; la première nécessite des moteurs d'inférence et des connaissances sur le monde et les actions, la seconde consiste essentiellement à explorer judicieusement un graphe de recherche. La taille de celui-ci rend souvent prohibitive l'application des techniques classiques de recherche. Nous allons développer la génération de plans d'actions proposée par le paradigme cogni- tiviste. 2.6 La génération de plans d'actions Le module de planification est l'élément central du raisonnement dans l'architecture fonction- nelle. En conception d'agents autonomes, il correspond à la génération de plans d'actions (GPA dans la suite7) qui s'inscrit dans le cadre plus large de la résolution de problèmes. , La GPA fait l'objet d'une littérature aussi abondante qu'hétérogène. [Hendler-al.90] fournit une bonne compilation de ces travaux. Deux d'approche ont été adoptées: • l'approche générale qui consiste à rester indépendant du domaine d'application en offrant des techniques de raisonnement et de représentation générales, • l'approche spécifique qui consiste à traiter un domaine d'application particulier en pro- posant des techniques propres à ce domaine et rarement applicables à d'autres domaines d'activité. Ce domaine de l'IA traite du problème de la construction automatique de plans d'actions à la place de !'utilisateur, homme ou machine. Il intervient dans des applications aussi variées que le contrôle d'agents auto- nomes, l'aide à la décision ou à la téléopération, la gestion de ressources, la construction et conduite d'ateliers flexibles ou la planification de missions spatiales. G valant aussi bien pour "génération" (le problème) que pour "générateur" (l'algorithme); le genre utilisé permettra de les distinguer. 23 Modélisation d'un agent autonome C A B •} m.'¿¿¿zm C état initial état but Figure 2.2 : Un problème dans le monde des blocs. Nous allons définir le problème de la GPA dans l'approche générale et passer en revue les principales solutions proposées dans la littérature. Terminologie et définition du problème Les connaissances utilisées en GPA portent sur le monde et sur íes actions. Ces éléments de connaissance sont décrits par des formules logiques. Toute action est décrite par un opérateur en termes de pré-conditions et de post-conditions. La precondition stipule les conditions d'application de l'opérateur. La postcondition stipule les changements introduits dans le monde par l'opérateur. Un opérateur, s'il contient des variables dans sa spécification, représente une classe d'actions possibles; un opérateur instancié correspondant aune action primitive. Enfin, un problème est caractérisé par la description d'un état initial et d'un état but. L'état initial spécifie la situation courante du monde. Le bui spécifie l'état du monde désiré après l'exécution du plan. Dans certains systèmes, un but peut être décomposé en sous-buts, généralement plus simples, Dans ce cadre, la GPA consiste à établir un plan (une succession d'opérateurs) qui soit une solution possible à un problème donnés. Le monde dans lequel travaille le GPA est appelé domaine d'application. Le plus connu des domaines d'application est celui du monde des blocs. Celui-ci est composé d'une table et d'un ensemble de formes géométriques nommées blocs. La table est de taille assez grande pour pouvoir y poser tous les blocs. Les problèmes liés à ce monde sont des passages entre différents empilements de blocs à l'aide d'opérateurs types, tels que "empiler" ou "désempiler". Problèmes représentationnels Cette formulation générale de l'action sous la forme d'opérateurs a soulevé trois problèmes liés à la représentation des connaissances: Le qualification problem: il est impossible de décrire de façon exhaustive l'ensemble des faits nécessaires à l'applicabilité d'un opérateur. Le ramification problem: il est impossible de décrire de façon exhaustive !'ensembles des faits qui changent par l'application d'un opérateur. Le frame problem: il est impossible de décrire de façon exhaustive !'ensembles des faits qui ne changent pas par l'application d'un opérateur9. 8Notons que la définition n'impose aucune contrainte d'optimalité. Un plan possible suffit, qu'il soit optimal ou non. 6En français, on parle du problème de la Tcmanence. 24 2. L'autonomie par le raisonnement Le premier est lié à la notion même de précondition alors que les deux derniers s'intéressent à la validité d'une formulation de l'effet à travers la postcondition. Du fait de l'incomplétude des connaissances, la GPA adopte généralement Vhypothèse du monde clos pour résoudre partiellement ces trois problèmes. Elle consiste à dire que les connais- sances qui ne sont pas déclarées comme vraies dans une formule sont considérées comme étant fausses. Ainsi, les éléments de la réalité externe qui ne sont pas représentés dans la postcondition d'un opérateur sont censés rester invariants lors de la réalisation de l'action correspondante. On suppose donc que le système est omniscient. La représentation STRIPS STRIPS, comme la plupart des GPA, est à la fois une représentation (langage) et un mécanisme de contrôle (algorithme). Le formalisme STRIPS est le plus utilisé en GPA. Les autres forma- lismes correspondent essentiellement à des enrichissements de STRIPS par l'adjonction d'infor- mations de différentes natures permettant la gestion du temps, de l'incertitude ou des conflits. Dans STRIPS, chaque état du domaine d'application est représenté par une formule logique tirée du calcul des prédicats du premier ordre (conjonction de faits). L'état initial du problème de la figure 2.2 peut être décrit par la formule [SUR-TABLE(B) et SUR(A1B) et SUR(C1A) et LIBRE(C)] De la même façon, il est possible de décrire l'état but ou tout autre état du monde par une conjonction de faits. Les opérateurs sont décrits par trois formules. La précondition donne les conditions d'ap- plicabilité. L'add-list et la delete-lisî forment la postcondition de l'opérateur. Elles décrivent les effets de l'application de l'action sur l'état du monde; quels faits deviennent vrais et quels faits ne le sont plus. C'est la solution partielle que STRIPS apporte au frame problem. Nous voyons apparaître l'hypothèse du monde clos dans la description de ces opérateurs. Dans le domaine du monde des blocs, trois opérateurs peuvent être introduits: PRENDRE(X) POSER(X1Y) TRANSPORTER(X.Y) prec: LIBRE(X) prec: SUR-TABLE(X) prec: LIBRE(X) SUR(X1Y) LIBRE(X) LIBRE(Y) LIBRE(Y) SUR(X1Z) del: SUR(X1Y) del: SUR-TABLE(X) del: SUR(X1Z) LIBRE(Y) LIBRE(Y) add: SUR-TABLE(X) add: SUR(X1Y) add: SUR(X1Y) LIBRE(Y) LIBRE(Z) Les opérateurs PRENDRE et POSER permettent de passer un cube du sommet d'une pile à la table et inversement. L'opérateur TRANSPORTER permet de passer directement un cube du sommet d'une pile au sommet d'une autre pile. L'espace des états lié au problème de la figure 2.2 est représenté sous la forme d'un graphe dans la figure 2.3. Les états se retrouvent dans les sommets alors que les arcs représentent les opérateurs. On peut facilement extraire un plan solution dans ce graphe : [PRENDRE(C)1 PRENDRE(A), POSER(B1C), POSER(A1B)]. C'est le plan optimal (en nombre d'opérateurs), mais une infinité d'autres solutions sont possibles. Les techniques de résolution de problèmes Etant donné un formalisme de description, le GPA doit raisonner, calculer une solution au problème. Pour cela, la GPA emprunte des techniques classiques de résolution de problèmes aussi bien dans les directions de parcours que dans les stratégies de recherche. 25 Modélisation d'un agent autonome Figure 2.3 : Représentation de l'espace de recherche lié au problème du monde des blocs à trois cubes. Les GPAs suivent l'une des deux directions de parcours (on parle de chaînage) offertes par les algorithmes classiques de parcours en informatique. Chaînage avant: recherche en partant de l'état initial. Il s'agit, à chaque pas de l'algorithme et jusqu'à l'obtention de l'état but, d'établir l'ensemble des actions applicables à l'état courant, de générer les états résultant de leur application (postconditions) et de choisir le nouvel état courant. Cette application recursive des opérateurs "en avant" est appelée projection temporelle. La technique est parfois utilisée pour .vérifier si un plan est une solution du problème posé. Chaînage arrière: recherche en partant du but. Il s'agit, à chaque pas de l'algorithme et jus- qu'à l'obtention de l'état initial, d'établir l'ensemble des actions qui pourraient provoquer l'état courant, de générer les états contenant les conditions d'applicabilité de ces actions (préconditions) et de choisir le nouvel état courant. Cette application recursive des opérateurs "en arrière" est appelée regression. C'est la direction de parcours utilisée par le mécanisme STRIPS. De même, les différentes stratégies de parcours proposées par les techniques de recherche sont utilisées en GPA: En profondeur d'abord: exploration d'un chemin aussi profondément que possible avant d'en essayer un autre. Cette stratégie est efficace mais ne garantit pas de pouvoir trouver une solution; appliquée à un graphe, elle peut tomber dans des circuits et ne jamais terminer (des techniques de traitement des circuits sont néanmoins connues). Dans le cas où une solution est trouvée, celle-ci n'est pas forcément optimale (nous avons vu qu'en planification, ce n'est pas nécessaire). En largeur d'abord: exploration exhaustive de tous les chemins, en avançant par généra- tions successives. Cette stratégie est coûteuse mais elle garantit l'obtention du meilleur chemin menant à la solution. Le meilleur d'abord: utilisation d'une fonction d'évaluation locale permettant d'évaluer la distance entre un état quelconque et la solution afin de choisir quel chemin suivre en priorité, parmi l'ensemble des chemins possibles. 26 2. L'autonomie par le raisonnement C JH e y»»/»/»»/» mmzsà état initial état but Figure 2.4 : Cas de figure conduisant à l'anomalie de Sussman. Les algorithmes d'IA utilisent généralement la stratégie du meilleur d'abord10 en appliquant des heuristiques11 permettant d'évaluer localement la notion de meilleur voisin selon certains critères dépendants du problème traité. La stratégie utilisée dans STRIPS consiste à choisir les opérateurs permettant de réduire la différence entre le but et l'état initial du problème. Intuitivement, tout opérateur possédant une partie du but dans son add-list et dont la précondition est aussi ressemblante que possible à l'état initial est un bon candidat pour réduire cette différence. De même, ayant trouvé un opérateur permettant de satisfaire le but, toute action qui réalise une partie de sa précondition est, à son tour, une bonne candidate. L'ap- plication successive de cette stratégie permet d'aboutir à une action dont la précondition est contenue dans l'état initial. Le plan est alors trouvé. Il est aisé d'imaginer ce mécanisme de résolution dans le cas de l'exemple donné en fi- gure 2.2 . Le processus de GPA n'est pourtant pas toujours aussi simple et bien des complications peuvent apparaître. L'anomalie de Sussman illustre l'une d'elles. C'est un exemple riche en conséquences. Considérons le problème décrit par la figure 2.4 . Le but est donné par la formule [SUR(A1B) et SUR(B1C) et SUR-TABLE(C)] L'algorithme STRIPS, par exemple, essaie de satisfaire les faits composant Ie but dans l'ordre dans lequel ils apparaissent. Le premier pas de l'algorithme placera donc le bloc A sur le bloc B. Ainsi, le premier fait de la formule décrivant le but sera satisfait. Pourtant, toute tentative de satisfaire le deuxième fait - SUR(B1C) - détruira le premier que nous venons de satisfaire. C'est une situation typique de conflit entre deux sous-buts où la résolution de l'un conduit à la destruction de l'autre. De tels conflits peuvent avoir deux conséquences par rapport à la solution fournie: • soit le planificateur entre dans une boucle infinie en essayant de résoudre un sous-but qui est toujours détruit ultérieurement, • soit il détecte cette boucle et en sort, mais le plan fourni est excessivement complexe (suites d'actions s'annulant). Différentes solutions à ce problème ont été proposées par des systèmes de GPA tels que RSTRIPS ou WARPLAN [Warren74]. L'idée est de protéger les sous-buts satisfaits et d'em- pêcher tant que possible de réaliser toute action susceptible de les détruire. Le problème étant essentiellement lié à l'ordre arbitraire de résolution12, certains auteurs ont proposé le traitement d'actions partiellement ordonnées à la place d'un ordonnancement Egalement appelée "méthode des fins et des moyens" (de l'expression anglaise means-ends analysis). Le système GPS fut le premier à introduire cette méthode heuristique. 11 "Procédure explicite de tentative de résolution d'une classe de problèmes donnée dont les conditions de convergence ne sont pas établies" [LeMoîgne86, p.358]. 12En effet, dans l'anomalie de Sussman, aucun ordre de traitement n'est imposé par l'énoncé du but et une inversion de cet ordre (ou des faits exprimant le but) éviterait l'apparition du conflit. 27 Modélisation d'un agent autonome linéaire tel que celui proposé par STRIPS. L'une des conséquences de cette nouvelle démarche a été de porter le raisonnement au niveau du plan en tant que structure manipulable dans sa tota- lité (recherche dans l'espace des plans), au lieu de raisonner au niveau des états intermédiaires (recherche dans l'espace des états). Cette évolution des GPAs fut introduite par Sacerdoti en 1975 à travers son système NOAH [Sacerdoti77). Le système TWEAK [Chapman87b] est le fruit d'une étude théorique de cette approche. L'idée de base est d'éviter tout ordonnancement des buts et des opérateurs tant que cela est possible; c'est le principe de moindre compromission. Le système NOAH combine trois concepts: La planification non-linéaire: ne pas forcer l'ordre de résolution entre deux sous-buts tant que cela n'est pas nécessaire. L'espace des plans: introduire un ensemble d'opérateurs qui ne représentent plus des actions dans le monde mais des transformations de plans partiels, soit en éliminant un conflit, soit en réalisant un sous-but. La planification hiérarchique: réduire la complexité du processus de recherche en résolvant tout conflit à un niveau de description éliminant les détails superflus, avant de raffiner le plan. L'une ou l'autre de ces caractéristiques a généralement été reprise par les GPAs apparus ultérieurement. Autres approches De nombreux travaux sont venus se greffer sur ceux que nous avons exposé ici. Ces travaux viennent souvent compléter les travaux de base, sans toutefois introduire de nouveaux éléments marquants. Les améliorations portent essentiellement sur • la représentation des opérateurs, • la prise en compte du temps, • la prise en compte de l'imprévu, • les mécanismes de contrôle. Bien que la représentation STRIPS soit la plus utilisée, le formalisme de base apparaît souvent enrichi de nouvelles informations permettant des raisonnement plus fins et profonds. Ainsi, plusieurs systèmes permettent de lier aux opérateurs des méthodes codées (procédures) afin de faciliter la résolution des buts ou l'ordonnancement des actions dans le plan: c'est le cas notamment pour les tâches dans NONLIN [Tate77] (utilisé dans le contrôle de turbines électriques) et dans SIPE [Wilkins83] (appliqué à l'élaboration de missions aéronautiques). D'autres systèmes permettent de raisonner sur des ressources limitées. Ces raisonnements tiennent également compte du temps. De tels exemples apparaissent dans le système SIPE qui introduit la notion de ressources partagées et permet leur allocation. Le système DEVISER [Vere83] spécifie un intervalle temporel sur les buts et les actions et tient compte d'événements externes et de leur date d'apparition. Plus récemment, les travaux en GPA ont abordé des problèmes réels et ont fourni des systèmes plus dynamiques introduisant des information sur le temps d'exécution des opérateurs [Firby87]. D'autres se sont intéressé à assurer des temps de calcul pour des problèmes de temps- réel [Kaelbling88]. Certains prévoient des postconditions différentes en fonction du succès ou de l'échec de l'exécution de l'action. Enfin, voulant trouver un compromis entre Ia précision du plan fourni par le planificateur et son temps de réponse, certains auteurs ont donné naissance au sous-domaine de la planification 28 2. L'autonomìe par le raisonnement réactive [Firby87], [Georgeff-al.86], [Ow-al.88]. Un planificateur réactif est censé construire ou modifier ses plans en cours d'exécution, en réponse à des situations changeantes dans le monde. La planification opportuniste utilise un compromis entre le chaînage avant et le chaînage arrière. Elle adopte, en partant d'un état intermédiaire, l'une ou l'autre des directions de re- cherche en fonction de critères variables ayant pour but de déterminer l'opération qui réduit au maximum les indéterminations (instanciation de variables, contraintes temporelles). MOLGEN [Stefik81] en est l'exemple le plus connu mais passablement de planificateurs l'utilisent, sans que ce soit là leur caractéristique principale. Enfin, le domaine de l'IA Distribuée (IAD) s'est intéressé à la décentralisation de la GPA dans le but de rendre les traitements plus flexibles et performants; dans ces systèmes, les connaissances et l'expertise sont décentralisées. Les sous-problèmes sont traités (idéalement en parallèle) par des processus experts. La négociation, la collaboration, l'interaction, les protocoles de communication sont autant de sujets traités par ce domaine (voir [Demazeau- Müller90,Demazeau-Müller91,Dernazeau-Werner92]). Au niveau des mécanismes de contrôle, les GPAs utilisent différents types de retour-arrière, des heuristiques et la méta-planification. Le retour-arrière est une technique de contrôle classique. Lorsqu'un choix doit être fait dans le processus de recherche, l'une des possibilités est choisie et les autres sont mémorisées. Si le plan ne peut pas être étendu dans une direction particulière, un échec est signalé. On choisit alors une possibilité parmi celles gardées en mémoire. Différents types de retour-arrière sont possibles. Le plus courant est le retour-arrière chro- nologique (on choisit l'option laissée de côté le plus récemment). Les systèmes WARPLAN, IN- TERPLAN [Tate75] et SIPE l'utilisent. Un autre type de retour-arrière est nommé dependency- directed; il consiste à revenir non pas jusqu'au dernier point de choix mais jusqu'au choix res- ponsable de l'échec Ce mécanisme demande des techniques permettant de lier l'échec à sa cause. Une heuristique est souvent utilisée par les algorithmes de recherche sous la forme d'une fonction permettant de calculer l'adéquation des choix à faire et déterminer ainsi un ordre parmi les possibilités qui se présentent. INTERPLAN et NONLIN proposent des heuristiques spécifiques à leur traitement. Nous avons vu comment STRIPS utilise la stratégie des fins et des moyens. Toute heuristique est dépendante du domaine d'application. On en trouve surtout dans le monde des blocs. Elles sont généralement difficiles à exprimer pour des applications présentant un intérêt pratique (autres que les jeux). En planification distribuée, les différents processus experts communiquent soit explicite- ment et directement par des canaux de communication point à point, soit implicitement et indirectement à travers un tableau noir (blackboard) centralisateur. Un mécanisme de contrôle important est celui de la méta-planification; il consiste à rai- sonner non seulement sur le problème posé mais également sur les techniques disponibles pour engendrer un plan. C'est en quelques sortes une planification du processus de planification. Le système MOLGEN utilise un GPA standard pour son domaine d'application: la synthèse en génétique moléculaire. Le méta-niveau permet de sélectionner l'ensemble des opérateurs sur lesquels travaille le GPA pour ses modifications de plans. Le système PRS [Georgeff-Lansky87] utilise une représentation procédurale des plans (al- gorithmes) sous forme de domaines de connaissances (Knowledge Area ou KA). Une KA définit un comportement particulier du système liant la perception à l'action. Un interpréteur décide de la KA à activer en fonction de la situation et des contraintes temporelles. Ce système peut être considéré comme un méta-pUnificateur du fait que certaines de ces KA sont des méta- connaissances facilitant l'optimisation des choix à faire. Il a été utilisé pour la conduite d'un robot autonome. Dans ces deux systèmes, le méta-niveau est très différent du niveau de base. Ce n'est pas le cas dans le système SEAN, mentionné par Chapman [Chapman87b], qui utilise une copie du planificateur du domaine en tant que méta-planificateur. Ce méta-planificateur est à son 29 Modélisation d'un agent autonome b 1 2 3 4 5 6 7 8 9 10 S(b) 1 3 13 85 561 5911 49'813 689'193 8'156'305 >10s Table 2.1 : Complexité du monde des blocs en nombre d'états. tour contrôlé par un nouveau méta-méta-planificateur identique et ainsi de suite! Il semble que ce système n'aie jamais été implanté. Il s'agit néanmoins d'un système dont la description fait entrevoir des propriétés intéressantes (récurrence, réfiexivité). Les GPAs et les techniques offertes par d'autres disciplines Un GPA peut être vu comme un algorithme de recherche d'un chemin entre deux sommets dans une structure de graphe. Les opérateurs portés par les arcs du chemin constituent le plan recherché. Or, l'informatique offre différents algorithmes généraux de recherche de chemins dans des structures de graphe [Dijkstra59j, [Johnson77j. Dans ce cas, pourquoi construire des GPAs? Les algorithmes de recherche sont appliqués à des graphes donnés explicitement. Il faut donc, soit les générer automatiquement, soit les spécifier à la main. Ceci est possible pour des problèmes simples, dont ont connaît tous les éléments à l'avance. Malheureusement, la résolution de la plupart des problèmes aboutit à des structures énormes rendant prohibitive leur construction. C'est ce qu'on appelle Vexplosion combinatoire. La figure 2.3 représente le graphe à 13 sommets correspondant à un problème du monde des blocs en considérant 3 blocs uniquement. On peut donc le construire sans trop d'efforts. Pourtant, pour un problème de ce genre, l'espace des états croît exponentiellement avec le nombre de blocs considérés. La table 2.1 confirme l'impossibilité d'utiliser des techniques classiques de recherche pour ce genre de problèmes. Elle donne le nombre S de sommets du graphe en fonction du nombre 6 de blocs considérés. En ne considérant que 8 blocs, le graphe d'états possède déjà plus de 500'000 sommets! Les GPAs ont la particularité d'utiliser des heuristiques. Elles permettent de restreindre les espaces de solutions afin de les parcourir plus efficacement13. Dans le système STRIPS, par exemple, le graphe est donné implicitement à travers la description des opérateurs. Il n'est construit que pendant le parcours, en limitant le nombre de sommets visités. Les GPAs permettent donc, en plus d'un traitement de données symboliques, de réduire la combinatoire du problème par l'utilisation d'heuristiques adéquates. La GPA peut être vue également comme un problème d'optimisation sous contraintes. Ces contraintes sont parfois contradictoires. Or, la recherche opérationnelle offre des algorithmes classiques pour ce genre de problème (en programmation linéaire, algorithmes du simplexe et de K h ach i an [Dodge87]). Ces solutions peuvent néanmoins être améliorées: les GPAs permettent de diversifier le type de contraintes intervenant (symboliques, par exemple) ou d'offrir des solutions non-optimales dans des temps inférieurs à ceux des algorithmes classiques1^. Langages et outils de développement des GPAs En IA1 les langages de programmation ont généralement été les promoteurs des succès les plus significatifs. Ceci est particulièrement vrai en GPA. Les langages traditionnels de TIA (LISP et PROLOG) ont été le premier support des al- gorithmes de GPA. LISP (acronyme de lisi processing) fut le premier langage permettant de 13H est à noter que le problème général de la génération de plans d'actions reste de complexité exponentielle. Chapman a montré, à travers son système TWEAK, qu'il peut, dans des circonstances très précises qui ne sont pas celles rencontrées dans la majorité des problèmes, être réduit à une complexité polynomiale. 11VoJr [Ghedira93] pour un autre type d'optimisation basé sur la technique du recuit simulé. 30 2. L'autonomie par ìe raisonnement programmer sans embûche des tâches de résolution de problèmes, grâce à son degré d'abstrac- tion et à ses nouvelles propriétés (interprétation, récursivité, hiérarchie, contextes). Il continue d'être le langage le plus utilisé en IA. PROLOG a considérablement marqué le domaine de la GPA par son mécanisme de contrôle intégrant le retour-arrière chronologique. Il est à la base de la plupart des GPAs classiques. Son descendant, Prolog III, permet d'associer à des règles un ensemble de contraintes et intègre un mécanisme de propagation de ces contraintes. Cette technique facilite la réduction de l'espace de recherche. Enfin, malgré la généricité de ces langages, la plupart des GPAs ont proposé de nouveaux langages spécialisés, intégrant les mécanismes qui leur sont propres. 2.7 Conclusion L'approche cognitiviste en modélisation et conception d'agents autonomes est celle de PIA traditionnelle. Elle en partage les fondements (hypothèse symbolique et métaphore compu- tationnelle) et la problématique (en ce qui concerne l'aspect représentationnel: le Quoi, le Comment, le par Qui représenter). Le cognitivisme réduit l'autonomie à la capacité de raisonnement. Dans ce cadre, il pro- pose l'architecture fonctionnelle comme modèle de la pensée raisonnante. Comme support au raisonnement il offre des représentations • réalistes (objectivistes), portant sur un monde externe, • essentiellement tirées de formalismes logiques, et • construites et interprétées par le concepteur du système. Les apports de ce courant sont ceux de l'IA traditionnelle: mécanismes variés et robustes de raisonnement et outils de représentations. Il a le mérite d'avoir abordé des thèmes essentiels tels que le temps, la causalité, la distribution du raisonnement et des représentations. Pourtant, dans une perspective de modélisation et conception d'agents autonomes, l'ap- proche cognitiviste présente différentes lacunes. Sur le plan architectural: • Sa décomposition fonctionnelle a conduit à focaliser les recherches sur certaines parcelles du traitement (le raisonnement) au détriment de l'intégration des fonctions d'interface (perception et action). Cette approche partielle n'est pas innocente et trahit 1. la complexité inhérente aux problèmes de perception (vision, en particulier) et d'ac- tion (contrôle, en particulier), 2. le poids des contraintes introduites par l'hypothèse symbolique (Hl) dans une dé- marche d'intégration des fonctions d'interface (perception, action) avec un système manipulant des représentations symboliques. Méthodologiquement, cette approche focalisée se traduit par une absence totale de con- sidération de l'interaction du système avec son environnement. • Dans ce séquencement du traitement fonctionnel, un raisonnement monolithique précède l'action. Ceci conduit à une planification off-line qui, ajoutée à une complexité exponentielle des algorithmes, rend extrêmement complexe toute application réelle et conduit à - ne travailler qu'en simulation, sans la prétention d'étendre les résultats à des appli- cations réelles, ou 31 Modélisation d'un agent autonome — simplifier considérablement l'environnement de façon à limiter les connaissances devant être représentées. La réactivité des systèmes est encore amoindrie si Ton considère que des phases de repla- nification doivent rattraper les événements imprévus observés en phase d'exécution. • La stratégie de Newell consistant à créer des spécialités de recherche dont les fruits, une fois intégrés, conduiraient à un système autonome n'a pas abouti. Les systèmes complets sont rares et demandent un investissement considérable en moyens matériels et humains. Sur le plan représentationnel: • Le fait de représenter le monde (le Quoi) et de faire intervenir le concepteur (le Qui) dans certaines fonctions de l'architecture (perception et/ou action) introduit l'hypothèse d'une réalité objective (partagée par l'agent et son concepteur à travers une même in- terprétation). Cette intervention du concepteur dans le traitement fonctionnel de !'archi- tecture va à l'encontre de la caractéristique recherchée d'autonomie. 32 3 L'autonomie par l'action 3.1 Introduction En réaction à l'approche cognitiviste, un nouveau courant est apparu au cours des années 80. Son apparition est fortement liée à la volonté d'aller au delà des propriétés de raisonne- ment offertes par l'approche symbolique en reconsidérant, d'un point de vue pragmatique, les problèmes liés à la réalisation de systèmes physiques pouvant évoluer dans des environnements complexes et réels (non simulés). Une grande partie de ces travaux partagent notre domaine d'application: la robotique mobile. En une dizaine d'années, ce courant comportementaliste a connu un essor considérable. Récemment, depuis le début des années 90, il s'est approché d'autres disciplines des sciences cognitives et a engendré le domaine de Ia "vie artificielle"1. Il est courant de trouver dans les conférences de ce nouveau domaine des auteurs s'étant illustrés dans l'approche comportemen- tale. Tout comme les courants se sont succédés dans le temps, la notion d'intelligence a évolué durant les trois dernières décennies: elle a successivement pris la connotation de raisonnement (approche cognitiviste), action (approche comportementale) et autonomie (vie artificielle). Divers termes sont utilisés pour se référer au courant comportementaliste: généralement on parle d'approche comportementale ou d'activité située. Certains auteurs parlent même de "Nouvelle IA", ce qui est caractéristique de l'élan donné à ce courant par ses précurseurs et de l'accueil dont il a bénéficié. Du point de vue de la conception, on parle généralement d'architecture réactive (par opposition à l'approche deliberative de l'IA cognitiviste) ou bottom- up. Ce chapitre est composé de trois parties: Nous commençons par préciser les fondements du paradigme comportementaliste ainsi que la problématique qu'il introduit. Nous regroupons ensuite l'essentiel des travaux de ce domaine en cinq architectures de contrôle proposées comme solutions au contrôle d'agents autonomes par l'approche compor- tementale. Nous illustrons chacune d'elles par la présentation de deux travaux significatifs. Pour chaque travail, nous nous efforçons de préciser la position et les intérêts des auteurs, nous décrivons l'approche proposée et nous en résumons les propriétés et les limitations. Sans prétendre être exhaustif, cet éventail de travaux permet de couvrir les différents sujets de l'ap- proche comportementale et de préciser, dans une large mesure, les réponses déjà proposées dans la littérature. En conclusion, nous mettons en évidence les apports et les limitations de l'approche com- portementale aussi bien par rapport à l'approche cognitiviste que par rapport à notre approche de l'autonomie. 1 Ce nouveau domaine (AL pour Artificial Lije) est décrit par Bourgine comme étant le "projet de comprendre la viabilité des systèmes autonomes et, plus généralement, les propriétés émergentes du vivant". Langton [Lang- ton89] parle de l'étude "delà vie telle quelle pourrait être et non pas telle qu'elle est", (extrait de [Bourgine92]). 33 Modélisation d'un agent autonome capteurs évolutives chez les organismes vivants, sont câblées ou programmées et généralement figées dans les agents artificiels. 3. les traitements réalisés entre le signal et la commande sont réduits au minimum; on a affaire à un raisonnement ¡imité ou même inexistant. 3En fait, on retrouve généralement les mêmes étapes fonctionnelles dans chacun des comportements. L'ori- ginalité consiste à distribuer le traitement de l'information à travers les comportements et à l'adapter et le réduire aux besoins spécifiques de chaque comportement. Par ce biais, le problème du contrôle comportemental vient remplacer celui du traitement de l'information. 34 3. L'autonomie par l'action 4. les traitements se situent à un niveau sub-symbolique (ou sensori-moteur); du genre stimulus-réponse ou condition-action, par opposition au niveau symbolique de l'approche cognitiviste. 5. le problème central devient celui de la coordination de comportements; ayant un potentiel de comportements primitifs, il s'agit d'organiser leur influence sur l'activité globale du système. 6. Ia coordination tend à se faire suivant un contrôle distribué; elle n'est plus centralisée comme dans le cas de l'architecture cognitiviste. 7. la connaissance du système tend à apparaître suivant une représentation distribuée; elle est répartie et locale aux comportements qui l'exploitent. 8. de façon générale, d'une coordination adaptée des comportements de base coexistants peuvent émerger de nouveaux comportements plus complexes. Précisons encore que les comportements considérés peuvent être décrits comme des ten- dances d'attraction ou de répulsion par rapport à des caractéristiques externes observées en un instant donné. Le vocabulaire éthologique propose différents termes (tropisme, taxie ou pathie) suivant la nature de cette tendance3. Nous engloberons le tout par le terme de tendance, en précisant l'orientation lorsque cela sera nécessaire (attraction, répulsion). En ce qui concerne les propriétés attendues par l'observateur d'un tel système, les principes énoncés ci-dessus doivent conduire à des agents offrant: • des temps de réponse adaptés à la dynamique du milieu, • une flexibilité accrue par rapport aux imprévus qui surviennent de façon inévitable, • une adaptation aux circonstances de l'environnement immédiat, • une polyvalence dans les tâches réalisées. Ces propriétés font qu'un système comportemental (physiquement réel, non simulé) doit pouvoir évoluer dans son milieu (réel, non simulé). Enfin, si les principes de base se retrouvent dans la majorité des travaux de ce domaine et ont donné lieu à différents mécanismes de contrôle que nous allons passer en revue dans la suite, les propriétés attendues de la part de ces systèmes ne sont que partiellement satisfaites. Nous y reviendrons dans la conclusion. 3.3 La problématique Le paradigme comportementaliste introduit une problématique précise qui est celle du contrôle d'une activité de nature située. Avant d'énoncer cette problématique et pour mieux la décrire, une digression sur la notion de comportement s'impose. A l'origine uniquement appliquée aux végétaux par les botanistes, la notion de trvpismt s'est généralisée au monde animal. Elle correspond à la réaction d'orientation d'un organisme à une influence physico-chimique extérieure, Elle a successivement été interprétée comme un réflexe (thèse mécaniste du comportement, réduisant l'animal à une machine cybernétique), puis comme une réaction adaptative (faisant intervenir un état interne au système pour expliquer certaines inversions du sens de la réaction). Le terme de taxie correspond de façon plus précise à cette deuxième acception (on parle de phototaxie, géotaxie, chimiotaxie, ... suivant la nature du phénomène physique externe constituant le stimulus auquel réagit l'organisme). Enfin, la notion de paihie corresponda l'orientation négative, à une réaction d'évitement de l'excitation. On oppose parfois taxie et pathie, pour couvrir totalement la notion de tropisme. 35 Modélisation d'un agent autonome Imaginons que nous soyons à table et que, tout en dialoguant avec notre vis-à-vis, nous allongions notre bras pour saisir notre verre dans le but de nous désaltérer. Un ensemble d'éléments anatomiques et physiologiques sont entrés en jeu. Pourtant, à quel niveau situerions- nous le comportement? Est-ce la coordination de micro-comportements accrochés à chaque articulation, chaque muscle, chaque tendon ou chaque cellule qui explique le mouvement ob- servé? Ou est-ce un seul comportement qui coordonne le mouvement de l'ensemble du corps? Ou encore une séquence temporelle de comportements unitaires? Ou la coordination du bras et de l'oeil permettant d'ajuster le mouvement? La notion de comportement est difficile à délimiter. Le comportement peut être compo- site et distribué (spatialement et temporairement) ou unitaire et englobant. Il peut aller du mouvement élémentaire à l'attitude générale. Tous les points de vue sont justifiables. En robotique, où le comportement est associé à l'idée de mouvement, ce flou apparaît également et des choix doivent être faits. Les primitives de contrôle peuvent se situer à des ni- veaux d'abstraction différents (nombre-de-tics-de-roue, avancer-tourner, suivre-le-couloir, aller- à-la-bibliothèque, sur veiller-les-locaux, survivre) et apparaître suivant des modalités différentes (mouvement en vitesse, en accélération, en distances relatives, en positions absolues). Ainsi, quel que soit le niveau d'abstraction ou la granularità des comportements traités, toute application pratique conduit à une discrétisation des mouvements en des unités compor- tementales élémentaires et généralement indépendantes. Une dépendance forte existe néanmoins. Les effecteurs permettant le mouvement consti- tuent un goulet d'étranglement; en effet, deux comportements contrôlant les mêmes effecteurs sont condamnés soit à s'entendre pour pouvoir accéder séquentiellement à leurs effecteurs communs, soit à trouver un compromis leur permettant de s'exprimer partiellement mais si- multanément. Ainsi, la coordination de comportements situés débouche sur deux approches différentes du contrôle qui, elles mêmes, reflètent deux analyses de l'observation du comportement. 1. Le premier point de vue consiste à dire que les comportements sont indépendants et qu'à tout instant, un seul comportement s'exprime en action. Cette position conduit à traiter le problème de la sélection continue d'un comportement parmi N comportements possibles indépendants. Dans la littérature, cette problématique est couverte par le terme de sélection d'actions. 2. Le second point de vue consiste à dire qu'à tout instant l'action observable d'un individu correspond à un compromis de tendances portées par un ensemble de comportements. Cette position conduit à traiter le problème de l'intégration d'un ensemble de potentialités en une action les reflétant. Nous nommons cette problématique l'intégration comporte- mentale. Remarquons que l'intégration comportementale peut être vue comme une approche généra- le au problème du contrôle de l'activité. En effet, si elle intègre les comportements en pondérant leur influence, la sélection d'actions peut être vue comme un cas extrême et particulier d'inté- gration. La suite du chapitre permettra d'illustrer les solutions proposées dans la littérature pour aborder, à travers ces deux approches, une problématique générale commune qui est celle du contrôle de l'activité. 3.4 Cinq architectures de contrôle Les travaux de l'approche comportementale se caractérisent par la diversité des mécanismes de contrôle qu'ils proposent. Cette diversité reflète la variété de motivations liées à ces travaux. Certains, dans un excès de pragmatisme, proposent des solutions ad hoc pour traiter des problèmes particuliers; ces travaux ne supportent pas la généralisation à d'autres tâches. 36 3. L'autonomie par l'action D'autres, dans un excès de purisme, s'intéressent à mimer, le plus fidèlement possible, les struc- tures observées dans les organismes vivants; ils trouvent par contre des difficultés à appliquer leurs mécanismes, tellement la complexité des structures mises en place dépasse les moyens d'analyse offerts par les sciences de l'ingénieur. Il existe autant d'architectures de contrôle que de travaux publiés dans ce domaine. Pour notre part, nous décomposons l'approche comportementale en quatre types d'architectures génériques de contrôle qui répondent à la problématique introduite. Une cinquième architec- ture, utilisant hiérarchiquement les quatre premières, vient compléter notre état de l'art des architectures comportementalistes en IA. Précisons que cette taxinomie est celle qui nous a paru associer au mieux les propriétés de globalité (elle couvre, sinon tout le domaine, une grande partie), spécificité (elle permet d'extraire les caractéristiques principales du paradigme comportementaliste) et discursivité (elle facilite la présentation d'un domaine aussi fourni qu'hétérogène). Elle reste néanmoins plus une proposition de classification qu'une norme établie. Le problème de la sélection d'actions peut être abordé soit par un choix aléatoire du comportement, soit par un choix suivant une priorité particulière entre comportements, soit finalement par l'organisation d'une compétition entre comportements provoquant l'émergence et la sélection du comportement vainqueur. La solution du choix aléatoire ne sera pas abordée ici; elle ne conduit à aucune régularité comportementale globale. S'il s'agit bien d'une technique possible de contrôle, elle représente l'antithèse de la coordination comportementale. D'autre part, le problème de l'intégration comportementale ne peut être abordé que par des techniques permettant une fusion de l'ensemble des réponses du système en une réponse de consensus. Cette intégration nécessite un support commun à toutes les réponses; le problème de la représentation est donc central dans cette approche et contraint fortement les architectures envisageables. Enfin, nous verrons que l'approche connexion niste permet d'aborder les deux problémati- ques (sélection et intégration). Face à la rigidité d'organisation des autres approches comporte- mentales, le connexionnisme place la capacité d'adaptation au centre du débat. Dans ce cadre, nous mentionnerons la contribution originale d'un ensemble de travaux associant la théorie mathématique de la morphodynamique à l'interprétation du modèle d'autopoièse. Parmi ces possibilités, les architectures que nous retenons sont: 1. Le contrôle par priorités: une priorité prédéterminée est attribuée à chaque comporte- ment et, parmi le sous-ensemble de comportements prêts à s'exprimer en action, seul le comportement ayant la plus haute priorité prend le contrôle. ----------------------------? r_i tel que c_i = max p(c_i) Figure 3.2 : Contrôle par priorités. 2. Le contrôle pax fusion: à tout moment l'action réalisée par le système est un compromis tenant compte d'un ensemble de tendances (comportements ou objectifs). Sous sa forme générale, cette architecture généralise l'architecture par priorités. Nous la limitons au cas où deux tendances au moins s'expriment dans chaque réponse donnée par le système. Elle répond ainsi spécifiquement au problème de l'intégration comportemen- tale. 3. Le contrôle par compétition: la compétition entre éléments est portée par un réseau d'influences régulièrement fourni en activité (externe ou spontanée) et dans lequel les 37 Modélisation d'un agent autonome Figure 3.3 : Contrôle par fusion. éléments s'activent ou se désactivent à travers différents types de connexions. Parmi les éléments candidats à l'action, seul l'élément le plus activé, résultat de la dynamique interne de propagation d'activations, s'exprime en action. Figure 3.4 : Contrôle par compétition. Si le contrôle par priorités est une approche centralisée au problème de la sélection d'ac- tions, le mécanisme de contrôle par compétition se différencie essentiellement par sa na- ture distribuée. En plus de cette spécificité, l'approche par compétition peut apparaître comme un contrôle par priorités dynamiques. Elles apparaissent donc comme deux solu- tions conceptuellement différentes à la sélection d'actions. Le contrôle connexionniste: comme son nom l'indique, ce type de contrôle se caractérise par Putilisation exclusive de techniques connexionnistes. Il s'intéresse à l'acquisition des mécanismes de coordination en fonction de l'expérience. De plus, il permet de proposer une solution aussi bien à la sélection d'actions qu'à l'intégration comportementale. Une approche récente et prometteuse, la morphodynamique, allie l'évolution de la dyna- mique et de la structure portant cette dynamique. entrée ./ ' ^ ^ sortie Figure 3.5 : Contrôle connexionniste, 5- Enfin, le contrôle hiérarchique: il permet de composer des comportements à des niveaux d'abstraction différents. Ces compositions se font généralement à travers les différents contrôles génériques. Il s'agit donc d'une architecture composite du point de vue du contrôle. Il est étonnant de constater que, bien que l'essentiel des modèles du contrôle comporte- mental proposés en éthologie soient de nature hiérarchique [TinbergenöO, Baerends76], les travaux de l'IA comportementaliste ont boudé cette approche. Des travaux tels que [Halperin91] et [Rosenblatt-Payton89] sont venus combler ce vide par des structures connexionnistes hiérarchisées. Tyrrell, qui propose une amélioration du système de Ro- senblatt et Payton, recouvre ces travaux [Tyrrel93]. 38 3. L'autonomie par l'action De même, Roitblat présente une version connexSonniste et hiérarchique du mécanisme de compétition [Roitblat91]. Figure 3.6 : Contrôle composite et hiérarchique. Nous mentionnons cette architecture pour illustrer la possibilité d'incorporer différents types de contrôles génériques en un système unique. Ses propriétés quant au contrôle comportemental reposant essentiellement sur celles des mécanismes qui la composent, nous ne la développerons pas dans la suite. Pour conclure cette enumeration, précisons que malgré les liens pouvant exister entre les catégories extraites, ces architectures aspirent à illustrer leurs particularités plutôt que ïeurs points communs. Dans la suite de ce chapitre, nous précédons la caractérisation de chacune des architectures par la description et l'analyse de deux travaux représentatifs. La conclusion présentera une synthèse et' situera la contribution du paradigme comportementaliste au domaine des agents autonomes. 3.5 Le contrôle par priorités Le contrôle par priorités est une solution possible au problème de la sélection d'actions. Il consiste à sélectionner un comportement parmi N, en ne s'intéressant qu'à leur possibilité de s'exprimer en action (les comportements n'ayant rien à proposer ne sont pas candidats à la sélection). Le choix est réalisé par un système central en tenant compte d'un état de priorités permettant de départager les comportements candidats. La technique permet d'envisager des priorités données ou acquises, figées ou dynamiques. L'approche couverte ici ne comprend que des priorités données a priori et figées (les comporte- ments sont pré-ordonnés une fois pour toutes). En complément, les techniques connexionnistes décrites au paragraphe 3.8 permettent d'illustrer des mécanismes de contrôle par priorités acquises et dynamiques. Dans le cas de priorités données et figées, celles-ci peuvent correspondre à un ordre de traitement des comportements ou être induites par une structure de contrôle particulière. La subsumption architecture de Brooks et le système Pengi d'Agre et Chapman vont servir à illustrer ce mécanisme de contrôle. 3.5.1 La subsumption architecture de Brooks Rodney Brooks propose, en 1986, la subsumption architecture [Brooks86b] comme outil de conception de systèmes artificiels comportementaux. Son travail met l'accent sur une intelligence "incrémentale"4 à partir de comportements Par ajouts successifs de nouvelles compétences. 39 Modélisation d'un agent autonome capteurs "^l compétence compétence compétence 0 & effecteurs Figure 3-7 : La subsumption architecture. 3 el GÜ¿][j^T] e2 MODULEi8 I resci Figure 3.8 : Module de la subsumption architecture. réactifs simples et un raisonnement distribué prenant l'environnement de l'agent comme mo- dèle, en lieu et place d'une représentation interne. D'autres auteurs, Braitenberg en particulier [Braitenberg89], ont préconisé l'approche com- portementale en IA à peu près au même moment. Le mérite de Brooks est d'avoir su attirer l'attention sur cette approche en publiant alternativement des articles techniques décrivant des résultats concluants [Brooks87a, 88, Brooks-al.86, 88, Brooks-Connel86] et des essais justifiant et consolidant son approche [Brooks86a, 87b, 87c, 90, 91a, 91b, 9Ic]. Description de l'architecture L'architecture se base sur la décomposition comportementale en nivea uz de compétences. Ces niveaux sont structurés, un niveau supérieur ayant une certaine influence de contrôle (ou prio- rité) sur les niveaux inférieurs à lui." La figure 3.7 représente cette architecture générale5. Les niveaux de compétences sont généralement liés aux capteurs et aux effecteurs, formant ainsi des "boucles à travers le monde". Cette décomposition horizontale permet, entre autres, de distribuer le traitement de l'information sur des unités spécialisées. Par opposition à l'archi- tecture fonctionnelle (voir paragraphe 2.3) où toutes íes informations provenant des capteurs sont centralisées pour leur traitement, Ia subsumption connecte chaque niveau aux capteurs les plus adaptés à leurs compétences. De façon interne, chaque niveau de compétence est composé d'un réseau de modules liés par des canaux de communication appelés fils. Un module est muni de registres internes et de portes d'entrée et de sortie pour la réception et l'envoi de messages. Les entrées peuvent être connectées aux capteurs ou aux sorties d'autres modules. Les sorties peuvent être connectées aux effecteurs ou aux entrées d'autres modules. D'un point de vue informatique, un module est un processus parallèle asynchrone. Chaque processus est décrit par un automate d'états finis (AF). Il possède à tout moment un état courant qui spécifie l'opération réalisée par le processus. Toute opération se termine par une transition dans un nouvel état de l'AF. En chaque état de l'AF, cinq opérations sont possibles: 5D semblerait naturel de considérer qu'il s'agit là d'une architecture hiérarchique, ne serait-ce que par la présence de niveaux de compétences. Pourtant ,les comportements ne sont pas composés hiérarchiquement; c'est le contrôle qui est hiérarchique. Dans ce cas, nous préférons parler de priorité et non de hiérarchie. 40 3. L'autonomie par l'action destinataires dcM2ouMy Figure 3.9 : Les circuits arbitres de la subsumption "architecture', inhibiteur et suppresseur. • le traitement d'événement, qui "écoute" aux entrées du module et décide de l'événement à traiter, • le traitement conditionnel, qui évalue une expression et utilise le résultat de l'évaluation pour déterminer l'état suivant parmi un ensemble d'états possibles, • la sortie, qui évalue une expression et envoie le résultat à une sortie, • {'affectation, qui évalue une expression et affecte le résultat à un registre interne, • enfin, l'action, qui envoie une commande aux effecteurs. De plus, pour faciliter la synchronisation de l'ensemble du réseau lorsque cela est nécessaire, les modules possèdent une entrée reset dont l'événement permet de remettre l'AF à son état initial. Enfin, le fil permet de relier une sortie à un ensemble d'entrées pour une communication unidirectionnelle. Les niveaux de compétences sont donc formés de modules connectés sous formes de chaînes reliant les capteurs aux effecteurs. C'est à travers ce réseau de processus parallèles qu'est propagée de module en module l'information traitée par le système. Le contrôle Le contrôle est réalisé à l'aide de deux types de circuits arbitres (l'inhibiteur et Ie suppresseur) placés conceptuellement à l'intersection des fils. Chaque circuit possède deux entrées (dominant et dominé), une sortie et un temps d'arbitrage. • L'inhibiteur permet au module dominant d'inhiber tout message provenant du module dominé pendant un temps constant t¡. Le message envoyé par le dominant sert unique- ment de signal au circuit arbitre et n'est pas propagé. • Le suppresseur permet d'inhiber tout message provenant du module dominé pendant un temps constant t3. Le message envoyé par le dominant sert de signal au circuit arbitre et est propagé à la destination du fil. Il peut y avoir plusieurs inhibiteurs et/ou suppresseurs se succédant sur un même fil avec des modules dominants différents. Formalisme et implantations Le formalisme de base utilisé est proche de celui des AF. Le langage de description de l'ar- chitecture a été implanté en LISP. De plus, un compilateur permet de générer le code assem- bleur correspondant à une description d'un système particulier. Ce code peut être chargé sur différents types de processeurs. Le souci d'efficacité est caractéristique des premiers travaux de Brooks et, plus généralement, de l'approche comportementale. 41 Modélisation d'un agent autonome Figure 3.10 : La "Fourmi" Genghis. Plus récemment, un langage comportemental a été introduit, permettant de regrouper des ensembles disjoints de modules en des entités plus abstraites constituant les comporte- ments. Les mêmes mécanismes de propagation de messages, inhibition et suppression opérant entre modules peuvent apparaître entre comportements. Ceci permet de travailler à un niveau d'abstraction supérieur avec la même sémantique opératoire. Produits de la subsumption architecture La subsumption architecture a permis d'expérimenter différents systèmes évoluant dans des environnements réels. [Brooks90] décrit neuf types de robots construits dans son laboratoire, au MIT. Ces systèmes utilisent différents types de capteurs. Les plus simples tirent profit de quelques sonars et infrarouges. D'autres utilisent l'odométrie, une boussole, des cameras, des capteurs de force et des inclinomètres. Les comportements qu'ils exhibent sont typiques en robotique mobile: l'arrêt d'urgence, l'évitement d'obstacles, l'errance, le suivi de caractéristiques observables (murs, corridors, ob- jets) et la recherche de lumière ou d'ombre. La "fourmi" Genghis est certainement l'un des systèmes les plus connus. Il s'agit d'un robot muni de six pattes, pesant 1 kg. et pouvant se déplacer dans des environnements encombrés d'objets ayant une hauteur comparable à celle du robot. Genghis ne les évite pas, elle les enjambe! Propriétés et limitations Différentes motivations sont à l'origine de chacune de ces générations de robots qui, de façon empirique, démontrent les propriétés énoncées dans ce qui suit. • L'architecture reflète la volonté d'intégration de plusieurs niveaux de compétences compor- tementales permettant Vémergence d'un comportement global. On trouve cette ambition dès 3. L'autonomie par ¡'action le premier robot (Alien). Cette intégration va de pair avec la capacité de construction incrementale des systèmes (évolution par l'ajout de nouveaux niveaux de compétences à des systèmes ayant déjà fait leurs preuves dans des compétences "inférieures"). A ce propos, une question revient souvent lorsque l'on parle de la subsumption architecture: quelles sont les limites d'évolution d'un tel système, combien de niveau de compétences peut-on y intégrer? Les schémas de systèmes proposés et réalisés par l'équipe de Brooks contiennent de trois à cinq niveaux de compétence décomposés en une vingtaine de modules. En fait, cette question est liée à la difficulté de maîtriser le contrôle du système à l'aide de circuits arbitres tels que les inhibiteurs et les suppresseurs. Le travail de conception devient rapidement trop complexe pour être maîtrisé. Il suffit d'imaginer la tâche ardue du calibrage du temps d'arbitrage de chacun des circuits! Seul l'emploi de techniques adaptées d'apprentissage permettrait d'aborder une telle tâche (sans même assurer d'y parvenir). Ce fait est d'autant plus vrai que l'architecture gagnerait à envisager des valeurs temporelles dynamiques; en effet, des pondérations différentes sont nécessaires pour chaque environnement de nature différente. • La capacité de compilation des systèmes est également caractéristique des travaux de Brooks. Elle a pour but ultime de pouvoir construire des circuits VLSI équivalents. Ceci indique la volonté d'obtenir une exécution efficace (en temps réel) de ces programmes. Cette motivation va de pair avec la volonté de distribuer le contrôle dans des systèmes multiprocesseurs. Le robot-fourmi Attila [Angle-Brooks90], version plus complexe que Genghis, en est un exemple remarquable; le1 contrôle de 24 moteurs et 150 capteurs est distribué sur six pattes et 10 processeurs. • L'une des propriétés les plus défendues par Brooks est celle à*"utiliser le monde comme son propre modèle"6; l'idée est de se passer d'un modèle global du monde et de laisser les niveaux de compétences puiser l'information dont ils ont besoin directement dans le monde réel. En effet, l'environnement immédiat est censé contenir toutes les informations nécessaires à la bonne marche du système. Brooks a souvent soutenu que ses systèmes n'utilisaient pas de représentations; il a d'ailleurs écrit un article intitulé "Intelligence Without Representation" [Brooks87b]. En fait, ce qu'il avance, ce n?est pas tant de pouvoir se passer de représentations mais plutôt que ses systèmes ne sont pas décomposés en unités fonctionnelles interfacées sur la base de représentations comme nous l'avons décrit pour l'approche cognitiviste. Ses représentations sont de plus bas niveau (proches dés signaux reçus des capteurs) et surtout elles sont totalement distribuées à travers le réseau de modules. Récemment, à travers les travaux de Maja Mataric que nous décrirons au chapitre 4, des compétences de modélisation de la topologie sensorielle de l'environnement ont été ajoutées. Cela laisse envisager de nouvelles générations de créatures munies de capacités qualitativement supérieures. Nous y reviendrons car notre travail apporte justement une contribution dans ce sens à l'approche comportementale. • Une autre propriété est celle de communiquer à travers le monde; aucun comportement ne contrôle l'effet de ses propres actes de façon interne, par des modules spécialisés. Ils le font "à travers le monde" par une rétroaction continue, par réaction à la modification de leur données capteurs. Ainsi, que cette modification soit l'effet des commandes de ce comportement ou non, cela importe peu. De la même façon, aucun comportement n'informe les autres de ses actes ou de ses intentions. Ils s'en rendent compte rapidement à travers leur attention à l'état de l'environnement, par une observation continue. Là aussi, l'identité du comportement ayant causé la modification importe peu. 6On trouve une forte analogie entre cette approche et la position écologique de Gibson en théorie de la vision. 43 Modélisation d'un agent autonome Figure 3.11 : Le jeu-vidéo Pengo. (repris de [Agre-Chapman87]) Plus généralement et par rapport aux dix premières années du mouvement comportemen- taliste, Brooks, qui en est l'un des promoteurs, a le mérite d'avoir explicitement abordé le problème des architectures de contrôle et d'avoir proposé un modèle concret. Son deuxième mérite est d'avoir fait fonctionner son modèle sur des systèmes réels et variés; cette ca- ractéristique est assez rare7 parmi les équipes travaillant dans ce domaine pour être mentionnée. 3.5.2 Le système Pengì d'Agre et Chapman Dès le milieu des années 80 et suite aux limitations déduites d'une analyse systématique de la génération de plans d'actions cognitiviste, Agre et Chapman se sont penchés sur la nature de l'activité ( "everyday life activity") et ont proposé le jeu Pengo [Agre-Chapman87] comme support expérimental d'une théorie plus large sur l'activité [Agre-Chapman90]. Description du système Pengo est un jeu vidéo du genre "proie-prédateurs" constitué d'une grille contenant des cubes de glace et deux types d'agents: des abeilles (prédateurs) et un pingouin (proie). La disposition des cubes forme un labyrinthe dans lequel se meuvent les agents. Pengt est le programme visant à substituer le joueur qui, normalement, contrôle les mouvements du pingouin. Les abeilles ont tendance à chasser le pingouin et le tuent si elles s'en approchent suffisamment. Le labyrinthe peut être modifié par les agents en faisant glisser les cubes de glace par simple poussée. Tout agent percuté par un cube en mouvement est tué sur le coup et disparaît de la grille. Le but est de permettre au pingouin de survivre à ce monde hostile, en exploitant au mieux les situations qui se présentent à lui. Cette application est a mi-chemin entre les simulations sous forme de jeux du paradigme cognitiviste et les applications réelles préconisées par Brooks. Malgré la simplicité de ses com- posants, Pengo introduit par sa dynamique deux propriétés n'apparaissant pas dans les jeux classiques mais apparaissant par contre dans notre vie quotidienne: Yinceriiiude liée au mou- vement des cubes et des abeilles et l'exécution en temps réel. Ces propriétés du jeu contraignent considérablement l'architecture de contrôle du pin- gouin et la représentation utilisée. Agre et Chapman adoptent une position purement située 7Voîr [Dean-Bonasso93] pour quelques exemples de compétitions ou démonstrations d'applications en robo- tique mobile. 44 3. L'autonomie par ¡'action de l'activité; elle est ancrée dans la situation courante observée par le système. Ils rejettent également toute représentation des effets des actions et donc tout raisonnement d'anticipation. De plus, ils ne considèrent aucun état interne à l'agent et aucune mémoire des expériences faites. ; Le contrôle L'activité apparaît dans Pengi sous la forme de règles SI-ALORS telles que "si on te chasse, fuis" ou "si tu rencontres un cube, percutes-le". L'approche située implique une représentation relative à l'agent et à son activité; on parle de "l'abeille pourchassant par l'arrière" au lieu de "l'abeille 13 placée sur la cellule (23,65) en coordonnées absolues". C'est ce qu'on appelle des représentations indexicales. Nous retrouvons l'idée de "monde comme meilleur modèle de lui-même". Ce choix est Hé au traitement localisé de l'information. Il tend à éviter toute explosion combinatoire du traitement et favorise ainsi l'action par rapport au raisonnement. Dans le cadre du problème de la sélection d'actions, c'est un système central (réseau com- binatoire) qui se charge de Ia sélection des règles à appliquer, par un mécanisme de priorités qui induisent un ordre total sur les règles en fonction uniquement de la situation courante et locale à l'agent. La réalisation de l'une des actions modifie la situation (environnement local observé par l'agent) ce qui a pour effet de proposer un nouvel ensemble d'actions au mécanisme de contrôle. On peut dire que le système s'autb-alimente en activité par son activité même, grâce à la boucle d'interactions qu'il établit avec le monde. Nous retrouvons la propriété de "communication à travers le monde" qui est particulièrement bien adaptée à des applications générales en environ- nement fortement hostiles. Cette approche évite tout traitement du futur et toute considération de l'imprévisible en rendant l'activité opportuniste à l'extrême. Propriétés et limitations Comme nous !'avons vu, aucun traitement du futur, aucune expression des effets des actions ne sont considérés. Pourtant, un but existe, celui de survivre au caractère hostile de l'environne- ment. Il n'apparaît pas explicitement, mais il est contenu dans l'ensemble des règles d'activité mises à disposition du pingouin qui sont les maillons situés du comportement global devant émerger dans le temps et satisfaire le but. Cette approche soulève clairement deux problèmes méthodologiques qui sont, 1. le choix des règles ou, plusigénéralement, le choix des capacités comportementales sus- ceptibles de permettre à l'agent de réaliser certaines tâches, 2. le calibrage du contrôle. Le "secret" de l'émergence de comportements globaux adéquats-repose premièrement sur un bon choix des règles liant la perception à l'action. C'est un problème en soi que de choisir les règles (réflexes) intervenant dans le système, faisant appel à l'intuition du concepteur et nécessitant une approche empirique, accompagnée de longues séances de tests. Il est à noter que Pengi n'a' pas de mémoire et qu'il n'utilise aucun apprentissage lui permettant d'améliorer ses competences émergentes par un traitement évolutif de l'activité située, tirant profit de l'expérience. Une alternative serait précisément d'introduire l'apprentissage pour les liaisons perception- action. Ceci est certainement envisageable pour un apprentissage supervisé mais l'approche va à !'encontre de l'idée d'autonomie! Par contre, l'apprentissage non-supervisé n'est envisageable qu'en environnement simulé ou pour des espaces de perception et d'action très limités. Dans le cas contraire, le processus d'apprentissage est complexe et trop lent, dû au nombre de liaisons possibles et aux pondérations de celles-ci. i ' 45 Modélisation d'un agent autonome L'émergence des capacités globales dépend également d'un contrôle judicieux de l'activité située; deux agents disposant des mêmes règles d'activité située et de systèmes de contrôle différents auront des comportements émergents différents. A la limite, l'un survivra et l'autre non, alors que potentiellement, le vaincu pouvait survivre. Enfin, dans Ie système Pengi, Agre et Chapman ont considéré des critères fixes de priorité et ont construit manuellement les réseaux combinatoires correspondants. Ceci n'est possible que pour un petit nombre de règles. Une fois les règles données, l'application d'algorithmes d'apprentissage {les AG, en particulier8) au choix des règles permettrait d'adapter les critère de priorité à travers plusieurs générations de pingouins (phylogénétiquement, par un genre de processus lamarckien9) et éviterait la tâche fastidieuse et inappropriée de construction du réseau combinatoire. 3.5.3 Commentaires Les deux systèmes que nous avons décrits permettent d'illustrer la variété de solutions proposées à un mécanisme conceptuellement similaire: la sélection d'actions par priorités. Les niveaux de compétences du premier, structurés en une "hiérarchie" de contrôle, correspondent aux règles du second, contrôlées par un réseau combinatoire. Remarquons qu'au niveau des applications, ces systèmes se caractérisent par des tâches très générales telles que "avancer en essayant d'enjamber (ou d'éviter) les obstacles rencontrés", "se diriger vers les zones de plus grande luminosité", dans le cas des agents physiques de Brooks ou "survivre en échappant aux prédateurs", dans le cas de la simulation d'Agre et Chapman. La généralité de la tâche contraste avec son unicité; en effet, ces systèmes doivent leur polyvalence à la généralité de leur tâche et non à sa variété. Mis à part un choix aléatoire des comportements capables de s'exprimer en action, le contrôle par priorités est certainement le plus simple que l'on puisse imaginer dans le cadre du problème de la sélection d'actions. Il souffre néanmoins de sa rigidité car, dans des situations variées, des priorités différentes devraient être appliquées. Or1 dans ces systèmes, ce n'est pas le cas; soit les situations rencontrées par l'agent sont assez similaires pour assurer l'adéquation du calibrage, soit la tâche réalisée est assez générale et simple pour pouvoir s'appuyer sur une structure de contrôle figée. Finalement, malgré la simplicité de ce mécanisme, les agents dont nous avons parlé exhibent des comportements émergents qui sont loin d'être triviaux. A la limite et malgré l'apparence chaotique ou répétitive du comportement global de l'agent, celui-ci peut donner l'illusion, à un observateur non-averti, de suivre un plan préétabli. 3.6 Le contrôle par fusion Le contrôle par fusion est une solution possible au problème de l'intégration comportementale. Il consiste à calculer une réponse constituant un compromis à partir des réponses de N comportements voulant s'exprimer en action (les comportements n'ayant rien à proposer ne sont pas candidats à l'intégration). Le calcul est généralement réalisé par un système central prenant en considération toutes les réponses des comportements candidats. La technique permet d'envisager des influences variées (pondérées) des comportements sur la réponse finale du système. Une caractéristique importante de cette approche est de nécessiter des représentations permettant une interprétation uniforme des réponses. En robotique mobile, le choix de Ia 8 Voir [Bourgine-Douzal91, Ahuactzin-al.92, Booker91]. 9Le lamarckisme (de Jean-Baptiste De Monet, chevalier De Lamarck, naturaliste français, 1744-1829) est la théorie de l'évolution qui considère, d'un point de vue ontogénétique, l'influence du milieu sur le comportement et sur la morphologie de l'organisme et suppose, d'un point de vue phylogénétique, l'hérédité des caractères acquis. 46 3. L'autonomie par l'action représentation se porte généralement sur une vectorisation du mouvement de l'agent, permet- tant sa projection sur une carte métrique. Peu de travaux ont exploré cette approche. Nous allons l'illustrer par deux travaux dont la fusion porte sur des objets différents: celui d'Anderson et Donath [Anderson-Donath90] s'intéresse à la fusion de comportements alors que celui de Payton [Payton90] fusionne des buis. 3.6.1 Fusion comportementale: Anderson et Donath Plusieurs raisons nous ont poussé à choisir ce travail pour traiter l'approche de fusion compor- tementale: • il aborde différentes questions que nous traitons également dans notre travail, en par- ticulier: qu'est-ce que l'autonomie, peut-elle découler d'unités d'activité ayant la forme du réflexe, une activité réactive est-elle nécessaire, quels mécanismes de contrôle com- portemental sont adaptés, enfin, quel est le rôle de la mémoire au niveau de chaque comportement indépendant et au niveau du système global? • ses fondements sont tirés d'études du monde animal, ce qui permet d'illustrer les choix réalisés et les limitations de l'approche; dans ce sens, leur article est riche en informations pluri-disciplinaires et s'ouvre au courant des sciences cognitives, • l'application de ce travail est également celui de la robotique mobile et y est décrite de façon extensive. Cet aspect est assez rare pour être valorisé, particulièrement dans une problématique de comparaison des approches, • nous avons pu reproduire leurs expériences dans le cadre de notre environnement de travail, ce qui nous a permis, par l'expérience, d'apprécier concrètement la portée de leur approche. Fondements D'une étude du comportement animal, les auteurs extraient huit règles qui, à leurs yeux, sont essentielles à l'autonomie animale: 1. Tous les animaux possèdent, à un certain niveau, un ensemble de comportements innés leur permettant de répondre à différentes situations. 2. A tout moment, le type de comportement exhibé est le résultat d'un mécanisme interne de choix comportemental. 3. Un comportement complexe peut résulter de l'application séquentielle d'ensembles de comportements primitifs se déclenchant les uns les autres. 4. Des comportements réflexes, simples, indépendants de facteurs externes fournissent une protection à l'animal. 5. L'activation de comportements plus complexes est liée à des facteurs internes aussi bien qu'externes, 6. Les animaux ont développé des capteurs spécialisés leur permettant de discriminer les informations utiles dans l'espace sensoriel, évitant ainsi Ie traitement des informations inutiles. 7. Les comportements sont souvent organisés hiérarchiquement, les plus complexes résultant de l'intégration d'unités comportementales simples. 47 Modélisation d'un agent autonome Figure 3-12 : Architecture de fusion chez Anderson et Donath. 8. Des conflits comportementaux apparaissent chez les animaux. Ces observations rappellent certaines propriétés trouvées dans les systèmes décrits précé- demment. Ils sont la toile de fond de l'architecture d'Anderson et Donath. Le comportement primitif et l'émergence comportementale Du point de vue de l'observateur, Anderson et Donath modélisent le comportement comme une réponse réflexe (innée et rigide) à un stimulus particulier. D'un point de vue interne, il s'agit d'un ensemble de processus par lesquels le système perçoit à la fois le monde externe et son état interne, et répond aux changements qu'il perçoit? Les comportements n'ont pas de mémoire, ce sont des réactions instantanées aux situations observées appartenant à l'une des deux catégories suivantes: attraction ou répulsion10. Ces comportements sont indépendants, ce qui implique qu'ils ne se contrôlent pas entre eux. Le système de contrôle est découplé des comportements. L'une des originalités de l'approche est l'étude de mécanismes permettant l'intégration (point 7) par fusion, et non par séquencement (point 3), de comportements indépendants en un comportement plus complexe. Pour cela, les auteurs utilisent des champs potentiels (représentation uniforme inspirée de la physique) leur permettant de projeter l'ensemble des données comportementales sur un plan unique. Ces champs potentiels ont la propriété de permettre une intégration de l'ensemble des tendances comportementales en une réponse unique qui est la somme pondérée de l'ensemble des réponses. Dans le cas de la robotique mobile, le champ potentiel est appliqué généralement sur une carte polaire centrée sur le robot, permettant de représenter toutes les réponses des comporte- ments sous la forme de vecteurs de mouvement. La réponse du système, après fusion, sera un nouveau vecteur, somme pondérée des réponses obtenues des comportements mis en jeux. Les onze comportements primitifs traités dans le travail d'Anderson et Donath sont donnés dans la figure 3.13. Cette base comportementale leur a permis de construire et d'observer six comportements émergents correspondant à six combinaisons particulières des comportements de base. Propriétés et limitations Le mécanisme de fusion est simple. La difficulté réside dans la recherche d'une représentation permettant une expression uniforme des réponses de l'ensemble des comportements. Leur choix s'est porté sur les champs potentiels. Ce choix paraît naturel lorsqu'il s'agit de déplacements. Il est donc particulièrement adapté à des tâches de navigation en robotique mobile. I0Calquée des deux orientations observées dans les tropismes (taxies et pathies) des organismes vivants, cette classification dichotomique des comportements de bas niveau est souvent -faite dans les travaux comportemen- talistes. Dans le domaine multi*agents en IA, Jacques Ferber [Ferber90] propose également des agents situés permettant, par des réactions locales et primitives de ce genre, de résoudre des problèmes globaux tels que le N-puzzie [Drogoul-Dubreil9l]. 48 3. L'autonomie par l'action zx: -------O Primitive Reflexive Behaviors Emergent Behaving ]. passive avoidance a. generalized wandering 2. active avoidance 3. location attraction 4. forward attraction 5. object attraction 6. object following CW 7. object following CCW 8. open space attraction 9. narrow open space attraction 10. wide open space attraction 11. location directed open space attraction b. simple navigation c. perimeter following (CW or CCW) d. wide open space wandering e. narrow open space wandering f. location directed open space wandering Figure 3.13 : Onze comportements primitifs et six comportements émergents par fusion de différentes combinaisons. D'autres auteurs ont utilisé des représentations sous forme de champs potentiels liées à des comportements d'attraction et de répulsion ou simplement à des représentations de l'environnement11. • Il est intéressant de constater que l'intégration d'un ensemble de comportements dans cette architecture fournit un nouveau comportement émergent, normalement plus complexe, de même nature: les entrées et sortie du comportement émergent s'expriment dans les mêmes espaces que celles des comportements primitifs. Ceci permet d'envisager l'application de ce même mécanisme de fusion à des niveaux com- portementaux de complexités différentes. Pourtant, si les exemples donnés permettent de comprendre le comportement émergent comme fusion des comportements primitifs considérés, ceci serait-il encore vrai pour des fusions de comportements plus complexes? Cela est peu probable. Le comportement émergent aurait- il, à nos yeux, encore une cohérence ou même une régularité observable? Nous retrouvons le problème des critères à envisager dans le choix des comportements à intégrer. • Une autre caractéristique de l'approche de fusion est de considérer, de façon naturelle, Vintensité de la réponse donnée par chacun des comportements et ceci indépendamment des facteurs utilisés dans la somme pondérée. En effet, la plupart des approches comportementales considèrent uniquement la présence ou non de réponse comme premier critère de sélection. L'intensité est rarement prise en compte pour le choix final. • Cette approche requiert un traitement de bas en haut; étant donnés un ensemble de com- portements primitifs, il s'agit d'expérimenter différentes pondérations de combinaisons parti- culières. Il est, en effet, délicat d'aborder le problème par le haut en croyant pouvoir décomposer un comportement en comportements primitifs et trouver la pondération adéquate pour favori- ser l'émergence désirée. Les deux opérations (décomposition et pondération) sont, une fois de plus, difficiles à maîtriser. • Techniquement, une combinaison de comportements correspond à une tendance fixe. Or, si l'implantation de chaque comportement primitif permet et demande un calibrage fin de [Gatt-Möller9l] constitue un bon exemple où les obstacles observés sont reportes sur une grille d'occupation [Elfes-Talulcdar83] et'les relations de proximité entre cellules sont exploitées pour extraire le squelette de l'espace libre par une technique globalement similaire. Cc squelette sert ensuite de caractéristique sur laquelle asservir le comportement en' attraction pour des tâches de navigation, 49 Modélisation d'un agent autonome Ia liaison perception-action afin d'exhiber des comportements robustes à une variété impor- tante de situations, cette robustesse est difficile à maintenir pour le comportement émergent, résultat de l'intégration des comportement calibrés. L'approche ne permet à ce moment que la modification des facteurs de pondération de l'opération de fusion. • Les tests réalisés par Anderson et Donath ont permis d'extraire deux problèmes liés à l'architecture de fusion: le blocage dans des minima locaux et les comportements cycliques. - Deux comportements intégrés peuvent, à un moment donné et en certaines situations bien précises, fournir des réponses s'annulant parfaitement, alors qu'on ne s'attend pas à ce que leur fusion fournisse une réponse nulle. Ce problème est directement lié à la méthode de sommation vectorielle. Plusieurs solutions sont proposées telles que l'ajout de bruit sous la forme d'un vecteur supplémentaire, l'amélioration des fonction de pondération ou encore l'ajout d'un système superviseur détectant ces situations et fournissant une réponse. La première solution est la plus simple à mettre en pratique et la plus justifiable conceptuellement. - Les comportements intégrés entrent parfois dans des cycles d'exécution. Ceci est dû es- sentiellement au caractère situé de la réponse; ces comportements ne font que réagir à l'environnement, ils perçoivent et répondent instantanément, ce qui les laisse à la merci des caprices de leur environnement. Heureusement, les applications en conditions réelles introduisent généralement suffisamment de bruit pour permettre à ces agents de s'extraire de ces bassins d'attraction. • Enfin, Anderson et Donath ont voulu expérimenter les effets de Vabsence de mémoire dans leurs comportements. Ils considèrent ne pas avoir besoin de mémoire pour ce type d'applica- tions. Pourtant, des comportements sans mémoire sont extrêmement sensibles aux perturbations rencontrées dans des applications en conditions réelles. La mémoire est un facteur essentiel à la stabilité du comportement. Elle permet un traitement portant sur des successions d'obser- vations, ce qui rend la réponse plus adaptée à la dynamique de l'environnement. 3.6.2 Fusion de buts: les plans internés de Payton David Payton s'est fait remarquer pour ses travaux en planification hiérarchique au début des années 80. Par la suite, il a également abordé le problème de l'intégration du raisonnement dans le cadre d'un système autonome. Il considère que le problème de la planification hiérarchique, et de la génération de plans d'actions classique en général, est celui d'introduire, à travers des abstractions, des "barrières à l'interprétation"; la synthèse de données symboliques modifie (appauvrit) le contenu informationnel et provoque des pertes de connaissances. Fondements Payton propose de considérer la notion de plan non plus comme une programmation de l'action (approche classique), mais comme une ressource pour l'action. Le plan doit être une compilation des connaissances du monde permettant d'améliorer les performances d'un système formé de processus continus de décision. La notion de plan comme ressource est proche de celle du plan comme communication de Agre et Chapman [A gre-Chap m an 90]. Le plan est ici linguistique; il dit ce qu'on doit faire ("aller jusqu'au prochain croisement puis tourner à gauche") et non comment le faire. Néanmoins, Payton considère que ces plans linguistiques sont encore trop abstraits et, quoiqu'adaptés aux capacités d'interprétation de l'Homme, incompréhensibles par une machine. Pour illustrer son approche, Payton utilise l'analogie de la "boussole fantôme" qui donne à tout instant une orientation générale du chemin à prendre ou du choix à faire. Il est prévu que 50 3. L'autonomie par l'action Figure 3.14 : Carte gradient 2D. (repris de [Payton90]) cette approche permette des réactions opportunistes aux changements observés du monde en fournissant toutes les possibilités d'orientation dans une représentation adéquate du monde12. Représentation par gradient Payton place la notion de plan d'actions au niveau de la représentation. Il recherche une représentation uniforme des connaissances permettant d'organiser l'information utile pour un problème donné, sans abstraction superflue, et de fournir cette représentation directement à l'interprétation du système. Le résultat de cette démarche est l'obtention de ce qu'il appelle un plan interné. Pour cela, il utilise des représentation par gradient (au sens de l'opérateur mathématique). Dans son article [Payton90], il l'applique à la navigation d'un robot mobile à partir d'une carte 2D du monde. Dans une telle représentation, le gradient correspond à la direction de propagation d'une vague d'activation. Celle-ci décroit à partir d'un ensemble de buts localisés sur la carte en évitant les endroits non-navigables. Ainsi, en tout point navigable de la carte, il existe un vecteur donnant l'orientation à prendre pour atteindre l'un des buts, ce qui donne à la carte l'apparence d'une carte des courants maritimes convergeant sur les buts13. Propriétés et limitations Payton propose de considérer la donnée d'un gradient lié à un critère de décision, comme une donnée sensorielle de plus, au même titre que celles provenant des capteurs. Ainsi, le comportement du système est une réponse reposant sur l'interprétation de sources externes (données capteurs) et internes (carte de gradients). Cette représentation du plan comme ressource permet de prendre en compte d'autres cont- raintes que la navigabilité: par exemple, la consommation d'énergie ou le temps pour atteindre le but. En effet, -plus on est loin du but et plus on doit consommer de l'énergie et du temps pour l'atteindre. La technique du gradient permet de refléter ces informations. De plus, les contraintes peuvent se propager de façon irrégulière, en fonction de la difficulté ou du risque liés à la navigation dans certaines zones. Les cartes représentant ces différentes contraintes sont donc autant de critères de décision pouvant influencer le comportement du système. Ainsi, l'approche de fusion de buts permet de considérer plusieurs critères dans les processus de décision. A la limite, chaque critère est reporté sur une carte différente. De plus, les critères 12Dans ce sens, l'approche de Payton rejoint le travail de Schoppers (universal plans [Schoppers87]) qui exprime, dans un formalisme d'opérateurs proche de STRIPS, toutes les possibilités pouvant être considérées. 13Dans une optique similaire, Luc Steels propose également des représentation analogiques supportant des propagations parallèles sous la forme de gradients de caractéristiques du monde telles que la proximité ou l'intensité (Steels88, 90, 91]. 51 Modélisation d'un agent autonome sont considérés équitablement; a priori, une contrainte temporelle peut devenir aussi importante qu'un obstacle à contourner. L'un des avantages majeurs d'une représentation sous forme de gradient est de proposer instantanément Vensemble de tous les chemins optimaux menant aux buts. Le calcul du gra- dient est malheureusement un processus lourd, gourmand en temps de calcul. Généralement, la propagation de la "vague" se fait jusqu'à une certaine distance du but (horizon) qui permet de couvrir au moins la position courante du robot. Une hypothèse forte de l'approche par gradient est de posséder des mécanismes d'auto- localisation fiables. En effet, une petite variation de la position du robot projetée sur la carte peut conduire à des propositions d'orientation totalement opposées. Malheureusement, Vhypotkèse de localisation précise est illusoire pour des applications réelles où la dérive et l'imprévu sont des problèmes en soi. Payton propose néanmoins d'exploiter ce problème délicat en extrayant les régions critiques14 à partir de la carte du gradient. Cette analyse lui permet de savoir • où la carte gradient n'est pas utilisable vu le risque d'être mal localisé (là où une petite variation peut porter à conséquence), • où le système doit être attentif dans sa perceptipn et dans son action. En rapport avec le deuxième point, la carte gradient peut servir à une confrontation des données calculées a priori avec celles calculées sur la base des observations courantes. Discussion De tout ce qui précède, nous constatons que l'approche du gradient est une technique permet- tant de fusionner a. des critères multiples de décision, b. des buts multiples. L'application du gradient à des cartes 2D de l'environnement pour des tâches de navigation est directe et naturelle. Elle exploite les propriétés de distance de la géométrie euclidienne pour déterminer l'état du système en position et orientation. Pour d'autres domaines, il est plus délicat de définir les états du système et de les percevoir. Cette technique pourrait être utilisée sur des connaissances de proximité non-métriques; elles porteraient, par exemple, sur les transitions entre états provoquées par des opérations de base. Payton en exprime la possibilité sans toutefois envisager d'applications autres que géométriques. 3.6.3 Commentaires Le contrôle par fusion constitue une excellente illustration de l'importance du choix de repré- sentation dans les mécanisme d'intégration. Pour pouvoir coordonner des comportements, il faut pouvoir les mettre en rapport, les comparer. Les deux techniques décrites - champs potentiels pour fusion comportementale (A) et cartes gradients pour fusion de buts et de critères (B) - possèdent des avantages essentiels par rapport aux techniques classiques de planification: • Les calculs sont locaux (A) et, même lorsque les calculs sont globaux (B), les décisions sont locales (A et B). 14Une région critique est justement celle où une petite variation de la position estimée peut conduire à des réponses très différentes. Payton utilise des techniques mathématiques d'intégrales circulaires pour déterminer les zones critiques. 52 3. L'autonomie par ¡'action • Le résultat fournit l'ensemble des plans possibles (B). En fait, la propagation du gradient peut être vue comme la phase de planification off-line (comme dans l'approche cognitiviste), étant donné un ensemble de buts. La différence est qu'ici on planifie vers ces buts pour tous les états initiaux possibles. L'avantage est de ne pas avoir à replanifier lorsque le situation change de façon imprévue. La propagation du gradient n'est reconduite que lorsque les buts changent. • L'action et la décision s'y succèdent sur de petits intervalles de temps. (A) réalise un calcul local entre chaque action alors que (B) utilise le résultat d'un calcul fait auparavant et une fois pour toutes. • Des buts et des critères multiples (disjonctifs) peuvent être traités simultanément et de la même façon. Il est également intéressant de comparer les deux types de représentations (A) et (B) entre elles. Le calcul de (A) est simple, peu gourmand en temps de calcul et localisé. Il est réalisé en cours d'exécution. Celui de (B) est lourd mais se fait une fois pour toutes étant donné un ensemble de buts disjonctifs et un état de la carte (connaissance). Alors que (B) donne une orientation pour tout point de l'espace d'états, (A) donne une orientation uniquement sur l'état courant. (B) se prêterait donc bien à des traitement de prévision alors que (A) ne permet qu'un traitement situé, sans anticipation. Enfin, l'utilisation de (A) pousse parfois le système dans des minima locaux (lorsque les forces primaires s'annulent). Par contre, (B) les évite (en ne s'intéressant qu'à un seul but s'il le faut) par Ie fait que la fonction d'activation liée à chaque gradient décroît de façon monotone en s'éloignant du but. Cette dernière propriété est importante pour des applications pratiques. Elle permet de valoriser considérablement les techniques de gradient. 3.7 Le contrôle par compétition Le contrôle par compétition est une solution possible au problème de la sélection d'actions. Il consiste à structurer les AT comportements en un réseau d'influences et à établir les lois d'une dynamique qui permette d'instaurer une compétition portée par le réseau. Les éléments du réseau possèdent une valeur d'activation propre qui est continuellement remise en question par les influences propagées vers leurs voisins et reçues de ces derniers. Sur la base de cer- tains critères, le comportement sortant vainqueur de cette compétition continue (celui ayant Pactivation la plus élevée) s'exprime en action. Dans les deux approches précédentes, contrôle par priorité et contrôle par fusion, les com- portements sont des éléments indépendants les uns des autres. Ils n'interagissent pas entre eux. Le mécanisme de contrôle centralisé constitue leur seule liaison. Par contre, dans le contrôle par compétition, les comportements sont interconnectés suivant des connexions de différentes natures à travers lesquelles ils entrent en compétition par des influences positives ou négatives. Les comportements forment donc une structure particulière, animée d'une dynamique interne d'où émerge un contrôle par compétition. La technique permet d'envisager une co-évolution entre la structure et la dynamique de compétition qu'elle porte. Ceci a néanmoins rarement été étudié15. Nous allons illustrer cette approche par deux travaux d'inspirations très différentes. Chez Pattie Maes, ce sont des opérateurs (du type STRIPS) qui sont en compétition alors que chez Randall Beer on retrouve le même mécanisme de compétition à deux niveaux; plusieurs pseudo-neurones interagissent pour la réalisation de chaque comportement de base et les com- portements eux-mêmes sont en compétition à travers un réseau similaire. 15La morphodynamique, que nous mentionnerons au paragraphe 3.8-3, traite ce problème en profondeur. 53 Modélisation d'un agent autonome 3.7.1 Compétition d'opérateurs STRIPS: Pattie Maes Le travail de Pattie Maes se centre sur le problème de la sélection d'actions, dans une approche boitom-up, avec le but d'intégrer la capacité de planification dans un agent situé. Son hypothèse de travail est que la sélection d'actions peut être une propriété émergente de la dynamique d'activation-inhibition entre les différentes actions de l'agent. Son but est de retrouver les fonctionnalités de l'approche deliberative à travers une approche distribuée (évitant tout contrôle centralisé), faisant émerger un contrôle rationnel à partir d'interactions locales entre les éléments du système (les opérateurs). Enfin, la structure du système est fixe étant donné un ensemble particulier d'actions. Un simulateur lui a permis d'en étudier différentes dynamiques d'activation-inhibition. Fondements Cette approche s'attache aux caractéristiques que doit, d'après l'auteur, présenter un "bon" mécanisme de sélection, à savoir: • favoriser les actions susceptibles de réaliser les buts, • favoriser les actions adaptées à la situation courante, • favoriser les actions qui s'inscrivent dans une démarche à long terme, • être capable de prévoir à plus ou moins long terme, • être robuste à des pannes de certains composants, • enfin, être réactif et rapide. Certains de ces points étant contradictoires (les deux premiers le sont fréquemment, par exemple), le mécanisme doit présenter une certaine flexibilité de façon à trouver un bon équilibre entre ces caractéristiques en fonction des particularités de l'environnement et de la tâche à réaliser. Description du système Un agent est muni d'un ensemble fixe d'actions nommées "modules de compétences" (que nous nommerons modules). Le formalisme utilisé pour décrire les modules est celui des opérateurs STRIPS. Ainsi, tout module m,- est formalisé par le quadruplet (c¿, a¿, di, üí) où • a, est la précondition (ensemble de faits devant être vrais pour que ?n¡ soit exécutable). • a,- est V ad a-liste. • di est la rfe/eie-liste. • ai est le niveau d'activation. La description du monde, et de la situation courante en particulier, se fait, comme dans ST- RIPS, par des conjonctions de faits en exploitant l'hypothèse du monde clos. Cette description ne s'intéresse qu'à l'interface causale entre le système et le monde et fige cette interaction une fois pour toutes. Elle se situe, comme dans l'approche cognitiviste, au-dessus de tout détail lié à la sémantique de l'action elle-même. Avec ce seul formalisme, le système peut être construit. En effet, les modules sont reliés par trois types de liens en un réseau décrit par les formules c,-, a,- et d,-. Il existe • un lien successeur de rnx à my pour chaque proposition p G ax f]cy. • un lien prédécesseur de mx à my pour chaque proposition p€cxf)ay. • un lien conflictuel de mx à my pour chaque proposition p£cxf)dy. 54 3. L'autonomie par ¡'action ì pick-up-sander ^ ^ put-down-sprayer F sand-board -+------------put-down-sander GOALS Figure 3.15 : Un réseau d'opérateurs, (tiré de [MaesÖOb]) Ces trois types de liaisons déterminent a priori la structure du réseau. Finalement, sur la base de cette structure, Maes définit une dynamique de compétition à travers l'attribution d'une variable d'activation à chaque module, la spécification de sour- ces d'activation externes sur les éléments du réseau et les règles de propagation interne de l'activation16. Le réseau peut recevoir de l'activation externe provenant de trois sources: la situation courante, les buts courants ou les buts réalisés et protégés. Ainsi, • un module m, est activé en fonction du nombre de propositions de c,- apparaissant dans la situation courante. Il est plus ou moins adapté à la situation ou simplement réalisable (proximité à Ia situation). • un module m,- est activé en fonction du nombre de proposition de a, apparaissant dans le but courant. U est susceptible de le satisfaire (proximité au but). • un module m,- est désactivé en fonction du nombre de propositions de d¡ apparaissant dans un sous-but réalisé et protégé. Il est susceptible de le détruire. L'activation du réseau est continuellement mise à jour en fonction de la situation courante, du but de l'agent et des sous-buts déjà réalisés qui sont automatiquement protégés. Enfin, les liens entre modules permettent de propager cette activité externe à travers le réseau, de la façon suivante: • Activation des successeurs: un module Tn1 exécutable propage une fraction de son activité Qx vers ses successeurs iny dont la proposition p G ax f\ cy est fausse. C'est une activation d'exécutabilité, ou activation "en avant", car l'exécution de mx favoriserait celle de my par la satisfaction de p. Activation des prédécesseurs: un module Tn1 non-exécutable propage une fraction de son activité ax vers ses prédécesseurs my dont la proposition p G cxf]ay est fausse. C'est une activation d'appuis, ou activation "en arrière", car elle favorise les modules qui peuvent rendre mx exécutable. Inhibition des conflictuels: un module mx (exécutable ou non) réduit d'une fraction de son activité ax celle de ses conflictuels my dont la proposition p £ Cx f] dy est vraie. Cette inhibition tend à éviter qu'un module my détruise une précondition réalisée et rende mx moins exécutable. Remarquons qu'une propagation d'activité sous cette forme correspond à construire un gradient à travers le graphe, 55 Modélisation d'un agent autonome La figure 3.15 représente le réseau de connexions d'un problème traité17. Dans ce travail, l'algorithme général se résume donc à une boucle du genre: 1. calculer l'influence externe 2. calculer l'influence interne au réseau en propageant 1'activation 3. normaliser les activations pour éviter de diverger 4. sélectionner un module Les critères de sélection d'un module mx sont 1. mx est exécutable 2. ax est supérieur à un seuil global préétabli 6, il est donc sélectionnable. 3. Cix est supérieur ou égal à Pactivation de tous les aukes modules sélectionnables. En cas d'égalité, un choix aléatoire est réalisé parmi les candidats. Si aucun module ne satisfait le critère, on recommence une boucle principale après réduction du seuil ô. Calibrage La dynamique du système se résume à un traitement instantané et distribué. Elle permet d'observer a posteriori des caractéristiques plus globales telles que la séquence des actions sélectionnées, son optimalité et le temps consommé pour sa génération. Cinq paramètres permettent de varier la dynamique globale du système, à savoir: 0, le seuil d'activation, tt, la moyenne des activations, <£, l'activité injectée par une proposition vraie dans le réseau (influence de la situation), y,l'activité injectée par un but dans le réseau (influence du but), 6, l'activité prise du réseau par un sous-but protégé. Les fractions d'activité propagées dans Ia dynamique interne tiennent également compte de ces paramètres. La variation de ces paramètres permet donc d'équilibrer les propriétés émergentes du système telles que • orientation but (goal-orientedness) f exécutabilité-opportunisme (situatedness), • rigidité du plan (inertie) / flexibilité, • raisonnement / rapidité, • sensibilité aux conflits entre buts. Propriétés et limitations L'approche de Maes retient notre attention essentiellement dans le sens où elle allie les aspects situés et orienté-but que nous considérons nécessaires à l'autonomie d'un système. On peut néanmoins mettre en exergue d'autres propriétés telles que • faire de la "vraie" planification réactive, dans le sens où elle intègre l'action et le raisonne- ment grâce à une dynamique d'activation tenant compte continuellement de l'état du monde et des buts de l'agent, 1 ' Les arcs courbés indiquent les activations externes au réseau, provenant de l'état courant et des buts. Les arcs B correspondent à des activations "arrière" vers les modules prédécesseurs, les F correspondent à des activations "avant" vers les successeurs et les / sont des inhibitions sur les conflictuels. 56 3. L'autonomie par ¡'action • concilier l'orientation-but et l'orientation-situation: la dynamique d'activation se fait es- sentiellement dans deux sens; en avant (de la situation aux buts) et en arrière (des buts à la ' situation). Ces deux courants sont intégrés au niveau de chaque module par une simple somme de !'activation. Ceci permet de favoriser l'une ou l'autre,des tendances en variant le rapport des paramètres 4> et 7, • le système est sensible aux modifications de l'état du monde ou des buts de l'agent en cours d'exécution, ce qui en fait un système réactif. Cette réactivité peut être plus ou moins marquée suivant la valeur des paramètres, • un plan émerge de l'interaction entre actions structurées en un réseau figé. Finalement, les limitations que l'on peut imputer à l'algorithme proposé sont: • l'apparition de boucles dans la séquence d'actions émergente pour certains problèmes don- nés. Ceci est dû essentiellement au fait qu'aucune mémorisation de l'historique n'est considérée, • le fait de figer la structure causale par ia description des opérateurs à l'aide du forma- lisme STRIPS. L'auteur a récemment envisagé l'apprentissage de ces connaissances. Malheu- reusement, seule une pondération des connexions causales est envisagée, la structure causale elle-même restant similaire [Maes-Brooks91], • la sensibilité aux calibrage: en effet, suivant les situations, une configuration précise de pa- ramètres est plus ou moins souhaitable. Par exemple, l'algorithme résout correctement l'ano- malie de Sussman18 pour certaines valeurs des paramètres et tombe dans des boucles pour d'autres. Le calibrage est donc dépendant du problème et de l'agent (ensemble de modules, taille des préconditions, adrf-listes et rfe/eie-listes qui déterminent la structure du réseau). 3.7.2 Compétition de pseudo-neurones: l'Aplysia de Beer L'approche comportementale considère que les animaux manifestent la plupart des propriétés requises par un agent autonome. Elles s'inspirent de modèles souvent extraits de travaux étholo- giques19. Certains travaux poussent, l'analogie jusque dans la structure interne (neuronale) des mécanismes générant le comportement animal et s'inspirent de modèles neuroéthologiques30. C'est le cas de l'approche adoptée par une équipe de l'Université de Case Western Reserve aux Etats-Unis où Randall Beer, Hillel Chiel et Leon Sterling simulent des insectes artificiels en reproduisant partiellement l'architecture du système nerveux de certains animaux naturels dits "simples". Leur travail va nous servir d'illustration pour l'approche dite neuro-m i met ¡que [Beer90, Beer-al.90, Beer-Chiel91]21. Fondements Leur travail porte sur deux caractéristiques essentielles du comportement animal: l'adaptation et la plasticité. La capacité d'adaptation correspond à un ajustement continu dans son interaction avec le monde en fonction à la fois de la situation observée (fuite, attraction) et de sa structure physique ou physiologique (amputations, lésions internes). lsVoir paragraphe 2.6 ^Uéthohgit s'occupe de l'étude du comportement animal dans son environnement naturel. 20La neuroétkologie s'occupe de l'étude des mécanismes neuronaux sous-jacents aux comportements. 2'Relevons au passage la composante interdisciplinaire de l'équipe: on y trouve un informaticien, un biologiste et un mathématicien. 57 Modélisation d'un agent autonome Figure 3.16 : Vue de l'animal simulé, (repris de [Beer-al.90]) La plasticité se rapporte à la capacité d'ajuster ses comportements aux conditions parti- culières du type d'environnement dans lequel il faut évoluer et survivre en fonction de l'histo- rique de son interaction. Différentes classes de plasticité sont mentionnées telles que !'habitua- tion, la deshabituaron, la sensibilisation ou l'apprentissage associatif. Nous en développerons certaines au chapitre 9, dans le cadre de notre travail. Niveaux de comportements Beer et ses collaborateurs distinguent quatre catégories de comportements: • les réflexes: réponses rapides et stéréotypées à un stimulus venant de l'environnement et dont l'intensité et la durée sont fortement couplées à celles du stimulus, • les taxies: réponses orientées à un stimulus tel que la luminosité, la gravitation ou des signaux chimiques, • les schémas d'action fixes: comportements plus complexes, souvent plus longs que le réflexe et dont l'intensité et la durée n'est pas liée à celles du stimulus déclenchant mais à un état interne, • enfin les comportements motivés qui dépendent également de l'état interne de motivation; ces derniers se caractérisent par le groupement et le séquencement de comportements de base, leur orientation vers un but, leur spontanéité dans le sens qu'aucun stimulus externe n'est nécessaire à leur déclenchement, leur variation d'intensité dans leur réponse, en fonction du degré de motivation, leur persistance malgré la disparition de stimulus externe et leur faculté d'apprentissage associatif. De plus, leur travail comprend une expérimentation à travers la simulation d'un insecte constitué de six pattes et deux antennes. Il est muni de différents capteurs tactiles et chi- miques et possède un état interne d'énergie. Cette énergie est consommée régulièrement par le métabolisme et peut s'accroître par la capacité de l'insecte à s'alimenter. L'objectif est de construire un insecte qui puisse survivre dans un environnement où il peut puiser de la nour- riture dont l'odeur est propagée en fonction de la quantité de nourriture et de la distance la séparant de l'insecte. Si le niveau d'énergie atteint la valeur zéro, l'insecte meurt. Les comportements de base dont est doté l'insecte sont • la locomotion: capacité de se mouvoir en ligne droite par une coordination adéquate des six pattes en évitant à l'insecte d'être déséquilibré, 58 3. L'autonomie par /'action • l'errance: locomotion introduisant aléatoirement des forces latérales générant des rota- tions, • le suivi des bords détectés d'obstacles (taxie): maintien de l'angle avec un obstacle détecté par contact des antennes, • enfin, Valimentation (schéma d'actions): orientation de la locomotion en fonction d'un état de faim et du champs d'odeurs détecté (taxie) , et consommation de la nourriture une fois détectée (schéma d'actions). De plus un mécanisme de contrôle des interactions entre ces capacités comportementales est introduit. Support neurobiologique du comportement animal Les auteurs s'intéressent à la reconstitution de la structure du système nerveux sous-jacente aux comportements décrits. Ils recherchent le type d'organisation nécessaire à expliquer l'émergence des principes observés dans les comportements. La réponse se situe à deux niveaux: les types de connexions et la dynamique des circuits neuronaux. Les différents niveaux de comportements se distinguent, en effet, par la complexité des connexions menant de la perception à l'action. Les réflexes se caractérisent essentiellement par des connexions directes entre neurones sen- soriels (reconnaissant des stimuli sensoriels) et les motoneurones (responsables de la réponse). Ces liaisons simples présupposent une analyse sensorielle rudimentale et expliquent le caractère stéréotypé des réponses. Les taxies sont également produites par des circuits simples permettant une comparai- son de l'information des récepteurs sensoriels à différents endroits du corps afin de favoriser l'orientation de la réponse dans des attitudes d'attraction ou de répulsion. Les schémas d'actions reposent sur des circuits plus complexes et encore peu étudiés per- mettant la génération de schémas d'activité moteur sur des intervalles temporels. L'explication donnée à des comportements rythmiques tels que la marche ou la nage est l'existence de circuits particuliers (circuits de pulsation); ils permettent d'expliquer Ia régulation sur la base de leur dynamique interne et des connexions inter-synaptiques entre circuits différents en exploitant en particulier des rétroactions sensorielles. Dans leur application à la modélisation d'un insecte, leur modèle du neurone est à mi- chemin entre le neurone naturel, dont la dynamique interne est évolutive et peut être spon- tanée, et le modèle extrêmement simplifié rencontré dans l'approche connexionniste dont la dynamique est donnée par une fonction non-linéaire. Leur modèle se différencie de ces derniers essentiellement par l'introduction d'un courant intrinsèque, dépendant du temps, qui provoque sporadiquement des réponses spontanées. Cet ajout ne semble toutefois pas apporter de modi- fication qualitative. Il va simplement dans le sens d'un neuro-mimétisme accru. Deux types de connexions synaptiques sont également utilisées: l'une permettant à l'activité d'un neurone d'interrompre la connexion entre deux autres neurones, l'autre permettant d'en modifier l'intensité par un facteur multiplicatif. Les architectures de circuits expérimentés sont pour la plupart inspirés de systèmes nerveux d'animaux "simples" tels que l'Aplysia (mollusque marin). Ainsi, pour leur comportement de locomotion, par exemple, ils utilisent pour chaque patte un circuit de sept neurones et dix connexions synaptiques excitatrices ou inhibitrices. L'un de ces neurones est partagé par les six pattes; il s'occupe de donner le rythme du mouvement coordonné22. L'équilibre de l'insecte Sur la figure 3.17, les pseudo-neurones stance et swing déterminent la force avec laquelle la patte avance ou recule. Foot détermine si la patte est en l'air ou posée. Le neurone P donne le rythme du mouvement alterné avant-arrière. Les deux neurones de droite provoquent le changement de position de la patte une fois l'angle maximal atteint dans un sens ou dans l'autre. Enfin, le déclenchement du tout dépend du degré d'activation du neurone LC qui correspond au besoin de locomotion. Les arcs correspondent aux connexions synaptiques: triangle = excitation, rond = inhibition. 59 Modélisation d'un agent autonome Stance Fool Swing Backward Angle Sensor Forward Angle Sensor Figure 3.17 : Les neurones et leurs connexions synaptiques; circuit contrôleur d'une patte. (repris de [Beer-al.90]) Figure 3.18 : Structure d'inhibition entre les circuits de pulsation de chaque patte, favorisant l'équilibre de l'agent, (repris de [Beer-al.90]) est assuré par l'application d'une règle simple sur la topologie des pattes; deux pattes adjacentes s'inhibent mutuellement, ce qui permet la synchronisation des pattes non-adjacentes. Enfin, à travers leur simulation, cette architecture a permis d'observer deux phénomènes particuliers: • l'étude du mouvement de l'ensemble des six pattes permet de s'intéresser aux traces au sol laissées par l'insecte, comme si celui-ci marchait sur un terrain enneigé. La succession des motifs de traces à des vitesses de marche différentes sont similaires à celles observées sur l'animal modélisé! • en rapport avec la plasticité et la robustesse des comportements, l'insecte est résistant à certaines lésions internes portant sur la structure synaptique du circuit. Des germes de motivation Sur la même base neurobiologique, les auteurs expliquent l'influence de l'état interne de l'animal sur son comportement, à travers: • l'existence de cellules nerveuses individuelles dont la dynamique intrinsèque influence ces opérations, • des boucles de rétroaction positive qui expliquent l'accroissement de l'activité, • les interactions entre circuits différents, • certains effets chimiques tels que les régulations hormonales. Ces mécanismes apparaissent essentiellement dans le comportement d'alimentation traité dans leur travail. Un niveau trop bas d'énergie stimule le comportement d'orientation vers la nourriture sentie. A l'inverse, si l'insecte est rassasié après avoir ingurgité une grande quantité de nourriture, il peut avoir une tendance à s'éloigner des endroits de nourriture. 60 3. L'autonomie par ¡'action Mouth Tactile Feeding ^ Mouth Chemical Consummatory ^v **Feedinèv"*^ Energy Level ^AtoumI^' " Feeding Antenna Chemical Appetitive Nr-b Antenna Tactile IL***^ Wandering Figure 3.19 : Réseau de compétitions entre les différents circuits de comportements. Les ovales représentent les comportements, les rectangles sont les différents stimuli sensoriels et le losange donne le niveau de faim, (repris de [Beer-Chiel91]) Mécanismes de sélection En relation avec le problème de la sélection d'actions, les auteurs se démarquent de Vhypothèse du neurone commande qui veut que l'information sensorielle converge vers un neurone unique activant les circuits moteurs adéquats tant qu'un stimulus sensoriel particulier est présent (la littérature parle de grandmother celts [Amit89]). Malgré la découverte de tels neurones dans certains organismes, l'explication du mécanisme de sélection uniquement par des cellules de ce genre serait une simplification excessive. A l'inverse, le point de vue des auteurs s'oriente vers des circuits de neurones portant des processus distribués et permettant un consensus entre les circuits responsables des différents schémas comportementaux. Ce consensus est également réalisé à partir de mécanismes neuro- biologiques de même nature que ceux utilisés au niveau de chaque comportement. De nouveau, le séquencement des comportements dans le temps est porté par une structure d'excitation- inhibition particulière et l'intensité de la réponse est guidée par des circuits de rétroaction positive qui peuvent être alimentés par des neurones reproduisant certains états internes. La sélection d'actions est donc réalisée par un processus résultant de connexions parti- culières entre les différents circuits qui génèrent la dynamique de chaque comportement. Ces connexions induisent certaines compétitions à des niveaux de complexité différents. Ces niveaux font apparaître une hiérarchie de contrôle comportemental qui, dans le cas du travail décrit, peut varier dans le temps en fonction de l'état de certaines variables internes. La figure 3.19 représente ce type d'architecture de contrôle. Propriétés et limitations Le travail de Beer, Chiel et Sterling se caractérise par une certaine pureté neuro-mimétique; en introduisant d'une part des simulations plus réalistes du neurone que celle du modèle formel de McCulloch, d'autre part et surtout, en étudiant des structures hétérogènes de petites quantités de neurones avec des objectifs très précis. Cette pureté méthodologique leur permet de s'intéresser à l'observation de phénomènes caractéristiques des sciences de la biologie: l'effet des lésions neuronales sur le comportement et la plasticité, par exemple. Une autre originalité de ce travail est d'utiliser le même mécanisme aussi bien dans la 61 Modélisation d'un agent autonome réalisation de chacun des comportements de base que dans leur coordination. Toutefois, l'utili- sation de ce mécanisme de compétition semble mieux adapté ou, en tout cas, mieux développé au niveau des comportements qu'au niveau du contrôle multi-comportemental. Pourtant, et malgré l'originalité de l'approche, il faut relever que l'agent simulé possède une dizaine de capteurs et est composé de quelques dizaines de neurones alors que les insectes les plus simples intègrent plusieurs milliers de capteurs et un système nerveux composé de plusieurs milliers de neurones. Or1 malgré la relative simplicité du système, la complexité de sa gestion a atteint les limites du maîtrisable; en effet, leur système possède déjà plusieurs centaines de paramètres à régler. Ainsi, l'exemple traité dans leur travail est exemplaire et ne peut qu'attirer l'attention. Néanmoins, une méthodologie plus affinée est nécessaire pour construire des agents qui pour- raient prétendre simuler le système nerveux du plus simple des insectes. 3.7.3 Commentaires Les mécanismes de contrôle par compétition sont intéressants du fait qu'ils portent, à travers une structure particulière, une dynamique interne d'où émerge l'organisation comportementale du système. Nous avons vu que cette dynamique peut être portée par des éléments structurels très variés, suivant les travaux. Pourtant, si l'émergence d'une coordination induite par une dynamique interne est inté- ressante, ces systèmes sont limités dans le sens où leur structure est figée; déterminée par les relations causales entre opérateurs (chez Maes) ou savamment construite par les concepteurs du système (chez Beer). Dans les deux cas que nous avons traités, cette structure fixe oblige à calibrer le système de façon très précise; ceci est particulièrement vrai dans le système de Maes où l'on a vu que, suivant les problèmes traités, certains calibrages sont reconnus empiriquement meilleurs. Le système de Beer, malgré une structure fixe, possède l'avantage d'adapter individuelle- ment l'influence des connexions. Le fait de donner la structure au système constitue une limitation importante; de par la difficulté de la tâche et surtout de par le cadre limité donné à la dynamique. Il serait intéressant d'envisager une plasticité de la structure qui permettrait à l'agent de l'acquérir et l'adapter par l'expérience. Pattie Maes semble d'ailleurs avoir été attirée par cette perspective et a proposé un mécanisme d'acquisition empirique des liens entre ses opérateurs. Malheureusement, bien que les poids des liens soient remis en question et adaptés, ces liens sont toujours déterminés par la spécification des préconditions et postconditions des opérateurs. Il nous semble essentiel de rendre également adaptatif le contenu de Ia description des effets des opérateurs. Notre travail apporte une contribution dans ce sens du fait qu'il laisse à l'agent la tâche de spécifier les effets de chacun des comportements aussi bien que les liens causaux entre comportements, sur la base de ses expériences. 3.8 Le contrôle connexionniste Le contrôle connexionniste englobe plus qu'une architecture particulière de contrôle dans le sens de notre taxinomie; il s'agit d'une classe d'architectures se caractérisant par le fait d'utiliser des techniques connexionnistes. Nous allons donc passer en revue un ensemble d'architectures variées, tant par leur structure que par leur dynamique. Cette variété fait que le type de contrôle que nous avons appelé connexionniste puisse offrir des réponses aussi bien au problème de la sélection d'actions qu'à celui de l'intégration comportementale. i Ce type de contrôle partage les intérêts du paradigme connexionniste. En ce sens, il a pour sujets de prédilection l'apprentissage, l'adaptation au milieu et l'optimisation. Il vient ainsi combler le manque de flexibilité présenté par les architectures décrites précédemment. 62 3. L'autonomie par l'action Figure 3.20 : Le neurone biologique et le neurone formel, (repris de [Hérault89]) Le paradigme connexionniste étant le cadre des architectures de contrôle présentées ici, nous allons commencer par en rappeler !es généralités. Nous illustrons ensuite les solutions proposées à la problématique du contrôle comportemental à travers les réseaux de neurones artificiels classiques et les récents travaux s'inspirant de la morphodynamique. 3.8.1 Généralités Le connexionnisme couvre différents courants de recherche qui ont la particularité de s'intéresser à la modélisation de la structure des systèmes cognitifs et à la simulation de leurs fonction- nalités en s'inspirant de l'anatomie et des fonctions connues du système nerveux. Ce courant représente avant tout une nouvelle perspective de recherche, alternative au cognitivisme. A Î'IA fonctionnelle, il préfère l'IA structurelle. A l'observation macroscopique, il préfère la dissection microscopique. Toutefois, la notion de représentation leur est commune bien que le connexion- nisme désavoue la nature symbolique23 de celle-ci. Sans prétendre reconstruire une machine similaire au cerveau humain, il s'agit de créer des modèles simplifiés du neurone et d'étudier les propriétés de différentes organisations neuronales appelées architectures connexionnistes. Les pionniers de ce domaine sont McCulloch et Pitts qui, en 1943, proposèrent un modèle de neurone formel (le perceptron) et montrèrent que différentes combinaisons de ces neurones en des séquences temporelles permettaient de reconstituer toutes les opérations de la logique bi- naire [McCulloch-Pitts43]. Ainsi, par des configurations adéquates et des équations dynamiques simples, les réseaux de neurones permettaient d'exprimer des capacités cognitives élémentaires. Leurs travaux sont néanmoins restés dans l'ombre du cognitivisme jusqu'au début des années 80. De nos jours, plusieurs techniques sont bien maîtrisées grâce à des formalismes adéquats et aux nouvelles possibilités de simulation offertes par des ordinateurs de plus en plus performants. De nombreux travaux théoriques sont en cours. L'architecture générale de l'approche connexionniste est appelée réseau de neurones1 arti- ficiels (RNA dans la suite). Elle se caractérise par un grand nombre d'unités de traitement élémentaires, similaires, conceptuellement ou réellement parallèles et censées modéliser le neu- rone biologique24. Enfin, chaque type de RNA se caractérise par des connexions et des traite- Les termes de représentation sub-symbolique ou infra-symbolique apparaissent dans la littérature (voir [Ducret89] pour une discussion générale sur les approches symbolique et infra-symbolique de la représentation). 24Il est important de garder en mémoire qu'il s'agit d'un modèle formel introduisant inévitablement des 63 Modélisation d'un agent autonome merits différents entre ces unités ou neurones. D'un point de vue épistémologique, l'approche connexionniste a contribué à l'essor des sci- ences cognitives. D'un point de vue pragmatique, la caractéristique essentielle de cette approche est de fournir des RNA pour lesquels • le traitement de l'information est totalement distribué à travers la structure; ce traitement peut être parallelise conceptuellement (pseudo-parallélisme) ou réellement (la technologie des circuits intégrés en donne la possibilité [Vittoz89]), • l'information, comme son traitement, est totalement distribuée à travers la structure. Cette caractéristique débouche sur une robustesse au dysfonctionnement d'un petit nom- bre d'éléments du réseau et une faible sensibilité aux perturbations (bruit), • Ia connaissance du réseau (connaissance à long terme) est codée dans les poids synaptiques associés aux connexions. Ces poids peuvent être donnés a priori mais sont généralement acquis par le système lui-même grâce à des techniques d'apprentissage, ce qui permet au RNA de s'auto-organiser, de s'adapter aux conditions rencontrées. La connaissance à long ternie peut donc être évolutive. Cette caractéristique en fait un outil puissant pour l'acquisition de connaissances difficilement formalisables (calibrage, optimisation, acquisition de règles de décision floues), • l'état du système (connaissance à court terme) est donné par l'ensemble des états des neurones, • enfin, la fonction réalisée par le système est dépendante de la topologie des connexions entre neurones (sa structure), de l'intensité des connexions (sa connaissance) et du type de traitement réalisé au niveau de chaque neurone. L'approche connexionniste "forte" consiste à supposer que les RNA permettent de simuler les fonctions cognitives et donc d'expliquer la cognition et ses mécanismes. Dans une approche plus "faible", elle constitue un paradigme permettant de couvrir une grande variété de systèmes allant des systèmes dynamiques aux systèmes complexes25. Depuis les années 80, le connexionnisme s'est illustré dans des domaines aussi variés que ceux de la reconnaissance de formes visuelles (images) ou vocales (parole), de l'apprentissage et du contrôle de la motricité, de la classification [Kohonen89], de la mémorisation associative [Kamp-Hasler90] ou de la séparation de signaux indépendants [Jutten-Hérault88]. Dans le domaine des systèmes autonomes, les RNAs sont généralement appliqués à des tâches pré-symboliques telles que le pré-traitement de données ou la classification. Le résultat de ces traitements est ensuite injecté dans un système symbolique pour des traitements à de plus hauts niveaux d'abstraction. De par leurs propriétés, les RNAs sont, depuis peu, appliqués à la construction de compor- tements de base [Nehmzow-al.90, Franceschini92, Collins-Jefferson91]; il s'agit, à partir d'un ensemble de données capteurs, de fournir une commande aux effecteurs qui permette de satis- faire un ensemble de contraintes caractérisant le comportement souhaité. Dans ce cas, on peut considérer que les deux approches du contrôle sont traitées; soit la réponse est vue comme le résultat d'une fusion sensorielle et c'est alors le problème de l'intégration qui est traité (sur les données capteurs et pas sur des comportements), soit la réponse est vue comme un choix parmi une ensemble de solutions possibles et c'est alors le problème de la sélection d'actions qui est traité. simplifications par rapport au neurone naturel. En particulier, le mécanisme de propagation d'activité supporté par tes neurotransmetteurs est fortement simplifié. 25SuJvant la classification des systèmes dynamiques en fonction de leur nombre de composants (petit ou grand), leur type d'interaction (faibles ou quelconques) et la nature des composants (identiques ou différents), Gérard Weisbuch enumere les systèmes linéaires (g-f-d),la mécanique statistique (g-q-i),lcs systèmes différentiels non linéaires (p-q-d) et les réseaux d'automates (g-q-d). [Weisbuch89]. (voir également [Kiss9l]) 64 3. L'autonomie par l'action En ce qui concerne le controle muìti-comportemental ['application des RNAs est moins développée [Sorouchyari89, Verschure-al.92, Touzet94]. Dans ce cas également, les deux ap- proches (sélection d'actions ou intégration comportementale) peuvent être traitées. Nous allons donner les éléments essentiels de chacun de ces domaines d'application dans le cadre de la modélisation d'agents autonomes. D'autre part, nous mentionnons de récents travaux en morphodynamique qui s'intéressent à l'évolution simultanée de la dynamique et de la structure des RNAs. Ces travaux, pour l'instant appliqués principalement aux problèmes de la classification et de l'approximation de fonctions, laissent envisager un saut qualitatif dans l'apport du courant connexionniste au problème du contrôle et, plus généralement, aux sciences de Ia cognition. 3.8.2 Les réseaux de neurones Apprentissage supervisé et non-supervisé La variété d'algorithmes d'apprentissage proposés par le paradigme connexionniste peut être classés en deux catégories globales: l'apprentissage supervisé et l'apprentissage non-supervisé. Le choix du type d'apprentissage à entreprendre est déterminé par la nature du problème et les connaissances qu'en a Ie concepteur. L1apprentissage supervisé est possible lorsque des couples (a:¡,í/;) d'entrées-sorties corres- pondant au problème à apprendre sont connus. Dans ce cas, il s'agit pour le système d'ap- prendre à prédire la sortie y¿ correspondant à l'entrée x¡ qu'on lui fournit. En phase d'appren- tissage on lui fait apprendre successivement ces associations. Imaginons qu'il s'agisse d'apprendre une fonction continue / telle que y,- = /(^i); la donnée au système d'un ensemble de couples entrée-sortie en phase d'apprentissage permettra d'appro- cher la fonction de telle sorte que, dans une deuxième phase d'exploitation ou d'évaluation du système, ce dernier pourra approcher les valeurs yi correspondant à des x¡ n'apparaissant pas dans l'ensemble de couples introduits en phase d'apprentissage. Le système aura donc appris à approcher la fonction / grâce à une phase où l'utilisateur (ou superviseur) lui aura énuméré un sous-ensemble d'associations caractéristiques de la fonction. L'apprentissage non-supervisé est nécessaire lorsque l'on ne connaît que les x¿ (entrées). Dans ce cas, le problème consiste à classifier l'ensemble des x¡ connus. Un cas particulier d'apprentissage non-supervisé est l'apprentissage par renforcement; il est réalisable lorsqu'on possède un critère de punition-récompense permettant déjuger de la qualité de la classification faite. Ce critère est donné au système qui peut dès lors s'auto-superviser. L'apprentissage par renforcement peut évidemment être vu comme une technique super- visée. Disons qu'il s'agît d'un cas intermédiaire. Apprentissage comportemental Dans la construction d'un comportement souhaité, l'idée générale est de lier les capteurs aux effecteurs du système par un RNA particulier. Le nombre de combinaisons entrées-sorties possibles pose un premier problème théorique: quelle architecture choisir? La figure 3.21 représente cette approche. Les deux types d'apprentissages (supervisé ou non) peuvent être utilisés, suivant que le comportement à apprendre soit formalisable ou non. Généralement, lorsque la commande moteur correspondant à chacune des configurations possibles des données capteurs (entrées) est connue, c'est un algorithme supervisé qui est utilisé. Dans ce cas, l'utilisation d'algorithmes d'apprentissage n'est qu'à moitié justifié. En ef- fet, ces comportements peuvent généralement s'exprimer sous la forme de règles simples telles que "avancer tant qu'aucun obstacle n'est détecté devant, s'arrêter sinon". De tels compor- tements peuvent facilement être implantés en programmation classique. Différents langages, 65 Modélisation d'un agent autonome capteurs effecteurs Figure 3.21 : Structure connexionniste de comportements. certains même spécialisés, sont utilisés: [Brooks87a] utilise un langage similaire à LISP, [Don- net-Smithers91] et [Restiick91] proposent des langages proches de Pascal alors que, dans notre laboratoire, nous programmons nos comportements soit en LISP, soit en C. Pourtant, bien qu'une formalisation du comportement et sa programmation soient envisa- geables, l'approche connexionniste permet d'éviter des tests extrêmement longs pour calibrer "à la main" le comportement programmé. De plus un paramétrage particulier fige le com- portement alors que l'approche connexionniste permet de rester flexible aux variations des caractéristiques de l'environnement. L'avantage essentiel de l'apprentissage est de permettre de produire des comportements pour lesquels une caractérisation générale est difficile à formuler et donc à programmer. Dans ce cas, ce sont des algorithmes non-supervisés qui sont utilisés; l'apprentissage par renforcement en est un exemple26. L'algorithme est basé sur un critère donné par Ie concepteur du système (choc ou non- choc, par exemple). Ce critère permet déjuger chaque action réalisée en fonction des données observées et de récompenser ou non ie choix réalisé. Le but du système d'apprentissage est de répondre aux entrées de façon à récolter le plus grand nombre possible de récompenses. La problématique générale du choix de l'action apparaît également dans le cadre de l'ap- prentissage. Lors de chaque nouvelle configuration d'entrée, ie système doit réaliser une asso- ciation qu'il n'a pas eu l'occasion de tester. Un choix aléatoire de la réponse à cette nouvelle configuration d'entrée n'est certainement pas optimal. Il est toutefois difficile de tenir compte des combinaisons déjà expérimentées pour choisir la réponse. En général, la solution proposée consiste à maintenir une certaine continuité de la réponse pour des situations ressemblantes. Dans la problématique de conception d'agents autonomes, la mise au point de comporte- ments de base offre des applications intéressantes aux techniques d'apprentissage connexion- nistes, [Nehmzow-al.90] présente le système RUR (Really Useful Roboi) qui, à travers les réseaux de Kohonen (apprentissage non-supervisé) et la backpropagation, démontre l'apprentissage par le robot du comportement général d'évitement d'obstacles dans un environnement inconnu. Sur la base d'une étude minutieuse de l'anatomie et de la fonction de l'oeil composite de la mouche, Franceschini et ses collaborateurs décrivent également un travail connexionniste intéressant appliqué à la robotique mobile (voir [Pichon-al.89], [Franceschini92]). Leur intérêt porte plus sur la structure connexionniste que sur les algorithmes d'apprentissage. Les auteurs ont reconstitué les circuits et le type de traitement du signal observé chez la mouche. Ceci permet au robot, une fois ce système couplé aux effecteurs, d'éviter les obstacles en se dirigeant vers une source lumineuse de façon "hyper-réactive" et sans intervenir dans le monde autrement que par son mouvement (à l'inverse de la plupart des capteurs qui émettent des signaux dans le monde pour mesurer les données pertinentes). 2C Voir [Pearce-Kuipers9l], [Schmidhuber9l], [Sutton9l], [Bersini-Gonzalez93] ou [Dori go-Bersi ni94] pour des exemples d'applications de techniques d'apprentissage par renforcement à des agents comportementaux. 66 3. L'autonomie par l'action 'como 1 > [compii "> T = f(rl,r2.....m) [intégration) -----? ou i, 1£ i Sn [sélection} Figure 3.22 : Mécanisme connexionniste de sélection d'action. D'autres travaux tels que [Booker91] ou [Koza91], à travers des techniques du domaine des algorithmes génétiques, illustrent également l'apprentissage comportemental connexionniste. Les problèmes liés à l'utilisation d'algorithmes annexionnistes dans le cadre de l'appren- tissage comportemental sont néanmoins importants: • Le temps d'apprentissage est long; plusieurs milliers d'essais sont nécessaires à l'appari- tion d'un comportement structuré et cohérent. Néanmoins, et par opposition au calibrage d'un comportement programmé, il suffit au concepteur d'analyser le comportement final, sans qu'il soit nécessaire d'assister à toute la phase d'apprentissage. • Il est difficile pour un concepteur de s'assurer de la qualité de l'apprentissage car on ne sait pas ce qu'il fait réellement (la connaissance est numérique et totalement distribuée). • On observe une sensibilité à l'ordre des expériences et la fréquence d'expériences semblables: certaines séquences d'expériences peuvent faire que le système limite ses réponses à une partie de l'espace des sorties possibles, en ignorant des réponses plus adaptées. • Le choix d'un réseau particulier fixe lacapacité (volume) de mémoire: il est difficile d'estimer la taille du réseau nécessaire en rapport avec la complexité d'un comportement. La connaissance liée à un comportement étant contenue dans la matrice des poids des connexions entre neurones, plus il y a de connexions et plus le comportement est susceptible d'être varié, flexible et précis. Ces déficiences sont le prix à payer pour une flexibilité de traitement, une robustesse au disfonctionnements, une faible sensibilité au bruit et une distribution (répartition) des traite- ments. Elles sont intrinsèques aux algorithmes d'apprentissage proposés par le connexionnisme et donc communes à n'importe quel type d'application. Contrôle multi-comportemental connexionniste Le contrôle multi-comportemental connexionniste peut être envisagé sous deux formes: • Comme une généralisation de l'apprentissage comportemental où un RNA intègre un ensemble de RNAs primaires pour former un comportement plus complexe. Dans ce cas, on retombe dans la problématique de construction d'un comportement. Cette appro- che possède des similarités avec celle du contrôle par fusion exposée précédemment; elle répond au problème de l'intégration comportementale. • Comme un mécanisme connexionniste de sélection d'action dont la réponse correspond à l'identité du comportement sélectionné. Ce sont généralement des séquences de compor- tements qui sont apprises dans ce genre d'applications [Colombetti-Dorigo93]. Ces deux approches sont illustrées par la figure 3.22. 67 Modélisation d'un agent autonome 3.8.3 La morphodynamique Dans le prolongement de l'approche connexionniste comportementale, nous mentionnons une approche connexionniste structurelle basée sur la théorie de la morphodynamique et interprétée à la lumière de la théorie de l'autopoièse (voir l'introduction générale, paragraphe 1.5.2). Le but est d'insister sur le double apport de la théorie de la morphodynamique; non seule- ment elle aboutit à l'ajout d'une dynamique structurelle (adaptation de la structure d'organi- sation) à la dynamique événementielle des réseaux de neurones artificiels classiques {adaptation d'une organisation particulière), mais elle permet de coupler ces deux dynamiques. L'adapta- tion est double et fortement imbriquée27. Fondements La morphodynamique est un domaine d'étude des mathématiques [Petitot92b], Dans ce cadre, un modèle morphodynamique est un modèle dynamique de structuration morphologique [Pe- titot92a]. La morphodynamique connexionniste s'en inspire et se décrit comme la partie expé- rimentale de cette théorie. D'autre part, en IA, la structure de graphe est une structure privilégiée aussi bien dans le courant cognitiviste (graphes d'héritages, graphes temporels, réseaux sémantiques20, réseaux bayésiens29) que dans le courant connexionniste (RNAs). Les réseaux morphodynamiques proposent d'élargir le formalisme connexionniste à des structures topologiques variées qui permettent des traitements intégrant la transformation et la régénération des composants du réseau. Cette approche situe l'intelligence d'un système au niveau de sa capacité d'auto-restructuration sous l'influence de contraintes externes. Les analogies avec la notion d'autopoièse sont manifestes30. Le dilemme de l'apprentissage L'apprentissage classique (à structure fixe) correspond à l'acquisition d'une description d'un phénomène (ensemble des valeurs d'apprentissage). Le choix d'une structure correspond à la donnée d'un ensemble d'hypothèses susceptibles de favoriser cette description; elle donne un cadre à l'acquisition. Le dilemme de l'apprentissage porte sur la taille de l'ensemble d'hy- pothèses à construire. Guillaume Deffuant formule ce dilemme de la façon suivante: (a) l'élargissement de l'ensemble d'hypothèses admissibles augmente le nombre de phéno- mènes compatibles avec certaines de ces hypothèses, mais réduit la valeur prédictive de telles hypothèses, (b) inversement, la restriction de l'ensemble d'hypothèses admissibles réduit le nombre de phénomènes compatibles avec certaines de ces hypothèses, mais augmente leur valeur prédictive. Depuis les travaux de Charles Peirce [Hartsthorne-Weiss31], Vabduciion et l'induction sont connues comme étant deux mécanismes de construction d'hypothèses. Avec la déduction, ils forment les trois schémas d'inférence caractérisant les modèles logiques de raisonnement. Dans ce cadre, l'abduction correspond à la construction d'une hypothèse permettant d'expliquer un 27DefFuant parle d'adaptation passive et d'adaptation active respectivement. Graphe dont les noeuds représentent des objets ou des concepts et les arcs des relations {généralement binaires) entre concepts. Ces réseaux servent donc à représenter certains types de connaissances: hiérarchies, proximités ou taxinomies entre concepts. "Graphe orienté acyciique dont les noeuds correspondent à des variables aléatoires et des décisions, les arcs à des influences causales ou probabilistes et les poids des arcs à des probabilités conditionnelles. Ces reseaux sont utilisés en raisonnement approximatif. Pour un développement de ces analogies, voir [Deffuant92] qui les fait ressortir très clairement. 68 3. L'autonomie par ¡'action ensemble de faits observés accumulés (cette hypothèse, explicative à l'instant t, pourra être contredite par un nouveau fait observé ultérieurement)31. L'induction correspond au passage d'une vérité factuelle à une autre jugée telle en raison de son lien avec la première. C'est en conservant cette interprétation que l'on peut associer l'acquisition d'une descrip- tion d'un phénomène observé à la capacité d'induction, alors que la construction de l'ensemble d'hypothèses prises en compte par l'acquisition correspond à la capacité d'abduction. Ainsi, le dilemme de l'apprentissage peut s'exprimer en termes d'abduction et d'induction, ces deux capacités apparaissant alors comme fortement liées32. Une double dynamique d'adaptation Les contraintes mutuelles entre ces dynamiques poussent à rechercher des mécanismes permet- tant de les intégrer en un même système. Dans les architectures connexionnistes, ces dynamiques peuvent correspondre à l'ajuste- ment des composants (adaptation passive, induction) et au renouvellement de ces mêmes com- posants (adaptation active, abduction). Certaines techniques connexionnistes ont déjà tenté d'intégrer ces dynamiques (ART1 pour Adaptive Resonance Theory [Carpenter-Grossberg87]). Le problème réside dans la conception des influences mutuelles entre ces dynamiques. La morphodynamique permet de leur donner une interprétation géométrique, ce qui permet de modéliser l'approche. Deffuant décrit un système morphodynamique et les dynamiques d'abduction et d'induction sur cette structure de la façon suivante [Deffuant93j: S représente le système global formé de composants, E l'environnement du système et x et y deux composants quelconques du système. Les dynamiques sont décrites par les équations suivantes: 1. Chaque composant peut modifier ses paramètres sous !'effet d'influences internes et/ou externes au système. Ainsi, chaque composant s'ajuste suivant la dynamique dx = A{x,S,E) 2. Chaque composant peut être créé, détruit ou lié à un autre composant: • la probabilité pour un composant d'être créé est donnée par la fonction Pc(x)- C(x, S, E) • la probabilité de destruction d'un composant est donnée par la fonction PD (x) = D(x¡ S, E) • la probabilité de liaison de deux composants i et y est donnée par la fonction PL(x,y) = L{x,y,S,E) La liaison de deux composants introduit certaines contraintes sur leurs paramètres. 31En fait, Peirce définit l'abduction comme étant "une certaine capacité de l'esprit humain à deviner l'hy- pothèse qu'il faut soumettre à l'expérience, laissant de côté sans les examiner la vaste majorité des hypothèses possibles". On notera l'analogie évidente avec les dynamiques de l'autopoièse (régénération de processus et concrétisation de ceux-ci dans un espace donné), moins évidente mais tout aussi concrète avec les concepts d'assimilation et d'accommodation de la théorie piagétienne. 69 Modélisation d'un agent autonome La première dynamique sert à adapter les composants étant donnée une morphologie par- ticulière. Elle correspond à une phase d'induction. La seconde dynamique sert à adapter la morphologie du système qui affectera la première dynamique. Elle correspond à une phase d'abduction. Enfin, ce type d'approche à été appliquée à des structures connexionnistes. Guillaume Deffuant a développé le modèle des membranes de percepirons et en a étudié l'application aux problèmes de la classification, de l'approximation de fonctions, et du contrôle. Etienne Monneret [DefTuant- Monneret93] introduit le modèle des fibres adaptatives et l'utilise en reconnaissance de lettres et de mots par application reflexive du modèle. Pour terminer cette brève présentation des réseaux morphodynamiques, disons que mis à part l'apport théorique de cette approche au mouvement connexionniste, nous partageons l'avis de Deffuant lorsqu'il déclare "si cette approche tient ses promesses pour d'autres modèles encore, il s'agira d'un changement d'orientation important pour les sciences cognitives". 3.8.4 Commentaires L'approche connexionniste s'est pour l'instant essentiellement penchée sur te problème de génération de comportements de bas niveaux dans le domaine du contrôle comportemental. Certaines techniques sont néanmoins adaptées aussi bien au problème de la sélection d'ac- tions qu'à celui de l'intégration comportementale. Elles commencent à donner des résultats intéressants. Une approche qualitativement nouvelle est celle des architectures morphodynamiques. L'idée globale est de s'intéresser à deux dynamiques à la fois; l'adaptation passive ou induction et l'adaptation active ou abduction. La caractéristique principale est celle de coupler ces deux dynamiques ce qui constitue une bonne façon d'aborder le dilemme de l'apprentissage. Cette approche est récente, prometteuse et doublement intéressante; elle améliore les ca- pacités des réseaux connexionnistes et, surtout, sa source d'inspiration (l'autopoièse, en par- ticulier) fait aborder le problème de l'apprentissage sous un point de vue nouveau, celui de l'autonomie. 3.9 Conclusion Bien que le mouvement comportementaliste Hé à la problématique des systèmes autonomes puisse être présenté comme une réaction au mouvement cognitiviste de l'IA traditionnelle, ce chapitre tend à montrer qu'il va bien au delà. Nous retenons de l'approche comportementaliste: • Son intérêt pour l'activité en tant qu'élément essentiel à l'autonomie; c'est dans cette approche que la réaction au cognitivisme se fait le plus sentir. Néanmoins, les travaux de ces dernières années tendent à reconsidérer les capacités de raisonnement sous une nouvelle optique (dans le prolongement de l'activité). • La variété de solutions proposées au problème du contrôle comportemental (tant au niveau des architectures qu'à l'intérieur de chaque type d'architecture). • L'adéquation des systèmes proposés face aux problèmes posés; temps de réponse adaptés (réactivité), robustesse au bruit, flexibilité face à l'imprévu. • Elle constitue un paradigme dans lequel peuvent se reconnaître des chercheurs de différen- tes disciplines, spécialement des sciences cognitives. Elle s'alimente donc naturellement des fruits de travaux interdisciplinaires qu'elle réussit à fomenter. Le domaine reste large- ment ouvert et bien établi comme le prouve sa contribution à des domaines d'études aussi variés que l'IA Distribuée, la vie artificielle, les théories de l'apprentissage, la complexité ou l'autonomie. 70 3. L'autonomie par ¡'action • De nombreuses voies de recherche sont offertes; nous avons vu que certaines approches ont été peu explorées (architectures hiérarchiques, morphodynamique) et que la capacité d'adaptation de la majorité des méthodes de contrôle sont pratiquement nulles. Par contre les agents proposés par le courant comportementaliste ne répondent qu'à une partie (importante il est vrai) des caractéristiques nécessaires à l'autonomie. La raison princi- pale est l'absence de capacités deliberati ves, permettant à l'agent de prédire, d'anticiperei de raisonner à long terme. Les techniques d'apprentissage actuellement utilisées permettent de le faire sur le court terme (séquences d'actions). Cela ne suffit pas; l'agent nécessite des connaissances plus larges et adaptées afin d'éviter d'être encore fortement dirigé par son environnement. Dans ce sens, des propriétés telles que la capacité de mémorisation, d'acquisition et structuration des connais- sances, d'abduction et de prédiction sont essentielles. Ainsi, un traitement situé de l'activité permet de placer des systèmes dans des environne- ments complexes. Il faut encore que cette activité lui serve à favoriser son autonomie. 71 i Modélisation d'un agent autonome 72 4 Approches hybrides 4.1 Introduction C'est dans le prolongement des approches cognitiviste et comportementaliste que s'inscrivent les récents travaux proposant une approche hybride à la modélisation d'agents autonomes. Rappelons que le paradigme cognitiviste, en se basant sur la métaphore computationnel- Ie1 propose des mécanismes généraux de raisonnement (la génération de plans d'actions, en particulier) basés sur des modèles (symboliques) du monde. Cette approche se désintéresse de la nature de l'activité1. A l'opposé, le paradigme comportementaliste propose des mécanismes pour le contrôle d'une activité située et donc réactive, sans utiliser de représentation interne. Cette deuxième approche se désintéresse du raisonnement à long terme. L'approche hybride aspire à intégrer l'action située et le raisonnement à long terme en un même système de contrôle. Après l'autonomie en tant que raisonnement (cognitivisme) et l'autonomie en tant qu'action (comportementalisme), une autonomie hybride, associant raisonnement et action, est convoitée. Ainsi, si l'autonomie deliberative s'est développée essentiellement dans les années 70 et si l'autonomie réactive s'est développée dans la seconde partie des années 80, cette fin de siècle devrait se caractériser par une approche de l'autonomie hybride (réactive et deliberative à la fois). Cette nouvelle phase ne s'inspire pas uniquement des deux courants l'ayant précédée, elle s'inscrit dans un courant scientifique plus large qui reconsidère des questions fondamentales liées à la cognition. La nature et l'origine de la connaissance et des activités mentales y sont vues sous un angle nouveau. De même, l'interaction du sujet avec son milieu intervient aussi bien dans le contenu que dans la genèse de cette cognition. L'évolution de la notion d'autonomie en IA se reflète également dans les sources d'inspira- tion de ces trois courants successifs; après l'Homme pour le courant cognitiviste et l'insecte pour le courant comportementaliste, c'est au tour du rat, du singe ou même de l'enfant d'apporter des réponses au phénomène d'autonomie. Ainsi, en ce qui concerne les architectures de contrôle ou les sources d'inspiration, l'approche hybride évite les extrêmes et aborde l'intégration, le compromis, l'équilibre. Enfin, si la source d'inspiration à migré à travers les espèces vivantes au cours du temps, la robotique mobile semble s'affirmer comme un domaine d'application suffisamment riche et complexe pour proposer des cadres réalistes d'expérimentation et susciter des questions pertinentes face à la double problématique de compréhension de l'autonomie et de réalisation de systèmes autonomes. Cette perspective hybride est trop récente en IA pour pouvoir parler d'un nouveau pa- radigme; les travaux étant encore peu nombreux et relativement distants entre eux, il nous semble prématuré de vouloir en établir les fondements. Cependant, une preuve de maturité s'en dégage; par opposition aux courants cognitiviste et comportementaliste, ni l'activité située et donc l'enracinement de l'action dans le contexte, ni la représentation des connaissances comme support de capacités délibératives n'y sont négligées ou Soit l'action est supposée déterministe et son effet est donc prévisible, soit les effets imprévus sont rattrapes par une phase de replanification. 73 Modélisation d'un agent autonome rejetées. Au contraire, ces deux caractéristiques sont revalorisées par des modèles leur donnant une nouvelle cohérence commune. Ce chapitre commence par formuler la problématique de l'approche hybride en rapport aux paradigmes cognitiviste et comportementaliste. Il expose ensuite les deux types de solutions proposées dans la littérature. Trois travaux caractéristiques sont ensuite brièvement décrits. La conclusion souligne la trace laissée par les paradigmes cognitiviste et comportementa- liste sur ce courant hybride, constate la nécessité d'une réflexion plus profonde au sujet de l'autonomie et évalue l'écart entre la problématique de l'approche hybride et les solutions déjà proposées. 4.2 Problématique L'intégration du raisonnement et de l'action demande de coupler ces deux facultés et d'analyser leurs influences réciproques. Par rapport à l'approche cognitiviste, trois nouvelles caractéristiques apparaissent: • En premier lieu, le raisonnement ne sert plus à résoudre des problèmes formalisés en exploi- tant des heuristiques et des algorithmes de complexité exponentielle. Il sert à coordonner une activité de nature située (ensemble de comportements), Les contraintes de temps de réponse poussent à abandonner les techniques classiques de génération de plans d'actions et à envisager des mécanismes plus réactifs de coordination de l'activité offrant des réponses acceptables dans des temps acceptables. Si le raisonnement se fait off-line dans le paradigme cognitiviste, il se doit d'être fait on-line dans une perspective d'intégration à l'action qu'il contrôle. • L'hypothèse forte d'action déterministe, souvent réalisée dans le paradigme cognitiviste, est exclue dans l'approche hybride. Le raisonnement doit tenir compte de l'effet de l'action qu'il choisit. En effet, l'environnement, l'activité du système et le bruit intrinsèque à toute applica- tion tant soit peu réaliste introduisent des perturbations dans le déroulement des événements. Une confrontation de la prévision et de l'observation doit être réalisée dans le but de maintenir une cohérence interne et favoriser ainsi le bien-fondé des choix ultérieurs. • Enfin, la connaissance ne porte plus exclusivement sur le monde. Il s'agit de reconsidérer Ea question fondamentale du type de connaissance adapté à l'intégration du raisonnement et de l'action. Le raisonnement portant sur l'activité, la représentation se doit d'exprimer certaines propriétés de l'action. Par rapport à l'approche comportementaliste, trois nouvelles caractéristiques apparaissent également: • A la différence des architectures comportementales, un système hybride intègre des connais- sances sur lesquelles se fondent les mécanismes de raisonnement. Dès lors, plusieurs questions apparaissent: Quelle est la contribution du comportement à cette représentation! Le comporte- ment gère-t-il une connaissance interne, spécifique à ses traitements? Partage-t-il sa connais- sance avec d'autres comportements ou avec différents mécanismes de raisonnement? • Dans un système hybride, il s'agit de déterminer les mécanismes de contrôle que le com- portement doit offrir pour faciliter son contrôle. La question est, avant tout, d'ordre architectural; il s'agit de prévoir une structure de contrôle adéquate à ce besoin d'intégration. Elle est également d'ordre conceptuel; le comportement peut être simplement sélectionné par les mécanismes de raisonnement ou sélectionné et paramétré (les paramètres qualifiant 74 4. Approches hybrides le comportement) ou encore simplement activé, le comportement se sélectionnant en fonction d'un seuil d'activation. • Enfin, par rapport à la notion même de comportement, il s'agit de reconsidérer les aspects de causalité et de finalité liées à l'action; ceci devrait se traduire d'une part par le relâchement de l'hypothèse d'action déterministe du paradigme cognitiviste et, d'autre part, par l'élargis- sement de la notion de situation mise en valeur par le paradigme comportementaliste (il s'agit de passer d'une action située à une action contextuelle). De façon plus générale, des questions fondamentales doivent être reconsidérées sous la nou- velle optique d'intégration. Par exemple: la connaissance est-elle innée et/ou acquise? Dans le cas de connaissance acquise, par quels mécanismes un système artificiel peut-il l'acquérir? Est- elle de nature quantitative et/ou qualitative, centralisée et/ou distribuée, figée et/ou évolutive? Toute réponse à ces questions influence le choix des représentations attribuées à un système hybride dans le cadre de l'IA. Suite à l'énumération des défis introduits par l'approche hybride, il semble naturel de dire que cette nouvelle problématique s'approche d'une problématique générale de conception d'agents autonomes. En comparaison, les paradigmes cognitiviste et comportementaliste sem- blent ne traiter que partiellement le problème de l'autonomie. Enfin, disons que les éléments de cette nouvelle problématique sont abordés très inégale- ment dans la littérature de l'approche hybride. En particulier, les problèmes de représentation sont souvent escamotés. Les systèmes utilisent généralement des représentations symboliques classiques (innées et objectivités) héritées du paradigme cognitiviste. 4.3 Solutions proposées La thèse de l'intégration affecte aussi bien le choix de l'architecture que celui de la représenta- tion dans le processus de conception d'un agent artificiel. D'un point de vue architectural, deux lignes directrices apparaissent: a) Intégrer en un seul système une couche comportementale (située) et une couche cognitive (symbolique). Cette solution est caractéristique de l'approche hybride [Firby87, Arkin90, Mitchell90]. Elle s'inscrit dans la continuité de l'approche top-down du paradigme cogni- tiviste. Les deux couches restent classiques. La couche cognitive s'occupe de gérer un modèle du monde et décide des comportements à entreprendre dans une problématique de co- ordination (souvent proche de la génération de plans d'actions), alors que les comporte- ments traitent de façon réactive les événements survenant dans l'environnement en cours d'exécution. Il est important de noter que, bien que la problématique soit différente, les systèmes hybrides de ce type tendent à conserver les fondements de l'approche cognitiviste; ils conservent implicitement l'hypothèse symbolique et la métaphore computationnelle qui en découle. Dans ce cadre, la difficulté réside dans la mise au point d'une interface permettant une correspondance entre les représentations symboliques utilisées au niveau cognitif et les actions situées du niveau comportemental. b) Engendrer les mécanismes de raisonnement à partir de l'activité. Cette solution s'ins- crit dans la continuité de l'approche botiom-up du paradigme comportementaliste. Le raisonnement et la représentation sont ici ancrés sur l'action. Cette différenciation des approches possibles peut paraître factice sous un point de vue archi- tectural; dans les deux cas, un ensemble de mécanismes de raisonnement contrôlent l'activité 75 Modélisation d'un agent autonome située d'un système. Par contre les différences apparaissent clairement au niveau représenta- tionnel: • L'approche top-down à l'intégration tend à considérer une connaissance symbolique don- née a priori par Ie concepteur (innée), miroir du monde extérieur (objectiviste) et géné- ralement figée. • Par contre, l'approche bottom-up à l'intégration tend à considérer une connaissance (sym- bolique ou sub-symbolique) construite par le système à travers ses expériences (acquise), interprétée par le système lui-même (subjectiviste) et continuellement remise en question (évolutive). D'un point de vue pratique, l'extension de l'approche top-down semble plus immédiate que celle de l'approche botiom-up dans la problématique d'intégration. Ceci explique certainement le déséquilibre quantitatif entre les travaux de ces deux tendances. Nous allons examiner trois travaux que nous considérons appartenir à cette nouvelle ap- proche hybride. Ils représentent trois approches à l'intégration; les deux premières sont des extensions de travaux cognitiviste et comportemental iste et s'inscrivent donc dans la conti- nuité des mouvements internes à TIA. Le troisième travail s'inspire de la psychologie cognitive (concrètement, les travaux de Piaget sur Ie développement cognitif de l'enfant). Ce troisième travail nous sert à illustrer la contribution à Pétude de l'autonomie de la part de démarches d'interprétation computationnelle de théories externes à l'IA. 4.4 L'approche top-down de Ron Arkin Ron Arkin s'intéresse au problème de la navigation réactive- Nous situons l'architecture qu'il propose comme étant une solution hybride au problème du contrôle d'un agent autonome mais qui néanmoins se trouve fortement inspirée du mouvement cognitiviste. L'architecture L'architecture AURA (pour A Utonomous Robot Architecture) est composée d'une couche com- portementale (réactive) surmontée d'une couche cognitive (deliberative). La couche comportementale est composée de routines d'action et de perception permettant des traitements situés de l'activité. Les premières correspondent à ce qu'il appelle des "st- ratégies moteur" permettant de bouger suivant une orientation donnée ou de façon aléatoire, de suivre des corridors ou de s'arrimer à un obstacle (docking). De façon générale ces stratégies sont des comportements paramétrables (orientation et contraintes diverses) qui offrent par conséquent une interface particulière à la couche de contrôle. Quant aux routines de perception, elles sont responsables d'extraire les informations ou caractéristiques judicieuses de l'environ- nement pour une tâche donnée. Ce sont donc des "stratégies de perception" spécialisées. La couche cognitive est typique du courant cognitiviste. Elle est composée de tous les modules de l'architecture fonctionnelle: perception, modélisation, planification et action. Le module de perception s'occupe d'intégrer les données provenant de l'ensemble des routines per- ceptives. Le module de modélisation gère une représentation de l'environnement (cartographie). Le module de planification est constitué d'un générateur de plans d'actions hiérarchique per- mettant d'extraire des plans globaux pour des missions de navigation qui ensuite sont raffinés par le module d'action. Ce dernier commande les routines d'action en fonction des éléments du plan. Un module supplémentaire s'occupe de contraindre les modules de planification et d'action en fonction de l'état de certaines variables internes au système. La nature hybride de l'architecture apparaît clairement, son origine cognitiviste également. Suivant la problématique de l'approche hybride, il reste à trouver une représentation permet- tant d'intégrer les deux niveaux. 76 4. Approches hybrides Cartographic Subsystem BNVïïiûHMBHT Figure 4.1 : Architecture AURA, (tiré de [Arkin90]) La représentation Arkin, dans le cadre de la navigation réactive d'un robot mobile, propose la technique des champs potentiels aussi bien comme représentation de l'interaction de l'agent avec son environ- nement (vecteurs de mouvement en direction et norme) que comme mécanisme de coordination de comportements (sommation vectorielle pondérée). Comme cela est souvent le cas dans les travaux cognitivistes, la connaissance est séparée en deux catégories: • Une connaissance persistante, donnée a priori au système, qui offre un modèle du monde, une représentation des objets et des propriétés de l'environnement et du robot. Cette connaissance est logée dans une mémoire à long terme. Elle sert à construire les plans d'actions étant donnée une connaissance de la situation du robot dans l'espace et d'un but fourni par le concepteur. • Une connaissance éphémère, extraite par l'agent des informations provenant des routines d'action et de perception. Cette connaissance est stockée dans une mémoire à court terme. Elle n'est utilisée que pour sortir l'agent de situations imprévues dans lesquelles le modèle du monde ne permet pas d'établir une cohérence avec la situation observée. Commentaires Cette architecture hybride correspond à une extension de l'architecture fonctionnelle proposée par le mouvement cognitiviste. L'extension se fait vers l'action située à travers des routines de contrôle des capteurs et des effecteurs. En ce sens, le contrôle correspond à une planification off-line classique dont le résultat (un chemin donné sous ìa forme de tronçons à suivre) est traité de façon plus flexible par le module d'action qui contrôle les routines suivant les indications grossières du plan global. Nous avons vu à travers le travail de David Pay ton (paragraphe 3.6.2) que le choix d'une representation sous la forme de champs potentiels est une solution possible au problème de 77 Modélisation d'un agent autonome map goals (user) -W PLANNING LEARNING T landmarks suggestions (world) —*¦ LANDMARK DETECTION sonar BOUNDARY FOLLOWING SAFE WANDERING I j .___turn I siap. go.I effectors (world) I wrn * navigation Figure 4.2 : Architecture du système de Maja Malarie, (repris de [Mataric91a]) l'intégration comportementale. Elle se trouve être particulièrement bien adaptée à des tâches de navigation en robotique mobile où l'on peut généralement se limiter à une représentation 2D de l'espace. Arkin considère même un traitement 3D de cet espace en représentant les obstacles par des sphères. Pour des tâches plus complètes que celles de navigation (distribution de courrier, rangement de chaises, interventions en milieu dangereux, labourage de champs) ce type de représentation n'est certainement pas suffisant, De plus, la planification ne se base que sur une connaissance donnée au robot et représentant le monde extérieur, La connaissance provenant des routines ne sert que localement et dans des situations pathologiques et extrêmes. Il est regrettable qu'une compilation (intégration) de ces connaissances acquises ne soit pas envisagée; en effet, la connaissance à long terme ne s'enrichit pas des observations faites par l'agent. D'autres auteurs (voir [Russel89, Chaib-draa-Paquet93j) ont abordé cette problématique d'adaptation des connaissances stables d'un agent à travers une compilation des informations acquises par le système. 4.5 L'approche bottom-up de Maja Mataric L'intérêt de Maja Mataric porte sur l'étude de sociétés hétérogènes d'agents. Elle a néanmoins proposé, dans une première phase de son travail, une approche originale au problème du choix de représentations adaptées aux agents situés, en poursuivant l'approche bottom-up du paradigme comportementaliste. L'architecture Maja Mataric fait partie du laboratoire d'IA dirigé par Rodney Brooks au MIT. Son domaine d'application est également celui de la robotique mobile et l'architecture de contrôle utilisée [Mataric91a] est, bien entendu, la subsumption architecture (voir paragraphe 3.5.1). Dans ce cadre, elle superpose des "niveaux de compétences"2 (que nous dirions cognitifs) à un ensemble de "niveaux de compétences" comportementaux. Son appartenance au laboratoire qui peut être considéré comme le fief du comportementalisme semble être la seule explication au fait qu'elle ne se reconnaisse pas dans l'approche hybride d'un point de vue architectural. La figure 4.2 représente cette architecture. Les modules comportementaux {safe wandering, boundary following) peuvent être assimilés à des réflexes permettant une navigation par évitement et suivi d'obstacles détectés. 2Nous conservons le vocabulaire utilisé par Brooks. 78 4. Approches hybrides C8 )----( LW8)-----( LW12)----f C12 1—( LWOl—f J )-----( LW4 Figure 4.3 : Exemple de carte construite par le système. LW8 = left wall heading South, CO = corridor heading North, J = long irregular boundary. Un module intermédiaire et indépendant (landmark detection) s'occupe de détecter des caractéristiques régulières de l'environnement (obstacle à gauche, obstacle à droite ou des deux côtés), Ces caractéristiques sont transmises au module d'apprentissage. Remarquons que les caractéristiques observées sont régulières par effet de bord du comportement sous-jacent de suivi d'obstacles, qui tend à conserver les caractéristiques observées (obstacles à suivre). En citant Mataric, le module d'apprentissage "construit et met àjour une carte topologique de l'environnement". Enfin, le module de planification peut intervenir sur le contrôle en en- voyant des commandes de rotation au système en fonction des buts introduits par l'utilisateur. Ce module est prioritaire par rapport au module de suivi d'obstacles3. La représentation L'originalité du travail de Mataric porte sur son approche de la représentation. Le travail décrit dans son article [Mataric91b] s'inspire d'observations neuro-biologiques portant sur le rat. Une carte topologique de l'environnement est construite par le module d'apprentissage en fonction des caractéristiques successivement observées [Mataric90]. Cependant, cette carte n'est pas de nature symbolique; chaque nouvelle caractéristique observée conduit à la création d'un processus interne correspondant à cette caractéristique. Ainsi, la carte topologique de l'environnement est un réseau de processus. Chaque proces- sus est formé d'un ensemble de règles et spécifié par son type (caractéristique représentée de l'environnement4), l'orientation globale du robot lors de l'observation de la caractéristique (cette information provient directement de la boussole) et sa position topologique (le processus connaît ses processus voisins). Les liens entre processus représentent une contiguïté spatiale entre caractéristiques obser- vables du monde physique. Ces connexions sont des canaux de communication par lesquels les processus peuvent s'influencer. Le module de planification exploite cette architecture distribuée en injectant une activité aux processus correspondant aux buts. Les processus propagent l'ac- tivité reçue sur tous leurs voisins. Ainsi, de proche en proche, l'activation est diffusée à travers tout le réseau. Le gradient d'activation résultant de cette propagation est ensuite utilisé pour déterminer les suggestions d'orientation faites par le module de planification au contrôle des moteurs. Maja Mataric appelle ce type de représentation des "représentations actives". Elle considère qu'il s'agit d'une représentation non symbolique (ensemble de processus connectés5) et dist- ribuée (les processus se reconnaissent ou non dans la caractéristique proposée par le détecteur de caractéristiques et ils propagent localement leur activation). 3Si l'approche est hybride en soi, le raisonnement apparaît comme une activité située supplémentaire ; d'un point de vue architectural, les niveaux de raisonnement sont de même nature que ceux portant l'activité. La planification devient donc un comportement permettant de contrôler les rotations de l'agent en fonction de la connaissance et des buts courants- Le contrôle de l'activité, sous la forme d'une orientation comportementale, se réduit à une consigne de rotation. * Combinaisons de "mur à gauche", "mur à droite". La présence des deux donne la caractéristique "corridor". sNous aurions tendance à considérer qu'il s'agit néanmoins d'une représentation symbolique, vu la nature des informations utilisées pour spécifier chacun des processus. 79 Modélisation d'un agent autonome Mataric lance également le débat de la nature des connaissances utiles à un agent autonome: qualitatives ou quantitatives. S'inspirant d'expériences faites sur le rat, elle suppose l'utilisation à la fois d'informations topologiques et métriques dans les tâches de navigation du rat dans un environnement connu (un labyrinthe). Elle relève ensuite l'importance de la tâche du système dans la nature des représentations utilisées. Son application exploite exclusivement la nature topologique de la représentation et limite l'information métrique à une annotation des processus par l'orientation absolue du système au moment de l'observation. Commentaires Par cette représentation originale, Mataric permet d'intégrer de nouvelles capacités à des agents situés. A notre sens, ces capacités sont d'ordre cognìtif. Nous considérons qu'il s'agit d'un enrichissement qualitatif des agents classiques de Brooks (et des agents du paradigme comportementaliste en général) rendu possible par l'approche hybride abordée à travers une méthodologie bottom-up. De plus, les fonctions cogniti ves proposées (apprentissage et planification) sont indépen- dantes du contenu représentationnel, ce qui en fait un modèle cognìtif général permettant d'envisager des applications différentes de celle de la navigation d'un robot mobile. Enfin, la complexité des traitements nécessaires à l'apprentissage et à la planification sont, au pire, linéaires avec la taille de la représentation. Le caractère réactif de l'agent comporte- mental est donc conservé. En comparaison avec l'architecture AURA de Arkin, nous constatons que le poids est ici mis sur l'aspect comportemental. A la limite, le raisonnement n'est supporté que par un abcès, une excroissance "vers le haut" ayant encore la forme d'un comportement. En marge de ces propriétés intéressantes, nous constatons que l'architecture exploitée (la sub sumption) n'a pas évolué malgré cette nouvelle réflexion représentationnelle. Elle conserve donc les limitations que nous avons mentionnées au paragraphe 3.5.1 (calibrage délicat des circuits arbitres, faible capacité d'extension à plus de niveaux de compétences, difficulté de contrôler des compétences variées qui permettrait de rendre l'agent plus polyvalent). Il est regrettable également que le système décrit soit mono-comportemental; le système ne possède en effet qu'une seule tendance (suivre les obstacles observés). Il est difficile d'envisager une coordination multi-comportementale uniquement par un contrôle en rotation, tel que celui proposé. Ne possédant aucune description du mécanisme d'apprentissage (connexions entre les pro- cessus constituant la carte topologique), il nous est difficile de juger de la faisabilité d'une telle approche. Néanmoins, la construction des cartes données en exemple semble faire intervenir un jugement du concepteur car, à plusieurs reprises, l'auteur dit que "la topologie de la carte est maintenue isomorphe à celle de l'espace physique exploré". Or le problème du maintien de l'isomorphisme est en soi non-décidable; on ne peut pas construire un tel graphe de façon synchronique à partir d'une succession d'observations car, en observant un état déjà rencontré, le système ne sait pas s'il correspond à l'élément topologique connu de la carte ou à un nouvel élément. Dans ce cas, tout choix introduit une hypothèse qui peut par la suite être contredite. Du fait de l'imbrication successive des hypothèses, la mise à jour du graphe lors de l'observation d'une contradiction est impossible; en effet, on ne sait pas quelle hypothèse est à mettre en cause. La capacité de localisation semble également être naturelle dans ce système. Or, dès qu'il existe deux processus dans la carte possédant le même type6, l'observation de ce type conduit à une localisation ambiguë; laquelle des deux localisations possibles, parmi les états connus, est la bonne? Mataric semble être consciente du problème. Pourtant la notion de contexte reste non définie et par conséquent ambiguë. 6Remarquons que ce cas n'est pas mentionné dans les exemples traités. 80 4. Approches hybrides ---------&J résultat action ^---------- Figure 4.4 : Le modèle de scheme chez Drescher. Enfin, la technique de propagation de gradient semble considérer des connexions bidirec- tionnelles entre processus. Ceci tend à dire que le sens d'expérimentation est négligé dans la phase de planification. Dans ce cas, il faut que l'agent connaisse une action inverse pour chaque action possible, ce qui ne semble pas être le cas7. En outre, en utilisant des arcs non orientés, le type de propagation suggéré peut conduire à l'apparition de maxima locaux qui emprisonnent l'agent et empêchent sa convergence vers le but qui est la source d'activation. 4.6 Les schemes de Piaget repris par Drescher D'autres travaux ont récemment adopté une approche constructiviste liée à la connaissance et ont proposé des techniques de construction de cartes topologiques. Parmi eux, Gary Drescher [Drescher91] s'est proposé d'expérimenter la théorie du scheme énoncée par Jean Piaget pour expliquer le développement cognitif de l'enfant8. Drescher focalise son attention au niveau cognitif sans chercher à intégrer son modèle dans un système réel. Il n'est donc pas à proprement parler partisant de l'approche hybride. Il développe néanmoins la fonction d'apprentissage et son travail pourrait être appliqué dans une approche boiîom-up telle que celle de Maja Mataric. Les schemes et leur construction Drescher propose une simulation comme environnement d'expérimentation, intégrant dans une grille 2D des objets, une main et un oeil permettant de percevoir l'environnement à travers un champs de vision limité et mobile dans lequel peuvent apparaître des parties du corps. Le système peut déplacer la main ou le champ de vision. Il peut également ouvrir ou fermer la main pour saisir des objets. Différentes modalités sensorielles sont simulées (proprioception, tact, odorat) et reconnaissables par le système. L'objectif est de construire des schemes à partir de régularités observées lors d'expériences vécues. Dans le système de Drescher, un scheme est formé d'un contexte, d'une action et d'un résultat. Le contexte et le résultai sont des formules propositionnelles décrivant un état du monde. Ainsi, chaque scheme déclare (avec une certaine probabilité) qu'une action particulière, réalisée dans un contexte particulier, provoque un résultat particulier. Cette représentation rappelle la sémantique liée au formalisme STRIPS. La différence essentielle est que les liaisons causales sont ici extraites de l'expérience. Pour qu'un scheme soit exécuté (que son action soit réalisable), il faut que le contexte qui lui est associé apparaisse dans l'état courant du monde. Une hypothèse forte de ce travail consiste à considérer des actions déterministes (même effet à partir du même contexte) et des sensations non bruitées (l'état du monde simulé est parfaitement perçu par l'agent). Les seuls Dans ce cas, cela correspondrait à des inversions d'orientations. Pour Piaget, un scheme est la correspondance cognitive du comportement. L'idée est que les premières actions (réflexes) de l'enfant se coordonnent progressivement en des schemes sensori-moteurs qui sont ensuite ré-utilisés dans les mêmes contextes, généralisés à des contextes plus larges et structurés en des sortes de méta-schèmes. La notion de scheme correspond à une abstraction psychologique. Son existence est inférée de l'observation des comportements. f contexte j 81 Modélisation d'un agent autonome imprévus possibles sont liés au mouvement spontané des objets du monde. Dans ces conditions, l'extraction de régularités pour la construction de nouveaux schemes est considérablement facilitée. Drescher propose un mécanisme d'induction, qu'il appelle "marginal attribution"', pour la construction de nouveaux schemes par le système, en fonction de ses expériences. Ainsi, un ensemble de schemes représente implicitement un ensemble de cartes cognitives possibles. Les schemes peuvent être enchaînés pour former des méta-schèmes (parties explicites de la carte cognitive). Les schemes acquis sont ensuite utilisés pour choisir les actions du système en fonction de buts donnés. Commentaires Drescher étudie des fonctions intéressantes telles que l'apprentissage empirique de nouveaux concepts, le concept d'objet persistant (qui continue à exister même s'il disparaît du champ visuel), ou l'extraction de correspondances entre sensations de modalités différentes. Or, si le travail d'actualisation des théories de Piaget dans le cadre de TIA fait par Drescher est intéressant, sa façon de l'expérimenter nous interpelle. A notre sens, le cadre expérimental introduit des hypothèse aussi fortes que celles du paradigme cognitiviste; les ob- jets du monde sont perçus de façon objectiviste, tous les éléments d'interface (perception et action) contrôlables par le système sont déterministes, aucun bruit n'est considéré. De plus, malgré ces hypothèse simplificatrices, le mécanisme d'apprentissage semble hériter la complexité des raisonnements symboliques classiques. La réactivité nécessaire au raisonne- ment d'un système hybride n'est pas obtenue. Enfin, la notion de contexte est ponctuelle dans le temps. Elle correspond à un état instan- tané du monde observé; ce traitement de la notion de contexte est, à notre sens, trop restreint pour pouvoir éviter des problèmes d'ambiguïté dans un environnement tant soit peu varié. Nous y reviendrons au chapitre 8. 4.7 Conclusion Nous constatons que l'approche hybride est encore fortement influencée par les paradigmes opposés dont elle provient: le cognitivisme et le comportementalisme. Les deux méthodologies (top-down et bottom-up) différenciant les paradigmes d'origine sont à nouveau exploités et amplifiés dans une perspective d'intégration du raisonnement et de l'action. Cependant, les systèmes tendent à rester classiques dans leur contenu et dans leurs fonctions. Pourtant, la problématique introduite par l'approche hybride va à l'encontre de certains fondements des deux courants d'origine. En particulier, l'intégration raisonnement-action prend le contre-pied de l'hypothèse symbolique et de la métaphore computationnelle; le raisonnement ne peut plus négliger la nature de l'action qui le sous-tend et l'action doit fournir les mécanismes de contrôle adéquats au type de raisonnement réalisé. Cette empreinte encore bien marquée de l'approche hybride est certainement due à sa jeu- nesse. Le temps devrait permettre de s'en détacher pour proposer des solutions plus adéquates. Ainsi, si Ia problématique introduite est différente, la conception de systèmes hybrides semble plus motivée par des intérêts pratiques que par une réflexion théorique. Or, une réfle- xion fondamentale portant sur la connaissance et l'interaction sujet-milieu est primordiale. Ces quelques commentaires nous font constater l'envergure des travaux devant encore être réalisés pour couvrir l'ensemble de la problématique introduite. Si des techniques plus réacti- ves de raisonnement sont proposées et l'hypothèse de l'action déterministe est généralement levée, le type de contribution du comportement à la capacité de raisonnement et au contenu représentationnel reste un problème ouvert. D'un point de vue architectural, ceci passe par la proposition de nouvelles architectures qui peuvent, dans un premier temps, être des évolutions d'architectures connues offrant des 82 4. Approches hybrides mécanismes de contrôle qui facilitent et généralisent l'intégration du raisonnement et de l'ac- tion. D'un point de vue représentationnel, il est temps de prendre du recul par rapport aux travaux classiques. Dans ce sens, le jeune domaine de la vie artificielle, par sa nature interdisci- plinaire et plus particulièrement son inspiration biologique et psychologique, devrait apporter de nouvelles sources d'inspiration en reconsidérant la nature de la connaissance liée à un sujet et l'importance de l'interaction sujet-milieu. Ce chapitre a permis de voir l'effet novateur de justifications neuro-biologiques a posteriori (Maja Mataric) ou d'inspiration psychologiques a priori (Gary Drescher). 83 Modélisation d'un agent autonome / 84 Partie II Un modèle d'agent autonome "Les théories que nous possédons sont loin de représenter des vérités immuables. Quand nous faisons une théorie générale dans nos sciences, la seule chose dont nous soyons certains, c'est que toutes ces théories sont fausses absolument parlant. Elles ne sont que des vérités partielles et provisoires qui nous sont nécessaires, comme des degrés sur lesquels nous reposons, pour avancer dans l'investigation; elles ne représentent que l'état actuel de nos connaissances et, par conséquent, elles devront se modifier avec l'accroissement de la science, et d'autant plus que les sciences sont moins avancées dans leur évolution." Claude Bernard, Introduction à l'étude de la médecine expérimentale, 1865. "Man knows and his capacity to know depends on his biological integrity; fur- thermore, he knows that he knows. As a basic psychological and, hence, biological function cognition guides ins handling of the universe and knowledge gives certainty to his acts; objective knowledge seems possible and through objective knowledge the universe appears systematic and predictable. Yet knowledge as an experience is something personal and private that cannot be transferred, and that which one believes to be transferable, objective knowledge, must always be created by the liste- ner: the listener understands, and objective knowledge appears transferred, only if he is prepared to understand. Thus cognition as a biological function is such that the answer to the question, "What is cognition?" must arise from understanding knowledge and the knower through the latter's capacity to know. Such is my endeavor." Humberto R. Maturana, Biology of cognition, 1970. Caminante, son tus huellas el camino, y nada más; caminante, no hay camino, se hace camino al andar. Al andar se hace camino, y al volver la vista atrás se ve la senda que nunca se ha de volver a pisar. Caminante, no hay camino, sino estelas en la mar. Antonio Machado 87 Modélisation d'un agent autonome Introduction L'autonomie est un sujet d'étude à la fois ambitieux et extrêmement attrayant pour différentes disciplines des sciences cognitives. Parmi les approches marquantes de l'autonomie, la théorie de Maturana et Várela, basée sur les thèses de l'autopoièse et de la clôture opérationnelle, aspire à résumer les caractéristiques fondamentales de la vie et de sa classe englobante: l'autonomie. Malheureusement, ce modèle d'une extrême concision, enfanté par la biologie et élargi aux sciences cognitives, est difficile à appréhender sous un point de vue computationnel, tellement ses imbrications conceptuelles sont nombreuses. Il porte en lui des concepts difficiles à cerner tels que l'identité ou l'émergence. Plusieurs auteurs sont récemment venus alimenter cette voie encore jeune mais fertile et pro- metteuse [Bourgine-Varela91, Bersini92, Defïuant92]. Notre travail, né de la volonté d'intégrer la nature deliberative du raisonnement et la nature réactive de l'action, façonné dans le cadre de I1IA, n'a pas eu l'occasion de s'en inspirer. Cette théorie lui est apparue progressivement, au fur et à mesure qu'il s'en approchait- Il partage avec elle l'ambition d'étudier et comprendre le phénomène d'autonomie. Enfin, nous pensons qu'il contribue modestement à en explorer certaines facettes essentielles. Cette seconde partie présente notre contribution à la modélisation et conception d'un agent autonome. Elle est basée sur notre tentative de caractérisation de la notion d'autonomie faite en introduction, à travers les critères d'évaluation9 (point de vue externe) et la notion de fonctionnatisation de l'activité10 (point de vue interne). Loin de prétendre apporter une explication complète à l'autonomie, nous espérons extraire certains éléments menant à une compréhension partielle de ce phénomène complexe, central dans la problématique scientifique actuelle, étudié sous des optiques très variées mais encore très peu compris. Notre objectif est de saisir certaines facettes de l'autonomie à travers la réflexion (modélisation) et l'application (robotique mobile). Notre contribution se veut double: • En conception, nous proposons l'architecture ARCO comme solution simple et générale au problème de Ia sélection d'actions. Cette architecture se caractérise par son aspect intégrateur (corps, action et raisonne- ment) et englobant (de la perception à l'action et de la sensation à la représentation symbolique structurée). Cette conception large de l'agent autonome s'accompagne né- cessairement de certaines simplifications que nous avons tenté de limiter. Ceci a permis de produire un modèle et une plate-forme prototype, présentant de bonnes perspectives d'amplification. • En représentation, nous adoptons une méthodologie constructiviste sous une optique non-objectiviste. Cette approche consciente et explicite nous fait insister sur l'importance de l'interaction de l'agent avec son milieu dans le processus ontogénétique de structuration des connais- sances. De plus, par opposition aux travaux de l'approche cognitiviste, l'agent devient l'auteur de cette connaissance. Ceci a permis de proposer une représentation symbolique, ancrée sur l'expérience sensori-motrice et interprétée, structurée et exploitée par trois processus cognitifs. De façon secondaire, notre travail espère contribuer à l'établissement d'une base méthodolo- gique et pratique, favorisant le rapprochement pluridisciplinaire et la collaboration interdiscipli- naire. Il est en effet essentiel, pour que différentes disciplines puissent s'inspirer mutuellement, Rappelons que les critères d'évaluation considérés sont las vrvic (capacité de préserver son intégrité physique et énergétique), le rôle social (capacité de satisfaire les tâches qui lui sont attribuées) et Vévolution {capacité de s'améliorer au cours du temps). 1 Fonctionnaliaation: Exploitation contextuelle et systématique des propriétés d'action par rapport aux cri- tères d'évaluation. 88 qu'elles exposent leur méthodologie et qu'elles proposent des modèles pouvant être interprétés et partagés. Cette seconde partie du mémoire comporte six chapitres. Le premier introduit ARCO1 l'architecture d'agent autonome que nous proposons. Les quatre chapitres suivants décrivent le modèle en parcourant les trois niveaux d'abstraction de l'architecture dans l'ordre dans lequel ils ont été modélisés (physique, comportemental puis cognitif). Le chapitre 6 parcourt Ie niveau physique et sert essentiellement à illustrer un type d'agent à travers la description de notre cadre expérimental. Le chapitre 7 caractérise la nature des comportements considérés dans notre modèle et introduit un formalisme de description d'un agent comportemental. Notre contribution sur le plan représentationnel est développée au chapitre 8, lors de Ia présentation du niveau cognitif. Enfin, les processus cognitifs (interprétation, apprentissage, motivation) et la capacité de fonctionnalisation qui en découle sont spécifiés au chapitre 9. De plus, chaque niveau d'abstraction est illustré dans le cadre d'une application à la navi- gation d'un robot mobile. L'exemple illustratif se veut simple, pour faciliter la compréhension du modèle tout au long de l'exposé. De même, à travers cette deuxième partie, des éléments d'expériences réalisées dans notre laboratoire sont introduits ponctuellement, pour permettre d'évaluer la faisabilité de l'approche et d'appuyer les choix méthodologiques réalisés, Le chapitre 10 décrira l'environnement d'expérimentation que nous avons développé et fera le bilan de l'application de notre modèle à la robotique mobile. Finalement, il est important de rappeler que nous utilisons le terme "agent" dans le sens élémentaire et général de "système artificiel ayant des capacités de perception et d'action", un robot mobile en particulier11. Ainsi, malgré certaines digressions liées à la source d'inspiration qu'est le monde vivant, l'autonomie est ici abordée dans le cadre de l'IA, par opposition à ce que pourrait être une approche biologique ou éthologique. 1 [Antoine-al.92], entre autres, considère une définition proche à celle-ci, bien que plus détaillée. 89 Modélisation d'un agent autonome 90 5 ARCO: une architecture d'agent autonome ARCO (acronyme pour Architecture Réactive et COgnitive) est l'architecture globale d'agent autonome que nous proposons et qui a été étudiée dans le cadre de cette thèse. Le rôle d'un modèle de système complexe est d'abstraire de la globalité les caractéristiques pertinentes à la compréhension et, si possible, à la reconstitution d'un tel système1. C'est là également l'objectif de l'architecture que nous proposons. 5.1 Les trois niveaux d'abstraction L'architecture ARCO est décomposée conceptuellement en trois niveaux d'abstraction: le ni- veau physique (0), le niveau comportemental (1) et le niveau cognitif (2). La figure 5.1 représente les composants d'ARCO. Le niveau 0 contient l'agent physique, composé de ses capteurs et de ses effecteurs. C'est lui qui établit le contact avec l'environnement. Le niveau 1 est constitué des processus génératîfs des comportements de l'agent. Il introduit la capacité d'activité et fait de l'agent physique un agent situé. Enfin, le niveau 2 est composé de la connaissance et des processus cognitifs qui structurent cette connaissance. Il introduit la capacité de fonctionnalisation et fait de l'agent un agent cognitif, susceptible de satisfaire les critères d'évaluation. Chaque niveau d'abstraction fournit des informations au niveau immédiatement supérieur. A l'inverse, chaque niveau contrôle le niveau immédiatement inférieur. Ainsi, la liaison * transmet l'état des capteurs (signaux) aux comportements. Ces derniers traitent Jes signaux reçus et génèrent des commandes qui, envoyées par la liaison #, permettent 1 La linguistique, par exemple, modélise le système complexe qu'est la langue naturelle à travers les niveaux phonétique, syntaxique, sémantique et pragmatique. Fonctionnalisation Activité 2: COGNITIF ï ## l:COMPORTEMENTAl T~T 0: PHYSIQUE //- Agent cognitif Agent situé Figure 5.1 : L'architecture globale d'agent autonome, ARCO. 91 Modélisation d'un agent autonome BOUCLES INTERNES ItIlII cognitive ^^ comportementale Figure 5.2 : Boucles internes d'interaction dans ARCO. aux comportements de contrôler directement les effecteurs. De même, la liaison ** transmet l'état des comportements (état de stimulation) au niveau cognitif qui, par Ia liaison ##, sélectionne l'attitude comportementale qui lui semble adéquate dans sa tâche de fonctionnalisation. Ainsi, seules les commandes du comportement sélectionné parviennent aux effecteurs. 5.2 Des dynamiques emboîtées La dynamique globale de l'architecture ARCO est basée sur différentes boucles d'interactions: nous distinguons deux boucles internes et trois boucles externes2. Les boucles internes sont caractérisées par l'interaction d'éléments internes à l'agent. Elles sont portées par les deux interfaces entre les niveaux d'abstraction. • La première boucle interne est issue de l'interaction continue entre le niveau physique (0) et le niveau comportemental (1): c'est la boucle comportementale. Elle est portée par les canaux internes * et # de l'architecture. • La seconde est issue de l'interaction continue entre le niveau comportemental (1) et le niveau cognitif (2): c'est la boucle cognitive. Elle est portée par les canaux internes ** et ## de l'architecture. La figure 5.2 représente ces deux boucles internes. Les trois niveaux d'abstraction sont représentés par les cercles numérotés O1 1 et 2. Les boucles externes sont caractérisées par l'interaction d'éléments internes à l'agent avec l'environnement. On dit que ces boucles "passent à travers l'environnement". • La première boucle externe est réalisée par l'interaction entre le niveau physique et l'en- vironnement à travers les capteurs et les effecteurs: c'est la boucle de dialogue. • La seconde met en interaction le niveau comportemental avec l'environnement: c'est la boucle d'activité. Cette boucle bénéficie des propriétés de la boucle comportementale (interne) et de la boucle de dialogue (externe) sur lesquelles elle s'appuie. • Enfin, la troisième boucle externe met en interaction le niveau cognitif avec l'environ- nement: c'est la boucle de fonctionnalisation. Elle bénéficie des propriétés de la boucle cognitive (interne) et de la boucle d'activité (externe) sur lesquelles elle s'appuie. Ces boucles externes s'emboîtent les unes sur les autres, La figure 5.3 permet de visualiser les enchevêtrements de la dynamique de l'agent. L'environnement est représenté par deux barres obliques symbolisant la brisure des boucles externes. 2Les termes "interne" et "externe" sont à mettre en liaison avec les deux points de vue que nous avons adoptés dans notre caractérisation de l'autononiie dans l'introduction générale. Les boucles internes sont celles dont l'observateur ne connaît rien et qu'il ne peut qu'imaginer. Les boucles externes sont celtes qui portent les propriétés que l'observateur utilise pour juger des compétences du système. 92 5. ARCO: une architecture d'agent autonome BOUCLES INTERNES ^^ comportementale HTTiI cognitive BOUCLES EXTERNES SIgEl de dialogue HfJ d'activilé [ 1 de foncùonnalisation Figure 5.3 : Boucles d'interaction de l'architecture ARCO. Intuitivement, l'emboîtement physique de ces boucles induit des dépendances logiques sur les dynamiques qu'elles portent. La description de chacun des niveaux d'abstraction permettra de préciser ces dépendances. 5.3 Propriétés de l'architecture L'architecture ARCO présente des propriétés intéressantes, parmi lesquelles: approche synthétique: Les capacités physiques de l'agent sont la base (contraignante) des comportements. Ces derniers sont, à leur tour, les germes de la cognition. Inversement, la cognition s'appuie uniquement sur les capacités comportementales qui s'appuient, à leur tour, uniquement sur les capacités physiques. Ces dépendances introduisent des contraintes importantes qui, comme nous le verrons aux paragraphes 7.3.1 et 8.7, imposent des choix méthodologiques déterminants. Cette première propriété présente ARCO comme une extension des architectures du paradigme comportementaliste. Elle a la particularité de poursuivre l'approche bottom- up jusqu'au niveau cognitif. modularité conceptuelle: L'action et le raisonnement y sont distinctement séparés à travers les niveaux d'abstraction. Ceci a facilité la réflexion relative aux besoins de chaque niveau et à la caractérisation de leurs interactions. architecture hybride: Elle intègre, de façon simple et naturelle, l'approche comportementale (réactive) et l'approche cognitive (deliberative, rationnelle) de la modélisation d'agents autonomes3. généralité: Le contenu de chacun des trois niveaux d'abstraction reste évidemment ouvert. ARCO est indépendante du robot, des comportements et du modèle cognitif utilisés. Seules sont spécifiées les interfaces entre les niveaux d'abstraction et la nature des com- portements (voir chapitre 7). plate-forme d'étude pour la "sélection d'actions": ARCO se prête particulièrement bien à l'étude générale de ce sujet. L'interface de contrôle y est clairement spécifiée et le ni- veau cognitif n'impose aucun modèle cognitif particulier. Celui que nous décrivons aux chapitres 8 et 9 constitue un modèle cognitif possible. ARCO peut donc servir à l'étude et à la comparaison de différents modèles cognitifs sur la base d'une même plate-forme comportementale. 'Voir [Malcolm-Smithers90] pour l'apologie d'une telle intégration au niveau architectural. 93 Modélisation d'un agent autonome y h> race *»» m* U Robot u! simulateur démon 1 tableau noir 1 comportemental démon 2 tableau noir 2 cogniti f connaissance Figure 5.4 : Implantation distribuée de l'architecture ARCO. Ces propriétés permettent de situer l'architecture ARCO par rapport à l'état de l'art exposé dans la première partie de ce mémoire. 5.4 Implantation distribuée L'architecture ARCO a été étudiée dans le cadre du projet MARS4 (Mobile Autonomous Robot System) et a fait l'objet d'une implantation sur stations de travail dans un environnement UNIX. Chacun des trois niveaux d'abstraction est constitué d'entités concurrentes: capteurs et effecteurs pour le niveau physique (O)1 comportements pour le niveau comportemental (1) et processus cognitifs pour le niveau cognitif (2). Conceptuellement, ces entités doivent s'exécuter en parallèle aussi bien à l'intérieur de chaque niveau qu'entre les niveaux eux-mêmes5. Un simulateur, accessible par sockets à travers une interface client, accompagne ie robot mo- bile que nous avons utilisé dans nos applications. L'interface permet de travailler uniformément avec le simulateur ou avec le robot réel. Les différents capteurs et effecteurs sont gérés par plusieurs cartes sur le robot. Ainsi, le niveau physique est distribué, on-board, sur plusieurs processeurs. Le simulateur et les niveaux 1 et 2 de l'architecture ARCO tournent sur des stations de travail SUN, ce qui nous permet d'exploiter l'environnement UNIX. Les deux niveaux supérieurs d'ARCO (comportemental et cognitif) sont implantés autour du mécanisme du tableau noir (blackboard)6; nous avons donc deux tableaux noirs que nous nommons Ti et T^ respectivement. Les clients de Ti sont les différents comportements. Les clients de T? sont les trois processus cognitifs. De plus, les différents niveaux d'abstraction (interface robot, tableaux Ti et T2) sont reliés par deux démons qui transfèrent les informations pertinentes, dans les deux sens. Le démon D\ lie l'interface robot et le tableau Ti, alors que le démon Dn lie les deux tableaux noirs. Le tableau Ti gère les données du niveau comportemental d'ARCO et contient les infor- mations suivantes: • les données provenant des différents capteurs (du niveau physique, déposées par Di et exploitées par les comportements), * Projet National du programme "Intelligence Artificielle et Robotique" PNR-23, requête no. 4023-027037. 6Voir [Müller-Rodriguez93] pour un développement plus détaillé que celui réalisé ici. cUn tableau noir représente une zone mémoire où des clients (des processus logiques) peuvent déposer et retirer des informations. Il est divisé en plusieurs zones. Chaque client n'a accès qu'à certaines zones en lecture et/ou en écriture. Ainsi, une même ïone peut servir en lecture pour certains clients et en écriture pour d'autres (éventuellement les mêmes); les clients ne connaissent ni l'origine des informations qu'ils lisent, ni la destination de celles qu'ils fournissent. 94 5. ARCO: une architecture d'agent autonome • les informations liées aux comportements (déposées par les comportements): il s'agit essentiellement de l'état des comportements (exploitées par D^ qui les transfère à 7½) et les commandes des comportements (exploitées par D\ qui les envoie à l'interface robot), • l'identification du comportement sélectionné (provenant du niveau cognitif, déposée par Di et exploitée par D\ pour savoir quelle commande de comportement envoyer aux effecteurs à travers l'interface robot). Le tableau Tn gère les données du niveau cognitif et est constitué de la connaissance de l'agent partagée par les trois processus cognitifs. Nous en détaillerons le contenu au chapitre 8. Ainsi, les comportements et les processus cognitifs sont des modules distribués mais in- terdépendants, ayant chacun un rôle spécifique dans le système global. Ils n'ont pas connais- sance du reste du système et se limitent à lire les données qui leur sont accessibles et à fournir les résultats pour lesquels ils ont été programmés. Le mécanisme de tableau noir que nous avons développé exploite la fonctionnalité de gestion de bases de données fournie par UNIX (yellow pages). Les démons sont des processus particuliers accédant à différents tableaux noirs. Cette implantation offre différents avantages. Elle nous a permis: • de concevoir et tester indépendamment chacun des clients (comportements, processus cognitifs), • de faire collaborer différentes personnes dans la mise au point du système et des appli- cations, • d'utiliser des langages de programmation différents (C pour les comportements, CLOS pour le niveau cognitif), • de distribuer les processus sur plusieurs machines (stations de travail, PCs), — pour s'approcher d'un traitement temps-réel (toutes les boucles implantant les com- portements que nous décrirons au chapitre 7 ont un temps de cycle proche ou supérieur au hertz), - pour exploiter les propriétés de certaines machines dans des traitements spécifiques (essentiellement en vision, cartes spécialisées), • de rendre le système flexible à l'ajout ou au retrait de certains processus en cours d'exécution. 5.5 Commentaires En informatique, l'approche modulaire tend à diviser un problème complexe en sous-problèmes pouvant être traités et surtout implantés séparément. Elle repose sur l'idée que les connexions entre modules sont plus légères (suivant certains critères) que les connexions internes aux modules. Lorsque la décomposition satisfait ce critère, le système modulaire devient plus simple à comprendre et à implanter que le système initial. A travers ARCO, nous offrons une décomposition modulaire en niveaux d'abstraction pour une architecture d'agent autonome; cette architecture limite les interactions entre niveaux à des mécanismes simples de communication et au transfert d'informations rudimentaires (d'un bit à quelques bytes, pas d'images vidéo par exemple). De même, à l'intérieur de chacun des niveaux, la modularité facilite la compréhension et la mise sur pied d'un tel système; comportements indépendants et processus cognitifs collaborent à travers des tableaux noirs. Nous avons observé qu'une telle décomposition à travers les niveaux d'abstraction induit différentes dynamiques emboîtées et interdépendantes. 95 Modélisation d'un Agent autonome Enfin, cette même modularité a permis d'implanter ARCO sur la base du concept informa- tique de tableau noir, ce qui a conduit au développement d'une plate-forme prototype flexible et suffisamment performante7, ' Pour d'autres exemples d'utilisation de tableaux noirs en conception d'agents autonomes, voir [Silva-al.91, Thomas-al.93]. 96 6 Le niveau physique 6.1 Introduction Le niveau physique constitue le premier niveau de l'architecture ARCO. C'est lui qui facilite l'interaction de l'agent avec son environnement à travers une boucle de dialogue portée par les capteurs et les effecteurs. L'architecture ARCO a été expérimentée, dans un premier temps, sur un robot mobile HERO-2000 que nous avons substitué, après une première validation de rapproche, par un robot mobile Nomad-200. Les deux robots sont équipés d'un ensemble de capteurs et d'effecteurs. Leur tourelle est indépendante de la base et peut pivoter. Enfin, ils sont dotés d'un système de communication permettant à des programmes tournant sur une station de travail de les contrôler, soit par câble, soit par radio. Ce chapitre passe en revue les éléments du robot Nomad-200 comme exemple de niveau physique dans le cadre de l'architecture ARCO. Nous décrivons brièvement les différents cap- teurs, les effecteurs et le mécanisme de communication dont est doté le robot. Nous terminerons par quelques commentaires évaluant les capacités sensori-motrices d'une telle plate-forme et par un ensemble de réflexions portant sur la contribution du niveau physique à l'autonomie de l'agent. 6.2 Les capteurs La biologie distingue trois catégories de capteurs, suivant l'origine des stimulations auxquelles ils sont sensibles. Certains portent des sensations pouvant être conscientes, d'autres pas. Il s'agit de l'extéroception: fonction portée par les récepteurs d'informations extérieures. Elle couvre les cinq sens "usuels": la vue, l'ouïe, le toucher, le goût et l'odorat. la proprioception: fonction portée par les récepteurs des sensations somatiques profondes. C'est la fonction sensorielle qui permet, par exemple, de savoir où se trouve notre main même si on ne la voit pas. l'intéroception: fonction sensorielle portée par les récepteurs de stimulations internes à l'or- . ganisme. Ces capteurs sont parfois appelés viscérocepteurs car leurs stimulations pro- viennent essentiellement des systèmes viscéraux (intestins, coeur, poumons, sang, glandes endocrines, moelle osseuse)1, Le robot que nous utilisons est également muni de capteurs fournissant des informations de différentes natures, suivant ces trois catégories de fonctions sensorielles. Le mieux sera de les passer en revue. 1 II a été démontré que les informations intéroceptives influencent le comportement à travers les émotions et certains mécanismes inconscients qu'ils contrôlent. 97 Modélisation d'un agent autonome Figure 6.1 : David, le HERO-2000 (à gauche), et Goliath, le NOMAD-200 (à droite). Le sonar (ou capteur ultrason) permet de donner une évaluation de la distance d'un obstacle dans une certaine orientation par rapport au robot. Il fournit une valeur calculée en fonction du temps écoulé entre rémission et la réception par le capteur d'un signal acoustique renvoyé par l'environnement2. Ce type de capteur est sensible aux caractéristiques physiques de l'environnement; des murs en sagex ou en liège, par exemple, absorbent plus le son que des murs en bois ou en métal. Notre robot est équipé de 16 sonars disposés en couronne autour de la plate-forme. Ils fournissent des valeurs censées correspondre à des distances allant de 17 à 255 pouces (de 43 à 648 cm. environ). Le capteur infrarouge fonctionne suivant le même mécanisme. Il est composé d'une LED émettrice et d'une diode photoélectrique réceptrice. Ainsi, la distance aux objets est déterminée en fonction de l'intensité lumineuse parvenant à la diode réceptrice, suite à une émission infrarouge de la LED émettrice qui est réfléchie par l'environnement. Ce type de capteur est fortement influencé par la capacité de réflexion des surfaces environ- nantes et par les conditions de luminosité ambiante. En particulier, le passage d'un environne- ment éclairé par lumière naturelle à un autre éclairé artificiellement (ou le même environnement à des heures différentes) peut fournir des données très variées pour des situations identiques. De même un pantalon clair reflète moins bien qu'un pantalon foncé. Notre robot possède 16 capteurs infrarouges disposés en couronne. Leurs données sont censées correspondre à des distances allant jusqu'à 24 pouces (env. 61 cm). Le bumper est un capteur permettant de détecter une pression qui s'exerce sur lui. Il sert à détecter des contacts physiques. Notre robot en possède 20 répartis sur deux couronnes. Ceci permet de détecter un contact autour du robot avec une précision de 18 degrés. Ce type de capteur est assimilable à notre système somato-sensoriel3 en ce qui concerne la détection de contact (sensibilité tactile), sans toutefois pouvoir déterminer la nature de la surface ou la température de la source de contact, par exemple. Il peut servir à des tâches de détection d'obstacles ou de poussée d'objets. 2Ce mécanisme d'ultrasons apparaît chez les chauves-souris et chez les dauphins qui l'utilisent pour leur navigation. 3Partie du système nerveux qui traite l'information venant du corps (soma). 98 6. Le niveau physique Le compas magnétique est un capteur qui fournit l'orientation du robot par rapport au Nord absolu. Ce type de capteur est perturbé par tout champ magnétique. Ceci est courant en milieu fermé tel qu'un laboratoire où différents appareils peuvent perturber localement le champ magnétique. Les informations données par le compas sont de nature différente de celles des capteurs précédents dans Ie sens où elles constituent une référence absolue et non relative au robot. Il est toutefois légitime de doter le robot d'un tel capteur dans le sens où l'information traitée est basée sur un phénomène naturel4. L'odométrie permet de mesurer la position estimée du robot (x,y,0) par rapport à sa position initiale (0,0,0), les vitesses de translation et de rotation de la base et la vitesse de rotation de la tourelle par rapport à la base. Ces valeurs sont remises à jour en fonction des commandes envoyées aux moteurs. Ce capteur illustre un type de proprioception. Ces informations sont souvent utilisées dans le contrôle de robots. Elles encouragent l'utilisation de modèles géométriques du monde ex- ploitables par le robot dans des tâches de navigation. A nos yeux, il s'agit d'un piège car ces informations sont très peu fiables5. Nous évitons donc d'exploiter ce genre d'information et nous limitons à utiliser indirecte- ment l'odométrie à travers les commandes envoyées au robot; en effet, ces commandes utilisent de façon interne l'odométrie pour contrôler la réalisation du mouvement demandé. La vision par lumière structurée repose sur le couplage d'un plan laser et d'une caméra CCD. Ce capteur sert à détecter, par triangulation, Ia présence d'objets en deçà d'une certaine distance et dans une certaine direction. Il précise également la position azimutale de l'objet détecté, Le laser projette sur le sol, devant Ie robot, une ligne observée par la caméra. Si le sol est plat, cette ligne reste à une hauteur fixe sur l'image lorsque le robot bouge. Par contre, la présence d'un objet dans la zone d'attention provoque une brisure de la ligne. Ce capteur est perturbé par des variations de luminosité (qui peuvent faire disparaître Ia ligne), la couleur du sol (qui peut perturber le contraste sur la ligne), des vibrations du robot et des sols inégaux. Le robot possède un de ces systèmes, pointé vers l'avant et sensible en deçà de 1.5 m. environ. La vision par balises repose sur l'analyse de l'image vidéo fournie par une caméra équipée d'un objectif fisheye offrant un grand angle de vision. Elle sert à détecter des cibles ou des balises dans l'environnement. On peut aider le système à détecter les cibles en équipant la caméra d'un tube fluorescent et en utilisant des balises rétro-réfléchissantes. La balise est isolée du reste des éléments de l'image par seuillage adéquat de cette image. Ce capteur est perturbé par une luminosité ambiante trop importante ou par la présence dans la champ de vision d'objets possédant les mêmes propriétés rétro-réfléchissantes que les balises. Le premier robot que nous avons utilisé, le HERO-2000, possède en plus • des capteurs permettant de mesurer le degré de luminosité suivant plusieurs orientations, Ia température ambiante et le niveau sonore, • un capteur permettant de mesurer le niveau des batteries (c'est là le seul capteur intéro- ceptif de nos robots). *La plupart des espèces animales migratoires utilisent ce genre de mécanisme pour s'orienter. Certaines fourmis (dans Ie désert en particulier) ou certains arachnides [Carthy7l], se dirigent par ce genre de mécanisme en s'orientant non pas sur la référence du champ magnétique terrestre mats d'après la position du soleil. 5Il suffit que le sol ne soit pas parfaitement nivelé ou que la surface soit glissante (linoléum) pour que le robot s'éloigne fortement de sa position estimée (on parle de dérive). Généralement, il suffit d'un aller-retour sur une distance de deux mètres pour se convaincre de l'imprécision de ces capteurs (l'odométrie dira que le robot est retourné à son point de départ (0,0,0) alors qu'on observe des écarts de plusieurs centimètres entre la position de départ et celle d'arrivée). La dérive est encore plus marquée dans les mouvements de rotation! 99 Modélisation d'un agent Autonome robot camera plan laser Figure 6.2 : Dispositif du système de vision par lumière structurée, {repris de [Gat-al.92a]). En résumant, nos robots possèdent huit types d'extérocepteurs, un type de propriocepteur et un type d'intérocepteur. Le NOMAD 200, que nous avons utilisé dans le cadre de cette thèse ne possède aucun intérocepteur. Ainsi, nous utilisons explicitement les extérocepteurs et indi- rectement le seul propriocepteur à disposition: l'odométrie. Dans la suite, lorsque nous parlons de capteurs, nous couvrons conceptuellement les trois types de fonctions mais uniquement les extérocepteur d'un point de vue pratique. Nous avons vu également qu'une caractéristique importante et globale à tous les capteurs est leur sensibilité aux perturbations ambiantes. 6.3 Capteurs et autonomie Les capteurs déterminent les capacités sensorielles du robot; ils sont limités en nombre mais fournissent des informations riches et variées. Tous les robots ne sont pas forcément aussi riches en capteurs, d'autres ont des capacités encore plus variées et précises. En robotique, la partie qui s'occupe des capteurs est un domaine d'étude en soi. Il est à noter que si chaque capteur est susceptible de subir des perturbations provenant de facteurs externes, indépendantes du robot lui-même, la réunion de différents capteurs sur une même plate-forme peut conduire à des interférences entre capteurs; par exemple, le néon du système de vision par balises peut influencer les capteurs infrarouges ou le système de vision par lumière structurée. D'autre part, chaque capteur fournissant des informations de nature différente, mesurant des phénomènes différents, ils sont utiles à des tâches différentes; un capteur peut permettre de résoudre à lui seul une fonctionnalité et être totalement inutile pour un autre emploi. A l'inverse, un même capteur peut servir à des fonctionnalités de nature différente: le dauphin, par exemple, émet des sons qui, suivant leur fréquence, lui servent à sa navigation selon un mécanisme de sonar (de 20 à plus de 100 kHz) ou à la communication inter-dauphins (de 1 à 20 kHz: cette zone est partiellement audible pour l'être humain - de 1 à 8 kHz environ). Ainsi, la plage de fréquences audibles par le dauphin est beaucoup plus large que celle de l'Homme. Cet exemple permet de rappeler que la plupart des espèces animales démontrent des capacités impressionnantes dues au développement de capteurs spécifiques leur ayant permis de s'adapter à leur milieu et de survivre en palliant certaines carences. 6.4 Les effecteurs Notre robot NOMAD 200 est constitué d'une base et d'une tourelle indépendante. Nous ne considérons aucun bras articulé muni d'une pince en son extrémité, comme sur le HERO-2000. 100 6. Le niveau physique Le robot possède trois moteurs et trois roues. Un premier moteur s'occupe de la translation simultanée des trois roues, un second de leur rotation simultanée. Le robot peut effectuer des rotations autour de son centre en maintenant sa base immobile. Enfin, le troisième moteur s'occupe de la rotation de la tourelle par rapport à la base. Les déplacements du robot peuvent être contrôlés suivant différents modes: en commandes absolues (va en (x, y)), en commandes relatives (tourne de x et avance de y), en vitesse (avance a vitesse x tout en tournant à vitesse y) ou en accélération (avance en accélérant de x et en tournant à accélération de y). 6.5 Effecteurs et autonomie Si certaines analogies sont frappantes entre les capteurs du robot et des mécanismes présents chez des espèces animales, ceci n'est plus.le cas pour les organes effecteurs; aucun animal n'utilise la roue pour se mouvoir, tous utilisent leurs pattes, leurs nageoires, leurs ailes ou les ondulations de leurs corps pour de déplacer. Certaines applications robotiques, observant ces différences et s'intéressant à mimer les organes des espèces animales, ont donné lieu à des robots à pattes (voir [Brooks90, Beer90, Heizelmann93] ou la figure 3.10). Malgré le manque d'analogies physiques, la fonction reste la même. Les effecteurs sont un élément essentiel de l'autonomie dans Ie sens où ils portent le mouvement sans lequel l'autonomie est limitée à une interaction végétative. 6.6 La communication Les traitements liés au contrôle des capteurs et des effecteurs sont faits sur la plate-forme robotique (on-board). Les programmes que nous avons développés tournent sur stations de travail, c'est-à-dire off-board. Une communication entre les stations et ie robot doit donc être prévue. Dans notre cas, elle peut se faire par câble RS-232 ou par radio, à 9600 bits/sec. Le module de communication radio étant fiable et puissant, nous avons pu abandonner le câble6. Le pas suivant de notre développement consiste à porter nos algorithmes sur la plate- forme elle-même- Ceci est envisageable car le robot est équipé d'un PC. C'est lui qui s'occupe, notamment, du contrôle des capteur, des effecteurs et de la communication. Une autre solution consiste à charger la station de travail sur le robot en l'alimentant à partir d'une batterie supplémentaire. 6.7 Commentaires Les éléments constitutifs du niveau physique d'ARCO (les capteurs et les effecteurs) sont une première base à l'autonomie de l'agent que nous modélisons, Ils déterminent d'ailleurs l'agent en tant que tel, du fait que nous le définissons comme un "artefact ayant des capacités de perception et d'action". L'évaluation des capacités physiques de notre robot peut varier selon le point de vue adopté. En tant que robot, il s'agit d'une plate-forme présentant une bonne variété de capteurs et souffrant des insuffisances propres à ce genre de dispositif technologique. Il est pourtant fréquent Bien que la situation reste identique (le robot est toujours contrôlé par les programmes tournant sur les stations SUN) cette "coupure du cordon ombilical" donne l'impression, à l'observateur externe, d'une plus grande autonomie. 101 Modélisation d'un agent autonome que l'observateur d'un tel système prenne une attitude anthropomorphique pour établir son jugement, ce qui conduit inévitablement à une sous-évaluation de ses capacités'. D'autre part, l'illustration du premier niveau de l'architecture ARCO par la description des capacités de notre robot NOMAD 200 nous a portés à relever plusieurs analogies entre ce système artificiel et certains organismes vivants. Face à ces analogies, nous adoptons dans ce travail trois positions interprétatives: celles du concepteur, du scientifique et du rédacteur. En tant que concepteur, du point de vue de l'ingénieur, nous sommes naturellement portés à faire des comparaisons dans le but d'améliorer les performances physiques et donc compor- tementales de notre système. Pourquoi la chauve-souris, dont la navigation aérienne est essentiellement basée sur un système sonar, est-elle si performante? Plusieurs facteurs peuvent intervenir dans l'explication: son anatomie, sa structure neuronale, ses traitements internes de l'information, la qualité de ses capteurs, leur capacité d'adaptation. De la même façon, connaissant les caractéristiques des capteurs du robot, on peut tenter d'interpréter, parfois même d'expliquer, les comportements d'espèces animales ou leur mode de vie. Par exemple, pourquoi ces chauves-souris naviguent-elles en milieu externe uniquement de nuit? Les capteurs qu'elles utilisent en sont partiellement responsables. Cette première approche de l'analogie peut permettre à l'ingénieur d'utiliser, de façon plus adéquate, les capteurs du système qu'il construit. En tant que scientifiques, notre tâche est de rester conscient qu'il s'agit uniquement d'ana- logies et de s'intéresser aux différences, plutôt qu'aux analogies, afin d'expliquer les lacunes méthodologiques de notre approche et envisager de nouvelles voies de recherche. En particulier, il est important de considérer que l'appareil sensori-moteur et l'animal qui le porte présentent la caractéristique d'avoir co-évolué. Cette remarque s'applique aussi bien à l'échelle de l'individu, dans une évolution ontogénétique, qu'à l'échelle de l'espèce, dans une évolution phylogénétique. Sur notre robot, par contre, les capteurs sont là,-donnés et figés. Ils n'ont généralement pas été construits dans une perspective évolutionniste. Ainsi, ils n'offrent pas une "interface" permettant de les faire évoluer8. Le temps ne les influence que dans le sens d'une détérioration physique. Ce manque de capacités évolutives au niveau physique constitue une différence fondamen- tale entre le vivant et l'artificiel. La réflexion au niveau physique de nos agents en fait prendre conscience. Enfin, en tant que rédacteur, notre devoir est d'utiliser ces analogies à bon escient en évitant qu'elles ne prêtent à confusion. Notre souci est d'y parvenir. Relevons que, dans le monde animal, la nature et les performances des capteurs d'un individu caractérisent l'espèce à laquelle il appartient; ils établissent les capacités sensori- motrices et donc les capacités comportementales de l'ensemble de l'espèce. De la même façon, nous percevons chaque robot particulier, comme membre d'une catégorie robotique, limitée par ses capacités physiques et, par conséquent, limitée en capacités senso- ri-motrices, comportementales et cognitives. Toutefois, ces limitations ne sont pas à prendre comme une restriction sur le plan de la modélisation; elles permettent d'orienter nos choix méthodologiques en donnant un cadre de possibilités. Finalement, remarquons que certains systèmes autonomes, et en particulier des systèmes vivants, sont équipés de capteurs moins variés et performants que ceux de notre robot. C'est, Dans ce sens, la vision ayant une part si importante dans la perception de notre milieu, il est normal de constater que nous avons tendance à nous considérer comme des organismes mono-sensoriels, alors que nous possédons cinq sens et que chacun d'eux nous sert continuellement (souvent inconsciemment) dans notre vie quotidienne. Nous sommes, comme on l'a dit, également équipés de capteurs procurant à notre système nerveux des informations internes à notre corps, à travers les propriocepteurs et les intérocepteurs. En travaillant avec un robot multi-sensoriel tel que le notre, nous prenons conscience de la nécessité d'en exploiter judicieusement toutes les modalités mises à disposition. C'est là une première étape vers l'autonomie du système. 6Thomas Wherle a récemment abordé cette problématique en simulation [Wherle94]. 102 6. Le niveau physique dans une large mesure, par l'utilisation qu'ils font de ces capteurs, fruit d'une co-évolution efficiente, que ces systèmes proposent différentes solutions à l'autonomie. 103 Modélisation d'un agent autonome 104 7 Le niveau comportemental Les capacités comportementales constituent le niveau intermédiaire de l'architecture ARCO. Ce niveau est au centre de toute la dynamique du système; il intervient, comme nous l'avons vu au chapitre 5, dans les deux boucles d'interaction internes (la boucle comportementale et la boucle cognitive) et dans deux des trois boucles d'interaction externes (la boucle d'activité et la boucle de fonctionnalisation). C'est donc un élément essentiel de l'architecture, qui porte l'activité et la rend réactive par un traitement de nature située. Ce chapitre va nous permettre de préciser la nature des comportements que nous modéli- sons. Ceci permet de discerner l'apport du niveau comportemental à la boucle comportementale (interaction avec le niveau physique) et à la boucle d'activité (interaction avec l'environnement, à travers le niveau physique). Nous donnons également un formalisme permettant de décrire l'agent comportemental. Ce formalisme sera utilisé au niveau cognitif, dans le cadre d'un raisonnement portant sur les propriétés de l'activité. Cela permet de considérer l'apport du niveau comportemental à la boucle cognitive (interaction avec le niveau cognitif) et à la boucle de fonctionnalisation (interaction du niveau cognitif avec l'environnement à travers les niveaux inférieurs). Nous illustrons l'approche par quatre comportements simples de navigation destinés au robot mobile. 7.1 Nature de l'activité Sans vouloir tomber dans des analogies faciles ou simplistes entre les agents artificiels que nous modélisonset les organismes vivants, il est intéressant d'analyser les notions de comportement, réflexe et instinct, afin de préciser la nature de l'activité de notre agent. 7.1,1 Le comportement, le réflexe et l'instinct De façon générale, le comportement est une vue objective de l'activité globale d'un système. Le point de vue y est externe à l'agent. Les concepts de réflexe1 et d'instinct2, par rapport à la nature interne de l'agent et dans le souci de caractériser le comportement, sont des abstractions plus précises. Pour notre approche de l'activité, la différence entre le réflexe et l'instinct porte sur leur rapport avec l'action résultante. Dans des conditions normales, le réflexe est involontaire et par conséquent inévitable; l'ex- citation sensorielle, ou stimulus, s'y convertit irrémédiablement en action (réaction). L'instinct est par contre une impulsion intérieure, une tendance et non une action; le stimulus provoque une excitation interne, sans forcément aboutir à l'action effective. De plus, bien que l'action résultante puisse se dérouler sans réflexion (de façon automatique et située), ce n'est qu'à travers un choix que l'instinct s'exprime en action. 1 Réflexe: Phénomène nerveux consistant en une réponse déterminée, immédiate et involontaire de l'organisme à une excitation particulière. 2/nsíínc ¡: Impulsion naturelle. Premier mouvement qui dirígeles animaux dans leur conduite. Chez l'homme, impulsion intérieure, indépendante de la réflexion, 105 Modélisation d'un agent autonome Ainsi, d'un point de vue interne, nous différencions le réflexe et l'instinct par le type de structure par laquelle ils lient la perception à l'action; le réflexe semble porté par une liaison directe alors que l'instinct transite par un élément de choix qui favorise ou non son expression en action. 7.1.2 Une activité instinctive Le niveau comportemental d'ARCO est constitué d'actions situées, implantées par des boucles sensori-motrices (liant la perception à l'action). Elles ressemblent à des réflexes et à des ins- tincts. Les premiers ne sont pas contrôlés par l'agent; ils agissent automatiquement sur l'action. Leur rôle est d'assurer l'intégrité physique dans des situations extrêmes. Les instincts, par contre, forment les unités contrôlées par le niveau cognitif. Ainsi, c'est en termes d'instincts que nous nous référons à l'activité contrôlée de l'agent. Ii s'agit là, à nouveau, d'une analogie quelque peu anthropomorphe. Néanmoins, elle a l'avantage d'être plus précise que celle de comportement, couramment utilisée et tout aussi abusive. De plus, et particulièrement en sciences cognitives, elle contribue à fixer l'intuition d'un public hétérogène quant à la nature située mais contrôlable de l'activité. 7.1.3 Capacités innées et capacités acquises U est important de noter que, par opposition à d'autres travaux comportementaux, nous trai- tons l'instinct comme une capacité innée de l'agent et ne traitons en aucun cas la faculté d'apprentissage, par l'agent lui-même, des mécanismes d'activité. Dans notre cas, les boucles sensori-motrices sont pré-program niées et donc données a priori. Ce choix peut s'appuyer sur l'observation de Konrad Lorenz3 qui écrit "les coordinations des mouvements de l'acte instinctif sont déterminées d'une ma- nière innée jusqu'aux moindres détails" ...Nous devons être "méfiants à l'égard de toute affirmation concernant la modification adaptative de l'acte instinctif par l'expérience individuelle. .. .dans tous les cas où on a pu constater une modifica- tion apparemment adaptative d'un acte instinctif par l'expérience personnelle, il s'agissait d'un processus de maturation*." [Lorenz 37 (p.67)]. Ces réflexions nous poussent à considérer l'apprentissage comportemental comme étant judicieux lorsque l'anatomie de l'agent évolue au cours du temps. Ce n'est pas le cas pour l'agent que nous modélisons. Toutefois, ce choix ne dénie en aucun cas l'importance de l'apprentissage dans le phénomène d'autonomie. De même, d'un point de vue d'ingénieur, les techniques d'apprentissage (algorithmes gé- nétiques, réseaux de neurones artificiels) sont particulièrement bien adaptées à l'optimisation et à la mise au point de comportements situés. Les travaux cités au chapitre 3 l'ont bien démontré. L'avantage majeur de ces techniques est, dans ce contexte, d'éviter au programmeur une phase longue et délicate de calibrage des paramètres. En ce qui nous concerne, l'apprentissage sera utilisé uniquement au niveau cognitif (voir chapitre 9). 3Ethologue autrichien (1903-1989), prix Nobel de médecine en 1973 partagé avec N. Tinbergen et K. von Fr i scli. * Maturation: Evolution liée au développement d'un organe et à la coordination des mouvements instinctifs déterminant son utilisation. 106 7. Le niveau comportemental 7.2 Un langage de description Dans le but d'introduire une formalisation des instincts tels que nous les modélisons, nous allons spécifier leurs caractéristiques majeures. Nous formaliserons ensuite ces principes pour fournir un langage de description comportementale utilisable au niveau cognitif. 7.2.1 Caractérisation des boucles sensori-motrices • Chaque instinct est lié à un ensemble particulier de capteurs et d'effecteurs. • Les instincts sont virtuellement indépendants. Ils peuvent en pratique accéder aux mêmes sources d'informations (capteurs ou représentations internes) mais ils ne communiquent pas entre eux. • L'instinct a la capacité d'extraire certaines caractéristiques invariantes (stimuli) à par- tir des données capteurs (signaux). Chaque instinct est spécialisé dans l'extraction de caractéristiques particulières. • Un stimulus5 est soit présent, soit absent; aucun degré intermédiaire n'est considéré. • L'observation de certaines configurations de caractéristiques extraites (état perçu) stimule l'instinct. • L'instinct stimulé affiche une certaine tendance, exprimée à travers la génération d'une commande destinée aux effecteurs qu'il peut contrôler. Elle est fonction de l'état perçu et de l'état interne de la boucle. Si l'instinct n'est pas stimulé, il ne produit aucune commande. • Bien que les notions d'instinct et de stimulus soient liées (l'instinct est sensible à un ensemble de stimuli), ce sont là deux abstractions distinctes. • Pour des questions de réactivité, le temps de cycle de l'instinct est court. Des traitements en temps réel sont souhaitables. • Le traitement de l'information â l'intérieur de l'instinct se fait en continu. Les instincts s'exécutent donc en parallèle, afin d'apporter une attention permanente et une polyva- lence maximale. U est à noter qu'aucune notion de but n'intervient dans notre concept d'instinct. Nous pouvons tout au plus considérer une certaine tendance pré-programmée dans l'action, s'expri- mant essentiellement par la volonté de maintenir un stimulus ou de le perdre. D'un point de vue externe, ceci correspond à des attitudes d'attraction ou de fuite6. Les caractéristiques ci-dessus sont celles intervenant dans la dynamique d'ARCO portée par la boucle comportementale. Les instincts possèdent également deux caractéristiques liées à leur intervention dans la dynamique de la boucle cognitive: • chaque instinct informe le niveau cognitif de la présence ou de l'absence des configurations de stimuli auxquelles il est sensible, • une commande produite par un instinct n'est pas forcément envoyée aux effecteurs; le niveau cognitif peut empêcher cet envoi, auquel cas l'instinct ne s'exprime pas en action effective. 6On distingue généralement le stimulus "distal" (l'objet ou l'événement donnant lieu à la stimulation) du stimulus "proximal" (l'excitation périphérique sur l'appareil sensoriel récepteur). Dans le texte, les apparitions du terme stimulus ont jusqu'ici fait référence tantôt à l'un tantôt à l'autre. Dans la suite, ce terme fait référence exclusivement au stimulus "proximal", à une caractéristique interne au système. Nous retrouvons ici la notion de tropisme (taxie/pathie) exploitée par le mouvement comportement aliste et par le paradigme d'eco-résolution [Ferber90] en particulier. 107 Modélisation d'un agent autonome Précisons que l'instinct stimulé n'est pas informé de sa sélection ou inhibition par le ni- veau cognitif. Cette information serait nécessaire, en particulier, si les boucles sensori-motrices étaient adaptatives. En effet, il faut dans ce cas que la boucle sache si elle est la cause d'une variation observée ou non. Dans notre cas, l'instinct n'a pas besoin de cette information. 7.2.2 Une formalisation de l'activité Cette spécification intuitive de l'instinct permet de formaliser le niveau comportemental de façon à satisfaire les besoins d'interfaçage entre le niveau comportemental et le niveau cognitif dans l'architecture ARCO. Soient 2" = {¿i, ... ,?"„} : l'ensemble des ti instincts dont l'agent est doté, S = {si,..., sm] l'ensemble des m stimuli liés aux instincts de l'agent. Du point de vue de l'agent, tout stimulus est présent ou absent à un moment donné. Ainsi, l'agent discrétise l'espace temporel en intervalles sur lesquels l'ensemble des stimuli présents est constant. Nous appelons ces intervalles temporels des instants sensoriels'. Dès lors, si p(S) est l'ensemble des parties5 de S et p(I) l'ensemble des parties de I1 la fonction de stimulation T de l'agent est donnée par l'application T:p(S) — P(I) a h-* ß Ainsi, étant donné le sous-ensemble a C S de stimuli perçus par l'agent en un instant sensoriel déterminé, l'application T fournit l'ensemble ß des instincts, éléments de J, stimulés (et sélectionnables par le niveau cognitif) à cet instant sensoriel. p(S) représente Vespace sensoriel de l'agent; à tout instant sensoriel l'agent perçoit un élément de p(5) nommé état sensoriel. Remarquons que les stimuli peuvent être indifféremment provoqués par des facteurs externes ou internes à l'agent; leur traitement est identique car les stimuli ne sont pas différenciés en fonction de leur provenance (extéroception, intéroception ou proprioception). De façon similaire, p{1) représente l'espace de Stimulation de l'agent; à tout instant sen- soriel, l'agent est dans un état de stimulation, élément de p(î). Il est à noter que T n'est pas forcément une bijection du fait qu'elle n'est pas forcément une injection; plusieurs états sensoriels différents peuvent correspondre à un même état de stimulation (c'est d'ailleurs ce qui justifie sa définition). 7.3 Remarques 7.3.1 Le choix des stimuli pertinents Nous avons insisté au paragraphe 7.1.3 sur le fait que les boucles sensori-motrices que nous considérons sont pré-programmées et correspondent donc à des capacités innées. Ainsi, la conception de ces boucles d'activité passe par le choix délicat et important des caractéristiques pouvant (a) et devant (b) être traitées par la boucle. a) Toute caractéristique jugée pertinente pour l'activité de l'agent n'est pas forcément ext- ractible des données capteurs mises à disposition par le niveau physique. En effet, pour un agent particulier, l'ensemble des capteurs est limité et le type d'informations fournies l'est également. L'approche synthétique dont nous parlions au paragraphe 5.3 intro- duit ici une première contrainte, par le fait que le niveau comportemental se consacre exclusivement à exploiter des ressources limitées, offertes par le niveau physique. 7Le choix du terme instant, plutôt qu'intervalle, sera justifié au paragraphe 8.7.1 sEnsemble des sous-ensembles possibles de S. 108 7. Le niveau comportemental b) Le choix opportun et le traitement adapté d'une caractéristique est un élément essentiel pour la robustesse et la fréquence de la boucle. En aval dans le traitement, ce choix influence également la stabilité du système global; par exemple, pour une activité de navigation asservie sur une caractéristique en environnement fermé, l'axe médian de l'espace libre s'avère être une caractéristique plus régulière que le bord de ce même espace libre. La première caractéristique est plus judicieuse que la seconde, même si les deux peuvent être utilisées dans une tâche de navigation. Il nous paraît important de relever que la catégorisation sensorielle faite par notre agent est innée. En poursuivant dans le sens de la remarque de Lorenz sur l'ontogenèse, l'appareil sensoriel de notre agent étant préétabli, nous ne considérons pas l'acquisition ou l'évolution des catégories sensorielles. Ainsi, la détérioration progressive d'un capteur particulier conduira à l'observation d'incohérences9 sans provoquer de variation des catégories observables. Nous reviendrons sur ce sujet au paragraphe 9.2.2. 7.3.2 Intensité de stimulation: dichotomique ou multi-valuée Il est reconnu que, pour le réflexe, l'intensité10 dû stimulus est un facteur déterminant (quanti- tativement et qualitativement) dans la réponse qu'il provoque. Cette relation, pour un réflexe, s'exprime dans une certaine contiguïté temporelle, ce qui facilite son analyse. Il est par contre plus délicat d'évaluer la part d'influence que possède l'intensité de stimulation sur un compor- tement global ou sur les capacités cognitives. Dans notre travail, l'intensité du stimulus (variable pouvant être multi-valuée par traite- ment numérique, probabiliste, logique floue ou autres) est prise en considération uniquement au niveau comportemental. Cette caractérisation disparaît au niveau cognitif du fait que le formalisme que nous venons d'introduire considère le stimulus par rapport à sa présence ou son absence uniquement (en tout ou rien). Ce traitement dichotomique de la stimulation peut être vu comme une limitation dans le sens où nous considérons qu'aucune information d'intensité de stimulation n'est nécessaire au niveau cognitif. Toutefois, du fait de l'imbrication des dynamiques liées à l'architecture ARCO (voir paragraphe 5.2), la prise en compte de l'intensité au niveau comportemental revient à dire que l'intensité de stimulation peut influencer aussi bien l'activité que la fonctionnalisation (à travers les boucles externes d'activité et de fonctionnalisation). Ainsi, bien que seule l'information de présence (ou d'absence) du stimulus soit envoyée au niveau cognitif par l'instinct, son intensité peut tout de même intervenir dans le traitement fait par l'instinct ou même directement dans le jugement de la présence ou de l'absence du stimulus (seuil contrôlable par l'instinct). 7.4 Illustration Dans Ie but de favoriser l'intuition du niveau comportemental, nous allons introduire un exemple simple de boucle sensori-motrice donnant lieu à quatre instincts de navigation. Ces instincts ont été implantés et ont fait l'objet d'une application de navigation dans les corridors de notre laboratoire. D'autres instincts ont également été implantés, dans le cadre du projet MARS, mais n'ont pas été intégrés dans cet exemple, notamment ceux liés à la vision (vision par balises et vision par lumière structurée). Ils sont décrits dans [Gat-al.92a]. 9L'agent n'observe, par exemple, que des sous-ensembles d'états sensoriels attendus. 10En psychophysiologic, suivant la nature du stimulus exteme (visuel, auditif, tactile, olfactif ou gustatif), son intensité est mesurée en unités différentes (luminance, décibels, force ou concentration, respectivement) sur des échelles multi-valuées. L'influence de l'intensité du stimulus sur le réflexe qu'il déclenche peut donc être précisément déterminée. 109 Modélisation d'un agent autonome COGNlTiF Figure 7.1 : Boucle sensori-motrice correspondant à l'instinct "suivi de lien vers le Nord". 7.4.1 Quatre instincts simples Le type d'instinct considéré ici est basé sur les capteurs sonars et le compas magnétique du niveau physique de notre robot, Chaque instinct exprime une tendance à suivre des corridors (passages libres) dans l'une des quatre directions absolues (N, S, E, W). Les données sonar permettent de reporter les obstacles détectés sur une carte 2D d'où la boucle sensori-motrice extrait le squelette correspondant à Taxe médian de l'espace libre. Ce squelette est une caractéristique sensorielle, susceptible de stimuler un ensemble d'instincts portés par différentes boucles sensori-motrices. Le squelette est centré sur le robot et peut être formé de plusieurs axes qui sont autant de voies que le robot est capable et susceptible de suivre dans ses tâches de navigation. Enfin, le compas permet d'orienter la carte par rapport au Nord absolu et de déterminer ainsi l'orientation des axes du squelette de l'espace libre observé. La figure 7.1 représente la boucle de l'instinct "suivi de lien vers le Nord", stimulé par la présence d'un axe libre dans la direction Nord. Trois autres boucles similaires constituent les instincts de "suivi de lien vers le Sud", "... vers l'Est" et "... vers l'Ouest". La présence d'un axe dans la direction de sensibilité stimule l'instinct particulier qui en- gendre une commande tendant à faire naviguer le robot le long de l'axe observé. La commande correspond à des consignes de vitesse en translation et rotation. La fréquence de ce type de boucle est proche du hertz; un instinct stimulé et sélectionné envoie aux effecteurs une commande par seconde en moyenne. Le traitement peut être accéléré mais ces performances se sont avérées suffisantes pour notre application. L'agent est suffisam- ment réactif11. Nous observons également sur la figure 7.1 deux circuits symbolisant l'interface de l'instinct avec le niveau cognitif. A chaque cycle de la boucle de traitement, l'instinct in- forme de la présence ou de l'absence du stimulus attendu à travers le circuit de gauche. Dans le cas représenté, une seule caractéristique sert de stimulus mais, généralement, plusieurs ca- ractéristiques peuvent être traitées et annoncées par un même instinct. L'ensemble des données provenant des instincts permet au niveau cognitif de déterminer l'état sensoriel courant. Le circuit de droite symbolise le mécanisme par lequel le niveau cognitif peut inhiber l'instinct ou le sélectionner en interrompant ou non la liaison avec les effecteurs du niveau physique12. Si la notion de temps réel correspond à "avoir la même fréquence que l'acquisition du capteur", nos instincts sont, d'un point de vue informatique, des boucles temps réel. En effet, la fréquence d'acquisition du système sonar est également proche du herz. Cette remarque peut être appliquée à toutes les boucles sensori-motrices utilisées dans nos expériences. En fait, nous avons vu au paragraphe 5.4 que la sélection d'un comportement se fait en déposant son identité sur le tableau noir comportemental. Conceptuellement, ¡1 s'agit du même mécanisme de sélection d'actions. 110 7. Le niveau comportemental 7.4.2 Formalisation de l'exemple Dans cet exemple, les ensembles Z et 5 contiennent chacun quatre éléments: X = {"suivi de lien vers le Nord", "... Sud", "... Est", "... Ouest"} S = {"lien Nord", "lien Sud", "lien Est", "lien Ouest"} La fonction de stimulation T se résume à l'application associant la présence d'un stimulus "lien X" à la stimulation de l'instinct "suivi du lien vers le X". 7.4.3 Mesure combinatoire de l'espace sensori-moteur de l'agent Notre formalisation en théorie des ensembles nous oblige à considérer la taille des espaces générés par tout choix et spécification d'un niveau comportemental caractérisant un agent particulier. Nous voulons spécialement attirer l'attention sur le fait que si les espaces théoriquement possibles sont complexes, les contraintes naturelles apparaissant entre stimuli et la nature propre à chaque environnement provoquent une réduction importante de la taille de ces espaces, ce qui permet d'envisager des espaces effectifs dont la complexité est abordable aux traitements de l'agent. Etant donnés s stimuli (s = J5|) et i instincts (i = |J¡), la taille de l'espace sensoriel possible est de T1 — 2a et celle de l'espace de stimulation possible est de T¡ = 21. 7 est une application particulière parmi les T¡ ' possibles. Or, bien que la taille des espaces croisse exponentiellement avec la taille des capacités sensori-motrices de l'agent, seule une partie de ces espaces intervient dans les applications réelles, ce qui réduit considérablement Ia taille des espaces effectifs; en général toutes les confi- gurations possibles n'apparaissent pas. Pour l'espace sensoriel, il existe des dépendances entre stimuli: la présence d'un stimulus peut, par exemple, être liée à la présence ou l'absence d'autres stimuli. Ceci réduit considéra- blement la taille de l'espace sensoriel effectif'Tf. Imaginons que parmi 10 stimuli, 4 soient liés (si l'un est présent, les trois autres sont absents, par exemple). La taille de l'espace sensoriel possible est réduite de 210 à 27. Pour une dépendance simple de ce genre, la taille de l'espace est donc réduite de 90%. Ce genre de corrélation entre stimuli est fréquent. De plus certains des états sensoriels encore possibles n'apparaîtrons pas dans un environ- nement particulier. Ceci situe la taille de l'espace sensoriel effectif à Tf < 27 (dans l'exemple donné), ce qui revient à dire que l'espace sensoriel effectif est inférieur au dixième de l'espace sensoriel possible [Tf < 10%T3). Pour l'espace de stimulation effectif Tf1 l'application T n'étant pas forcément injective (deux états sensoriels différents peuvent provoquer le même état de stimulation), nous avons Tf 1, (deux états sensoriels successifs sont forcément différents) • i{j) G F{p(J))>VJ > I1 (à- chaque instant sensoriel, l'instinct sélectionné est forcément stimulé) La première contrainte découle directement des hypothèses du paragraphe précédent, alors que la seconde est une conséquence de la définition même du problème de la sélection d'actions; on ne peut choisir que parmi les instincts qui sont prêts à s'exprimer en action, ceux qui sont stimulés. Ainsi, cette connaissance sensori-motrice est la seule source d'information de notre agent, son "unique réalité". Elle possède la particularité de conjuguer deux propriétés qui généra- lement semblent contradictoires: représenter des capacités sensori-motrices et être de nature symbolique. La connaissance de base étant établie, le paragraphe suivant introduit une connaissance de plus haut niveau, qui doit être l'aboutissement du processus de structuration. 10Synchronique: Qui représente ou étudie des faits arrivés en même temps. 120 8. Le niveau cognitif II est important de préciser que les structures que nous allons proposer dans la suite de ce chapitre correspondent à celles envisagées comme résultat d'un processus de structuration de l'historique. Nous délaissons momentanément les mécanismes de structuration pour ne nous intéresser qu'au produit final, la connaissance structurée. Dans ce cadre, nous nous permettons d'adopter une position objectiviste en proposant des illustrations qui ne sont que notre vision de ce que pourrait être la connaissance de l'agent après structuration "parfaite" de son historique "parfait". II s'agira ensuite (à travers la spécification des processus cognitifs) de s'assurer que le passage de l'un à l'autre peut être réalisé par l'agent, de façon autonome et suivant une approche cette fois non-objectiviste et constructiviste. 8.7.2 Représentation de la topologie de l'interaction L'historique sensori-moteur constitue une connaissance linéaire de l'interaction milieu-agent, une succession d'expériences vécues. Cette connaissance est peu structurée. Or, les capacités cognitives que nous convoitons dans le but de permettre une fonctionnalisation de l'activité (particulièrement la localisation et la prédiction) nécessitent une connaissance plus structurée de l'interaction donnant, notamment, des informations sur son organisation globale; sur sa structure topologique plus que sur sa structure temporelle (uni-dimensionnelle)11. Une structure de graphe Le type de structure symbolique que nous considérons pour représenter la topologie de l'inter- action est la structure de graphe. Nous allons exposer brièvement les possibilités de représentation d'une telle structure de graphe et proposer celle que nous avons choisie dans notre travail. Deux approches sont possibles pour représenter un graphe de façon symbolique: les graphes implicites et les graphes explicites. Pour les différencier, il suffit de ne pas confondre la des- cription du graphe et le graphe physique lui-même, auquel cette description correspond. Selon une formulation mathématique, un graphe G peut se définir par un couple G = (X1U)1 où X = {xk} correspond à l'ensemble des sommets x¡. du graphe et U = {(xiixj)} Ia famille12 des couples de sommets (xi,xj) représentant les arcs du graphe. Le graphe corres- pondant peut être construit en créant une structure informatique (une instance, par exemple) pour chacun des sommets et en les connectant les uns aux autres suivant la définition des arcs donnée par U. L'approche par graphe implicite correspond à donner uniquement une description du graphe. Dans ce cas, une modification du graphe correspond à l'ajout ou au retrait d'un élément de la description. Si cela est nécessaire, la description peut servir à construire le graphe expli- cite grâce à un générateur de graphes. Enfin, cette solution est économique en taille mémoire allouée. Le prix à payer est le temps de calcul nécessaire au générateur de graphe chaque fois qu'une reconstitution est nécessaire13. L'approche par graphe explicite correspond à donner explicitement, le graphe construit- Une modification du graphe correspond à l'ajout ou au retrait d'une structure informatique. Aucun générateur n'est nécessaire. Le prix à payer est la taille mémoire devant être allouée. Suivant l'emploi que l'on fait du graphe, l'une ou l'autre des possibilités s'impose. Lorsqu'il s'agit uniquement de remettre à jour régulièrement et de façon importante la structure du Pour ce qui est de l'Homme, et avec nous certainement une d'une grande partie des animaux, percevoir l'espace qui nous entoure, se représenter certains contextes et surtout l'agencement des contextes les uns par rapport aux autres, sont des fonctions vitales dont nous nous servons tous les jours. E semble que nous soyons naturellement amenés à structurer les éléments de notre vécu. I2Plusieurs arcs pouvant exister entre deux mêmes sommets, on parle de famille car les mêmes couples {x¡, x} ) peuvent apparaître plusieurs fois dans U. 13La représentation utilisée par Drescher (sous la forme de schemes, voir chapitre 4) correspond à un exemple de graphe implicite; seul un ensemble de schemes est donné. Il s'agit d'une description morceau par morceau du graphe de l'espace sensori-moteur d'un individu, qui peut être reconstruit à tout instant. 121 Modélisation d'un agent autonome Gte=î a), • on peut déterminer le temps de convergence (en cycles d'algorithme) selon certains critères et en fonction des paramètres choisis, • il est donc possible de borner le temps de convergence en contraignant les valeurs des paramètres, • l'accélération du processus de convergence n'affecte pas qualitativement la forme du gra- dient généré: quelle que soit, la valeur effective d'activation en chaque sommet du graphe à la fin de la propagation, des chemins implicites sont crées menant de tout sommet au but le plus "proche", • si le graphe est maintenu connexe par construction, il suffit de 11 pas d'algorithme (n = ordrG{G)) pour assurer que tout sommet du graphe soit atteint par la vague d'activation. En résumant ces propriétés, il est possible, par un choix adapté des deux paramètres de l'algorithme (a et 7), d'assurer la génération implicite de chemins convergents vers les buts, en un temps borné et contrôlable. 9.4.3 Commentaires A travers le traitement proposé, l'algorithme de motivation répond favorablement, à !a problé- matique que nous avions établie: • Il permet d'assigner une information au niveau de chaque sommet du graphe (l'activation) permettant un traitement local du choix de la transition dans le sens d'une orientation vers les sommets buts (par la technique de propagation du gradient). 152 9. Les processus cognitifs • II permet également un traitement efficace (qui peut être distribué); ceci a permis d'inté- grer ce processus efficacement dans notre architecture cognitive et de l'utiliser dans des applications réelles. Ce processus de motivation est essentiel dans notre architecture cognitive dans le sens où il gère la finalité; il donne l'orientation à long terme. En ce sens, il constitue un outil de décision pour l'agent, le moteur de la fonctionnalisation de son activité. Nous avons vu que la notion de besoin peut s'exprimer de façon très variée: de l'état senso- riel au contexte sensori-moteur, d'une conjonction de besoins à des conjonctions de disjonctions, enfin dans le sens d'une recherche, d'une répulsion ou d'une convoitise par rapport à certains besoins. Le besoin peut également être lié à chacun des critères d'évaluation: à la survie par des états internes (intéroception et proprioception), au rôle social par des états externes (extéroception) et à révolution par des états que l'agent ne connaît pas encore (il explore pour les trouver et évolue par effet de bord). En ce qui concerne le mécanisme de propagation, il est important de constater qu'une fois !'activation stabilisée, le mécanisme de motivation (localisation des sommets buts + propaga- tion) n'a besoin d'être déclenché que si les besoins ou la structure du graphe changent. Une fois la propagation réalisée, celle-ci laisse une trace de motivation (le gradient) qui n'a plus besoin d'être modifiée, même si l'agent se perd et doit se relocaliser. De plus, le mécanisme de motivation peut se dérouler indépendamment du reste des proces- sus. Il fournit à tout moment une image globale de la motivation de l'agent, répartie à travers tout le graphe. L'orientation donnée par le gradient peut être utilisée même si le processus de propagation n'est pas terminé; dans ce cas, l'information, bien que non-stabilisée, est également valable (any-time algorithm). Enfin, une analyse détaillée du comportement global de la dynamique d'activation a permis d'assurer des propriétés importantes sur la nature et le temps de convergence. 153 Modélisation d'un agent autonome 9.5 La fonctionnalisation La fonctionnalisation résulte de la coordination des trois processus cognitifs autour de la représentation de la topologie de l'interaction qu'ils partagent. En introduction et au travers de toute cette thèse, nous avons présenté la fonctionnalisation comme étant l'exploitation contextuelle et systématique des propriétés d'action en vue de satisfaire les critères d'évaluation ([survie], [rôle social] et [évolution]). Afin de permettre une approche algorithmique de la fonctionnalisation et après avoir int- roduit les trois processus cognitifs qui la supportent, cette capacité peut se définir comme le contrôle (le choix, la sélection) de l'activité sur la base d'une exploitation des régularités retenues par le processus ¿Interprétation en fonction des régularités poursuivies par le processus de motivation, étant donné un état de la connaissance maintenu et enrichi par le processus ¿'apprentissage. Remarquons que cette caractérisation n'est pas sans rappeler la définition du problème de la génération de plans d'actions. Dans ce cadre, notre système peut être vu comme un exemple de planification réactive. Pourtant, dans notre modèle, nous considérons la fonctionnalisation de l'activité comme étant une capacité essentielle à l'autonomie d'un agent. Dans ce cadre, notre objectif est de donner une solution efficace et complète au problème de la sélection d'actions. De plus, nous ne considérons pas la fonctionnalisation comme un processus cognitif supplé- mentaire; elle est le résultat d'une intégration adaptée, autour d'une connaissance commune, des trois processus d'interprétation, d'apprentissage et de motivation. Dans la suite, nous précisons le traitement auquel se limite la fonctionnalisation de par l'adéquation de Ia coopération des trois processus cognitifs. Nous abordons également les cas où cette coopération n'est que partielle et peut conduire à bloquer la capacité de fonctionnalisation; dès lors, nous proposons plusieurs stratégies par lesquelles le système peut tendre à rétablir cette capacité sans cesser d'agir et même grâce au maintien de cette activité. 9.5.1 Fonctionnalisation générale L'apprentissage maintient la cohérence du graphe G par rapport à l'expérience accumulée à travers le vécu sensori-moteur. L'interprétation permet de déterminer le contexte courant et donc le sommet du graphe G dans lequel se trouve l'agent. Enfin, la motivation localise les sommets contenant les buts courants et propage un gradient d'activation à travers tout le graphe. Dans ce cadre, la fonctionnalisation se résume à choisir et sélectionner l'instinct porté par l'un des arcs menant du sommet courant, au sommet voisin le plus activé. La fonctionnalisation est donc réduite à un traitement local, extrêmement simple. En effet, le sommet voisin choisi est, de par son degré d'activation, le plus prometteur dans la perspective d'une activité à long terme permettant de satisfaire les buts. La figure 9.3, schématise la situation. Les sommets voisins du sommet courant x sont connus de x. Parmi ces sommets candidats, il s'agit d'extraire le sommet Xj d'activation maximale. En cas d'égalité, un choix aléatoire parmi les sommet les plus activés est réalisé. II s'agit ensuite de déterminer l'ensemble des arcs u menant de x à Xj, d'en choisir un, «t. et de déterminer l'instinct i qu'il porte. Cet instinct est l'instinct sélectionné. 9.5.2 Fonctionnalisations partielles La fonctionnalisation, telle que nous l'avons décrite ci-dessus, s'inscrit dans un souci d'autono- mie; en orientant les choix de l'agent dans le sens d'une satisfaction des besoins traités par le processus de motivation. Or, ce traitement local et simple n'est pas toujours possible. Il suffit 154 9. Les processus cognitifs Figure 9.3 : Traitement local de la fonctionnalisation. que la contribution de l'un des processus fasse défaut pour que la fonctionnalisation ne puisse se produire. Nous distinguons trois cas suivant que l'un ou l'autre des processus ne fournit pas une contribution süffisante: a) Le contexte courant x n'est pas déterminé de façon univoque dans le graphe. Dans ce cas la fonctionnalisation choisira l'activité en utilisant des stratégies favorisant la localisation de l'agent. Il s'agit de fonctionnaliser pour se relocaliser. b) Aucune transition n'a encore été expérimentée depuis le sommet du graphe correspondant au contexte courant. Dans ce cas, la fonctionnalisation va mettre en oeuvre des stratégies d'exploration: Il s'agit de fonctionnaliser pour explorer et enrichir sa connaissance (la connectivité du graphe). ; c) Aucun besoin n'est présent dans le graphe, ce qui a pour effet de conserver !'activation de tous les sommets à la valeur 0. Ce cas peut se produire lorsqu'aucun contexte ne permet de satisfaire les besoins courants. Dans ce cas, il s'agit de fonctionnaliser pour pouvoir enrichir la variété des contextes connus afin de favoriser la bonne marche du processus de motivation. Ces trois cas peuvent, apparaître séparément, ou simultanément (lorsque le vécu de l'agent est encore vide, par exemple). Dans tous les cas de figure, il s'agit de fonctionnaliser dans le sens de satisfaire le résultat devant être apporté par l'un des processus en vue de permettre une fonctionnalisation générale. Nous allons préciser chacune des stratégies. Fonctionnalisation d'interprétation ' L'agent peut fonctionnaliser par souci d'interprétation; lorsque Ia situation est ambiguë, que le contexte n'est pas déterminé de façon univoque, l'agent peut orienter le choix de son activité de façon à préciser le contexte et ainsi favoriser sa localisation. Un traitement particulier peut être réalisé pour optimiser ce type de fonctionnalisation; il s'agit de choisir l'instinct dont on peut prévoir un effet de plus grande désambiguïsation. Soit p l'état sensoriel observé. Il s'agit de choisir un instinct parmi ^(p) dont la destination prévue depuis chacun des contextes connus pouvant correspondre à l'observation p soit la plus discriminante. Fonctionnalisation d'apprentissage L'agent peut fonctionnaliser par souci d'apprentissage; lorsque certaines actions n'ont pas été expérimentées depuis un contexte donné, il peut orienter son choix dans le sens d'une explo- ration, afin d'accroître ses connaissances et sa capacité de prédiction. C'est le cas au début de 155 Modélisation d'un agent autonome son vécu, lorsqu'il n'a aucune connaissance et, par la suite, lorsqu'il désire vérifier la stabilité des connaissances acquises. Il s'agit simplement, étant dans un contexte c, de choisir un instinct (stimulé par le dernier état sensoriel de c) qui ne soit porté par aucun arc sortant du sommet correpondant à c ou qui soit porté par un arc dont on peut douter de l'effet. Fonctionnalisât ion de motivation Enfin, l'agent peut fonctionnaliser par souci de motivation; si aucun contexte connu ne permet de satisfaire les besoins courants, il s'agit d'explorer pour en trouver. Le traitement est similaire à celui de la fonctionnalisation d'apprentissage; il s'agit égale- ment d'une exploration. Néanmoins, dans le cas de la fonctionnalisation de motivation, l'agent cherche plus à découvrir de nouveaux contextes qu'à expérimenter de nouvelles transitions. 9.5.3 Commentaires Nous avons vu comment, par une intégration adéquate et une collaboration des trois processus cognitifs autour d'une connaissance commune, la capacité de fonctionnalisation résulte en un traitement simple, local (voisinage immédiat sur le graphe) et réactif (pouvant donner une réponse à tout moment). Ainsi, notre système apparaît comme une solution au problème de la sélection d'actions. Quatre modes de fonctionnalisation ont été différenciés: • La première agit dans le souci de faciliter l'interprétation; elle recherche la cohérence morphologique et favorise la capacité d'abduction. • La seconde favorise l'apprentissage; elle recherche la cohérence causale et assure l'évolu- tion du système. • La troisième favorise la motivation; elle recherche des objectifs inédits et favorise la polyvalence de l'agent. • La quatrième, la fonctionnalisation proprement dite, n'apparaît que si les processus co- gnitifs sont aptes à fournir leur contribution; elle exploite le résultat de ces processus et favorise, par les choix réalisés, la survie de l'agent, la satisfaction de son rôle social ainsi que son évolution. Ces quatre modes de fonctionnalisation de l'activité correspondent à différentes stratégies dans le choix des instincts de l'agent. En apportant ces stratégies aux processus cognitifs qui la génèrent, la fonctionnalisation se maintient partiellement et se favorise elle-même; il s'agit d'un processus auto-catalytique, se régénérant lui-même, de façon naturelle et par son propre traitement. Ce sont donc quatre facettes d'une seule et unique fonctionnalisation (exploiter l'activité dans le sens d'une satisfaction des critères d'évaluation). Par rapport aux différentes dynamiques d'interaction apparaissant dans l'architecture AR- CO, nous avons vu comment les trois processus cognitifs et la capacité de fonctionnalisa- tion qui en émerge alimentent la boucle cognitive (interne) et la boucle de fonctionnalisation (externe). Cette dernière hérite des propriétés des processus cognitifs. En particulier, elle est déclenchée par un phénomène de breakdown (comme l'interprétation), elle est évolutive (par l'apprentissage) et réactive (par la capacité à fournir une orientation à tout moment grâce au processus de motivation). D'un point de vue algorithmique et dans le cadre des mécanismes de résolution de problèmes proposées par TIA, la fonctionnalisation peut être vue comme un exemple de planification réactive. Elle résulte néanmoins du traitement d'une problématique plus exigeante qui est celle de la sélection d'actions dans le cadre de la modélisation d'un agent autonome. Ainsi, la fonctionnalisation résulte d'une bonne intégration et d'un compromis adéquat entre 156 9. Les processus cognitifs • différents niveaux d'abstraction dans la modélisation de l'agent autonome, • une connaissance représentant la topologie de l'interaction sensori-motrice de l'agent avec son milieu, abordée sous la méthodologie non-objectiviste, • trois processus s'occupant de l'interprétation, de la structuration et de la gestion de cette connaissance, • un ensemble de stratégies permettant de tendre vers une fonctionnalisation adéquate de l'activité (ce qui est notre définition de l'autonomie). Enfin, l'intégration de tous ces ingrédients nous a permis d'appliquer notre modèle à la robotique mobile dans des expériences concluantes. 157 Modélisation d'un agent autonome 158 10 Expérimentation Ce chapitre décrit quelques unes de nos expériences réalisées avec le robot mobile Nomad-200 et le simulateur qui lui est associé. Certains résultats ont déjà été introduits ponctuellement dans le texte pour compléter ou appuyer Ia démarche adoptée dans la phase de modélisation. Ils sont un complément à ce que nous allons exposer. 11 s'agit d'évaluer ici les capacités du modèle à synthétiser le type d'autonomie que nous convoitons. En particulier, il nous faut vérifier si la capacité de fonctionnalisât ¡on dont nous dotons le robot permet de satisfaire les critères d'évaluation énoncés en introduction: la survie, le rôle social, l'évolution. En effet, rappelons que seul un point de vue externe nous permet de juger des compétences du robot. Le point de vue interne a été introduit et utilisé pour modéliser les compétences qui nous semblent nécessaires pour que l'agent puisse manifester, de façon externe cette fois, des propriétés d'autonomie. Nous allons succinctement décrire l'agent comportemental utilisé et l'environnement de travail que nous avons développé pour cette expérimentation. 10.1 Spécifications Rappelons que les éléments propres à l'architecture ARCO ont été développés dans un envi- ronnement UNIX, autour du concept de tableau noir (voir chapitre 5). Le niveau comportemental accueille essentiellement des instincts implantés en C (bien que ceux utilisés ici soient écrits en LISP), et le niveau cognitif a été développé en CLOS (Common Lisp Object System). Chaque instinct correspond à un processus UNIX différent. Par contre, les trois processus cognitifs s'exécutent sur un seul processus UNIX; à chaque cycle, les traitements propres à l'interprétation, à l'apprentissage et à la motivation sont réalisés séquentiellement, bien qu'une exécution distribuée soit envisageable1. 10.1.1 L'agent cognitif Nous avons implanté le modèle cognitif en CLOS, ce qui nous a permis de bénéficier des avantages de la programmation orientée objet. En particulier, les différents algorithmes d'ap- prentissage testés n'ont demandé qu'une re-définition des méthodes spécifiques à chacun d'eux. L'héritage multiple a été particulièrement exploité pour la spécification des classes liées à la structure de graphe et à la notion de contexte. 1Le choix d'un processus unique pour le niveau cognitif a été motivé par la lourdeur de l'environnement LISP (nous ne pouvions lancer qu'un processus LISP par station de travail). Ainsi, bien que LISP permette de gérer un pseu do-par ali èli s me, le traitement de chacun des processus cognitifs étant "léger", nous avons préféré éviter le overhead inhérent à la gestion du pseudo-parallélisme el avons adopté l'approche séquentielle dont le temps de cycle s'est avéré être largement suffisant par rapport à la réactivité des instincts contrôlés; un cycle de processus cognitifs dure environ une seconde, avec un récupérateur {garbage collection) demandé explicitement à chaque cycle pour éviter les interruption longues (de l'ordre de plusieurs secondes) qui peuvent, dans le cas contraire, intervenir sporadiquement. 159 Modélisation d'un agent autonome n s e w Figure 10.1 : Exemples de trace laissée par les quatre instincts possibles du robot. Doté de cet appareil cognitif général, notre agent est prêt à accueillir une quelconque base comportementale. 10.1.2 L'agent comportemental Les comportements utilisées pour ces tests sont ceux de l'exemple illustrata que nous avons repris tout au long des chapitres précédents. Ils sont décrits au paragraphe 7,4.1. Nous allons simplement décrire la couche comportementale à l'aide de notre formalisme. La variable À' correspondant à l'un des quatre instincts décrits et x correspondant à l'un des quatre stimuli associés, nous avons S={NìSìE,W},l = {ihS,e,w} T : p($) — P(I)- {0}, ^({x.y,*-}) = (^(1),^),^(*)}, avec T(N) = n, T(S) = s, T(E) = e, T(W) = w. Nous considérons que l'agent est continuellement stimulé par au moins l'une des quatre directions de navigation. En pratique, cette hypothèse peut être contredite. Ainsi, nous avons introduit un instinct de secours qui fait bouger le robot à faible vitesse, sans tendance fixe, mais en évitant les obstacles. Cet instinct n'est pas représenté au niveau cognitif. Il est utilisé par les quatre instincts de navigation lorsque leurs données capteurs semblent trop perturbées. Pour ces instincts, le fait de faire appel à l'instinct de secours peut être vu comme une phase où le mouvement se fait "les yeux fermés", afin de récupérer des données plus cohérentes (récupérer le stimulus perdu, par exemple). La figure 10.1 montre la trace sur le simulateur laissée par le robot depuis un croisement à 4 couloirs suivant l'instinct sélectionné par le niveau cognitif. 10.1.3 Le milieu Le milieu choisi pour ces tests est également celui de l'exemple illustratif. Rappelons que le graphe extrait par l'agent de son interaction dans un tel milieu comporte une vingtaine de sommets et une trentaine d'arcs; la dimension d'un tel graphe rend les expériences d'acquisition et d'utilisation du graphe suffisamment longues pour ne pas envisager d'environnement plus complexe (un labyrinthe, par exemple) pour cet agent comportemental. Ce milieu est réel; les conditions de luminosité, la nature des obstacles, la largeur et la longueur des couloirs n'y sont pas uniformes et ils peuvent être parcourus par des personnes du laboratoire qui ne prêtent pas attention au robot. Nous avons essentiellement mené nos expériences dans des couloirs délimités par des planches (ceci réduit les perturbations qui peuvent se présenter). Néanmoins, des expériences similaires ont été menées dans les vrais couloirs de notre laboratoire et ont donné des résultats de stabilité similaire. Ainsi, le robot est plongé dans des conditions de travail que l'on peut qualifier de réalistes. 160 10. Expérimentation ;Cürrctá;(Sensory State : t-r i Ä A-A 1 rj'Currerít - ".Context j Sensori-motor Interaction ' Stimulated :; :Behavioura-.'r ir ^-^ifi^ntrim^';^ self-local ¡iati on goal selection activity propagation c unen I context extraction prediction look i ng for prediction random action selection pnal-orienicd action selection current goal reached yftiafcted rSansäyiStäteV -T + T + rsi - f t A- -A • i T •- ; Desired Sensory.Stated 4 -A- T + Xi- -»- f B t A- -A A T •- ;iv;; ; Mairi Ménùv ..'Y^ ¦;_..¦. run stop learning gel knowledge Figure 10.2 : Aspect de l'interface du programme d'expérimentation. 10.1.4 Les besoins de l'agent Les besoins ou buts que nous pouvons donner à un tel agent comportemental dans cet environ- nement particulier sont un ensemble d'états sensoriels à atteindre successivement. A nos yeux, ces états correspondent à différentes zones de l'environnement. Nous n'avons pas expérimenté le rejet de certains stimuli, du fait que le traitement des états rejetés n'a pas été développé dans le processus de motivation; nous aurions par exemple pu introduire un stimulus "choc" (en utilisant les données provenant des bumpers) et demander à l'agent d'éviter les états sensoriels contenant ce stimulus, quelle que soit la tâche réalisée. Il s'agît néanmoins d'une extension possible, 10.1.5 Environnement d'expérimentation Une interface à été développée pour cette application particulière. Elle nous a permis de visua- liser l'état interne et les décisions du robot en cours d'exécution. La figure 10.2 montre une vue de cette interface telle qu'elle apparaît à l'écran2. A chacune des quatre orientations de stimulation est attribuée une couleur. On retrouve ces couleurs dans les stimuli et dans les instincts correspondants. Toute la partie gauche de l'écran indique des informaiions courantes: La vue d'origine est en couleur. 161 Modélisation d'un agent autonome • le cadre ie plus bas indique l'état sensoriel observé par le robot; il est extrait de l'infor- mation fournie par les instincts, • le cadre du haut indique l'état sensoriel courant (le dernier de l'historique); l'état ob- servé n'accède au statut d'état courant qu'à travers le filtrage réalisé par le processus d'interprétation, • le deuxième cadre depuis le bas indique par un cadre les instincts possibles depuis l'état courant (donné par T) et l'instinct sélectionné par la fonctionnalisation (encadré en noir), • enfin, le deuxième cadre depuis le haut indique le contexte courant; ici, la dernière séquence de longueur 3 tirée de l'historique, Le cadre du centre en haut représente lé graphe correspondant à l'interaction. On y distingue • les sommets affichant le dernier état sensoriel du contexte correspondant3, • les arcs dont la couleur indique l'instinct qu'ils portent, • le sommet courant entouré d'un cercle gras, • le sommet prévu entouré d'un cercle fin et • le niveau d'activité de chaque sommet, indiqué par le diamètre du disque noir centré en chaque sommet. Les transitions connues depuis le sommet courant sont représentées par des traits plus épais. Ce cadre sert à visualiser la topologie de l'interaction tant que le nombre de sommets du graphe reste raisonnable (c'est le cas pour notre application). On peut le fermer dans les autres cas. Toute la partie droite de l'écran indique des information fuinres: • le cadre du haut indique l'état sensoriel prévu; fonction de l'état du graphe, du contexte courant et de l'instinct sélectionné, • le deuxième cadre depuis le haut indique le contexte prévu; l'état sensoriel courant, l'instinct sélectionné et l'état sensoriel prévu, • le deuxième cadre depuis le bas indique le but courant que l'utilisateur peut sélectionner à l'aide de la souris. Enfin, le cadre du centre, en bas, indique les différentes étapes de l'algorithme (test de stabilité de l'état sensoriel observé, propagation d'activation, restructuration du graphe) et fait ressortir l'étape courante4. Le cadre en bas à droite permet de lancer et d'arrêter les différents types d'expériences que nous allons décrire dans la suite. Rappelons que la taille de traitement des contextes dans cette application est maintenue fixe à la valeur 1 (trois informations: deux états sensoriels successifs et l'instinct ayant permis la transition). Une taille de traitement inférieure (0, c'est à dire un seul état sensoriel par contexte) mène rapidement à des graphes ambi- gus. 'Comme le temps de cycle de l'algorithme implantant Ie niveau cognitif est proche d'une seconde, nous avons dû introduire des "boucles vides" [sleep time) pour permettre de visualiser la succession des étapes de l'algorithme. 162 10. Expérimentation 10.2 Phases d'expérimentation Nous avons expérimenté le système en deux phases: Dans la première, nous nous sommes intéressés au processus d'apprentissage. Nous avons voulu analyser empiriquement la complexité des graphes acquis, la stabilité de ces graphes (variabilité entre deux expériences), les différences des graphes acquis par rapport au graphe que nous aurions extrait de la projection de notre vue du milieu sur l'espace sensori-moteur du robot (voir figure 8.4), enfin, la mise à jour des connaissances acquises en fonction des modifications que nous faisons subir au milieu en cours d'expérimentation. Ces expériences ont, été réalisées sur le simulateur5. La seconde phase porte sur les performances de la fonctionnalisation. Nous avons expéri- menté la satisfaction de séquences de buts donnés (rôle social) sur une connaissance pré-acquise et non évolutive. Cette phase à été expérimentée sur le robot réel. Ces expériences susciteront quelques remarques générales quant à Ia satisfaction des critères d'évaluation et un bilan de l'expérimentation. 10.3 L'apprentissage Dans cette première phase d'expérimentation, seule la fonctionnalisation partielle d'apprentis- sage est opérationnelle; Ie niveau cognitif adopte donc une stratégie d'exploration qui fait aller l'agent dans les contextes où il reste des instincts à expérimenter. Remarquons que cette capacité d'exploration utilise le processus de motivation; l'agent choisit dans le graphe un sommet dont le contexte possède des instincts non expérimentés et qui devient le sommet but à partir duquel 1'activation est injectée et propagée à travers le graphe pour générer le gradient permettant à l'agent d'atteindre ce sommet. Le processus d'interprétation est également utilisé; pour se diriger vers les sommets dont certains arcs sortants sont à explorer, l'agent à en effet besoin de se localiser pas à pas. Il est à noter qu'en phase d'apprentissage, si l'état sensoriel prévu n'est pas vérifié, on ne relance pas une phase de localisation, on modifie le graphe (on doute de la connaissance et non de l'observation). Ainsi, pour la tâche d'apprentissage uniquement, nous voyons que les trois processus colla- borent déjà. En fait, le cas de la fonctionnalisation générale est similaire et même plus simple; dans ce cas, ce n'est pas l'agent qui choisit ses sommets buts à explorer, on les lui indique en donnant une tâche faite d'états sensoriels à atteindre. Les trois algorithmes d'apprentissage conservant fixe la taille de traitement du contexte ont été expérimentés; rappelons que (a) le premier détruit immédiatement les transitions non vérifiées et introduit celle observée; il maintient le graphe déterministe, (b) le second accepte le non déterminisme en annotant les arcs d'une pondération reflétant l'ordre d'expérimentation des transitions (plus la pondération est élevée et plus l'expéri- mentation de la transition est récente), (c) le troisième accepte également Ie non-déterminisme mais sans aucune annotation; toutes les transitions observées depuis un contexte à l'aide d'un même instinct sont équiproba- bles. 5Si le fait de travailler en simulation nous a certainement fait gagner du temps dans l'acquisition des graphes (cela évite d'interrompre l'expérience pour recharger les batteries régulièrement), nous ne pensons pas avoir considérablement simplifié les conditions de travail (perturbations, bruit); en effet, la stabilité des Instincts est globalement similaire en simulation et sur le robot réel. 163 Modélisation d'un agent autonome Nous avons exécuté les algorithmes suffisamment longtemps .pour pouvoir observer l'é- volution de l'acquisition et de la perte de connaissances. Aucun critère d:arrêt n'a donc été introduit. Les instincts étant particulièrement stables, nous n'avons observé que rarement des som- mets non déterministes au cours des apprentissages faits par les algorithmes (b) et (c). Ainsi, globalement nous pouvons considérer que les trois algorithmes ont présenté les mêmes perfor- mances; ils se sont tous trois avérés concluants. 10.3.1 Observations Les observations générales que nous pouvons faire sur l'ensemble des trois algorithmes sont les suivantes: • le temps d'apprentissage du graphe est similaire d'une épreuve à l'autre et d'un algorithme à l'autre; nous n'avons pas observé d'épreuve parfaite, ni d'épreuve catastrophique, Elles sont néanmoins presque parfaites du fait que ... • les connaissances acquises sont stables; peu de transitions acquises sont éliminées (a) ou mises en doute (b), • les graphes obtenus d'épreuve en épreuve sont très similaires en nombre de sommets et d'arcs, mais surtout par rapport à leurs contenus (contextes et transitions contextuelles). Un contexte insolite à nos yeux était soit isolé par l'agent dès la tentative suivante de le visiter, soit maintenu longtemps dans le traitement, car il réapparaissait comme étant une régularité pour l'agent, • les graphes dont nous avons constaté la stabilité d'épreuve en épreuve sont également très similaires à celui que nous pouvons considérer comme optimal à nos yeux; seul un ou deux sommets sur Ia vingtaine traitée possédaient des contenus inattendus, • la capacité de structuration de la connaissance démontrée par l'agent est patente. La satisfaction du critère d'évolution est vérifiée. De plus, les épreuves où nous avons laissé l'agent construire la totalité du graphe nous ont permis de constater que la connaissance acquise était rarement remise en cause; lorsque cela arrivait, l'agent récupérait son état stable assez rapidement (souvent dès le passage suivant dans le contexte instable). une série de tests a également permis de constater les récupérations de certaines parties du graphe après une intervention de notre part ayant modifié l'environnement et rétabli l'état initial {voir paragraphe 9.3.2). 10.4 La fonctionnalisation La deuxième phase de tests avait pour objectif de vérifier l'adéquation de la fonctionnalisation. Il s'agissait, à travers de quelques expériences de vérifier • l'efficacité de la fonctionnalisation pour différentes tâches données sur une connaissance complète et figée, • les résultats obtenus à partir d'une connaissance acquise complètement par l'agent et d'une connaissance donnée par nous. La fonctionnalisation utilisant également les trois processus cognitifs, l'expérience est très similaire à celle de l'apprentissage. Les différences essentielles sont: 164 10. Expérimentation tSchc 2 TA— Figure 10.3 : Traces laissées par l'agent dans la réalisation de tâches circulaires. • les sommets buts ne sont pas choisis par l'agent mais par nous, observateurs, qui lui donnons des tâches à réaliser (cette différence tend même à simplifier le problème), • plusieurs sommets buts peuvent être considérés simultanément, • le processus d'apprentissage étant interrompu dans cette phase d'expérimentation, seule l'observation peut être mise en doute et non la représentation; on fait donc intervenir la capacité de localisation. Ainsi, vu la similarité des mécanismes mis en jeu dans ces deux types d'expériences, les résultats observés en phase d'apprentissage suffisent à expliquer la qualité des résultats également constatés en phase de fonctionnalisation. 10.4.1 Observations Nous avons expérimenté le traitement de tâches données sous la forme de plusieurs séquences d'états sensoriels apparaissant dans le graphe traité par l'agent. La figure 10.3 représente la trace laissée par l'agent pour deux tâches différentes. Cette figure démontre également la réactivité et la flexibilité du traitement comportemental de notre agent; même si l'environne- ment est modifié sans porter atteinte à la topologie de l'interaction, l'agent adapte son mòu- vement et continue à fonctionnaliser correctement pour parvenir à réaliser la tâche. En fait, si l'environnement métrique a changé, !'environnement topologique est resté identique. De même, si la trace géométrique de l'agent est légèrement difTérente, la topologie de son interaction reste la même; l'agent continue à percevoir les mêmes séquences sensori-motrices. Enfin, ces épreuves ont permis de vérifier la satisfaction du critère d'évaluation lié au rôle social de l'agent. Le mécanisme lié au critère de survie étant identique, nous considérons qu'il peut également être vérifié. 10.5 Commentaires Lors de la conception du modèle et lors de l'implantation des algorithmes liés aux instincts et aux processus cognitifs, nous n'espérions pas obtenir de si bons résultats. En effet, les instincts ont été longuement testés individuellement et paramétrés mais, leur traitement étant de nature située et basé sur des données bruitées (même sur le simulateur), les traces laissées par l'agent en réalisant ces instincts ne semblaient pas suffisamment stables; tout poussait à croire que cette instabilité dans le mouvement conduirait à une absence de régularités dans l'historique observé. Or, l'expérimentation à démontré le contraire. Nous expliquons la raison de ce succès par la conjonction de deux caractéristiques: 165 Modélisation d'un agent autonome m D'une part, l'espace sensori-moteur de l'agent comportemental considéré est limité; un espace plus riche provoquerait des variations plus fréquentes de l'état sensoriel observé et conduirait probablement à des imperfections plus nombreuses. • D'autre part, les stimuli ont été bien choisis. Us sont nécessaires et suffisants pour des tâches de navigation dans le type d'environnement considéré; en effet, le fait de considérer ces quatre stimuli de base permet d'aboutir à une discrétisation de l'espace de navigation en termes de deux états sensoriels génériques qui sont \a jonction et le corridor. Ces deux abstractions (compositions de stimuli élémentaires) sont nécessaires et suffisantes pour exprimer des plans linguistiques du genre "aller jusqu'au prochain croisement", "longer le corridor en direction du sud" puis, au croisement suivant, "emprunter le corridor de droite". Ce choix précis et minimaliste des caractéristiques nécessaires à la navigation en espace structuré est longuement développé par Yoel Gat dans le cadre de sa thèse (voir [Gat94]). Ces résultats viennent également confirmer nos attentes dans le cadre d'une approche constructiviste de la connaissance: • D'une part, le fait de choisir pour objet de connaissance l'interaction agent-milieu et de considérer qu'il s'agit là d'une connaissance stable permettant d'être structurée de façon naturelle et efficace ne se limite pas a être une conjecture; nos expériences l'ont démontré aussi bien en simulation qu'en applications réelles. • Le type de structuration envisagée (aboutissant à une représentation de la topologie de l'interaction) est. non seulement réalisable théoriquement, mais sa mise en pratique démontre une efficacité de traitement suffisante pour permettre son utilisation dans des applications réelles. De plus, par rapport à un agent uniquement comportemental, elle offre de nouvelles capacités (cognitives) en vue d'accroître son autonomie. • D'autre part, les correspondances entre les représentations acquises par le robot et celles que nous pouvions prévoir en imaginant une projection de l'environnement sur son espace sensori-moteur tendent à confirmer une bonne interprétation de notre part des capacités architecturales et représentationnelles mises en jeu dans notre modèle, L'ensemble des choix réalisés dans chacune de ces deux facettes de notre travail, archi- tecture et représentation, contribue de façon essentielle à l'obtention de ces résultats encourageants. • Enfin, de façon plus pratique, il existe en robotique un fossé énorme entre revaluation d'applications en simulation et leur évaluation sur des plates-formes réelles. Le passage de la simulation à l'application réelle est rarement envisagé ou demande des moyens techniques et humains considérables. Dans notre cas, nous considérons que les choix méthodologiques réalisés dans notre modè- le ont permis d'aboutir à une adéquation des traitements comportementaux et cognitifs par rapport aux exigences de toute application en conditions réelles: robustesse face au bruit et à l'imprévisible, réactivité et flexibilité dans l'action, capacités d'abduction et de prédiction. Cette considération est très clairement appuyée par la facilité avec laquelle notre système a été porté du monde de la simulation à celui de l'application réelle; les connaissances acquises (représentations extraites) dans l'un ont put être utilisées dans l'autre. Les performances sont restées très similaires et l'effort nécessaire à cette migration est réduit aussi bien en moyens techniques qu'humains. En définitive, l'agent a démontré ses capacités à satisfaire les critères d'évaluation. Dès lors, sur la base des définitions que nous avons considérées tout au long de cette thèse, l'agent fonctionnalise son activité de façon adéquate et est donc qualifiable d'autonome à nos yeux, selon un point de vue externe. 166 11 Conclusion Dans le domaine des systèmes artificiels, l'étude de l'autonomie constitue un défi aussi bien scientifique que technologique. Notre travail s'est intéressé aux deux secteurs à travers la modélisation d'un agent autonome et l'application du modèle proposé au domaine de la robo- tique mobile. Nous avons dans ce sens distingué deux points de vue face à l'autonomie d'un agent arti- ficiel: le point de vue interne au système, celui du concepteur, et le point de vue externe, celui de l'observateur. 11.1 Bilan Le point de vue interne au système est lié à notre souci de compréhension du phénomène d'au- tonomie; nous avons ainsi étudié la structure interne et les mécanismes de contrôle permettant de favoriser l'autonomie du système. Face aux capacités de raisonnement des systèmes de PIA cognitiviste et face aux capacités d'action démontrées par les systèmes du courant comportementaliste, nous avons proposé la notion de fonciionnalisation dans le but d'accéder à une intégration adéquate de l'activité et du raisonnement. Dès lors, notre contribution apparaît dans les domaines de l'architecture et de la connaissance liées à un agent autonome. Quant à l'architecture de contrôle de l'agent autonome, nous avons • proposé Y architecture ARCO comme structure globale de contrôle permettant de dis- tinguer et d'étudier trois niveaux d'abstraction (physique, comportemental et cognitif), leurs interfaces et les différentes dynamiques qu'elle entretient, • adopté une approche synthétique dans la conception qui permet de tenir compte des contraintes introduites par chacun des niveaux d'abstraction de l'architecture ARCO. Quant à la représentation liée à la connaissance d'un agent autonome, nous avons • proposé un formalisme de description des capacités comportementales qui permet de faire le lien entre le niveau comportemental et le niveau cognitif de notre modèle, • adopté et développé une position constructivistc face à la connaissance de l'agent; ce choix nous a poussé à considérer une connaissance - portant sur l'interaction que l'agent entretient avec son milieu, — de type symbolique tout en conservant une sémantique opératoire pour l'agent, de par sa nature sensori-motrice. Quant aux mécanismes liés à la connaissance de l'agent autonome, nous avons fait preuve de parcimonie , • en proposant trois processus cognitifs qui permettent i .167 i Modélisation d'un agent autonome - de structurer la connaissance linéaire formée par l'historique sensori-moteur de l'agent en une connaissance reflétant la topologie de l'interaction (processus d'in- terprétation et d'apprentissage), - de traiter cette connaissance afin d'y situer les besoins courants de l'agent et d'orien- ter efficacement celui-ci en vue de pouvoir satisfaire ces besoins (processus de moti- vation), • en intégrant ces trois processus afin de permettre, à travers leur collaboration, d'accomplir une fonctionnalisation adéquate de l'activité de l'agent. Le second point de vue adopté face à l'autonomie, le point de mie externe au système, est lié à notre souci de réalisation et de validation de systèmes autonomes; nous avons ainsi a) proposé une caractérisation de l'autonomie à travers trois critères d'évaluation: • la survie ou capacité de maintenir son intégrité physique et énergétique, • le rôle social ou capacité de satisfaire les tâches données par le concepteur, • Y évolution ou capacité d'améliorer ses performances et de s'adapter aux variations de l'environnement, b) développé un système informatique sur la base de notre modèle que nous avons appliqué au domaine de la robotique mobile, c) évalué le degré d'autonomie de notre agent sur la base des critères introduits. De cette phase applicative de notre travail, il ressort que le modèle développé permet à un agent de satisfaire les critères d'évaluation que nous avons choisis pour caractériser l'an tono- mie. Ainsi, si notre agent ne peut pas être qualifié d'autonome au sens de l'autonomie d'un organisme vivant, il démontre néanmoins des propriétés dont l'intégration a rarement (à notre connaissance jamais) été effectuée par un agent artificiel complet. En outre, notre travail se distingue également par le fait de couvrir à la fois trois axes importants. Ces axes nous ont fait parcourir différentes problématiques allant de la perception à l'action; nous avons considéré l'ensemble de la boucle permettant de réaliser l'interaction milieu-agent ce qui a fait apparaître detix boucles internes et trois boucles externes d'interaction dans le cadre de l'architecture ARCO, de la sensation à la représentation structurée; nous avons considéré différentes étapes de structuration de la connaissance. Au niveau comportemental, cette structuration ap- paraît dans l'extraction à partir des signaux capteurs des caractéristiques pertinentes constituant les stimuli des instincts. Au niveau cognîtif, la structuration apparaît dans l'extraction de la topologie de l'interaction (connaissance structurée) à partir de l'histo- rique sensori-moteur (connaissance linéaire), de Ia modélisation à l'application; le modèle proposé a été implanté dans le cadre du pro- jet MARS, ce qui a permis de valider le modèle dans le cadre de la robotique mobile; nous avons en particulier vérifié que notre robot est capable de satisfaire les critères d'évaluation que nous avons établis pour caractériser l'autonomie. 11.2 Comparaisons avec l'état de l'art A la lumière de ces résultats, il nous semble adéquat d'avancer certaines comparaisons élémen- taires de notre travail avec les techniques proposées par les différents courants qui sont apparus dans l'état de l'art: cognitivisme, comportementalisme et approche hybride. Par rapport à l'approche cognitiviste: 168 JJ. Conclusion • Notre système met également en évidence des capacités de raisonnement propres à satis- faire nos critères d'évaluation; ces capacités délibératives sont portées par les processus cognitifs et permettent la présence de deux facultés essentielles à l'autonomie qui sont la localisation (abduction) et la prédiction (induction). • Il montre en plus, et c'est là la différence essentielle, des capacités d'action que les systèmes cognitivistes peuvent difficilement gérer vu la lourdeur des traitements réalisés. Cette activité est réactive et contrôlable facilement grâce à l'architecture ARCO qui permet une intégration simple et surtout efficace de l'activité et du raisonnement. Par rapport aux approches comportementalistes: • Une activité totalement située, basée sur un choix aléatoire, un contrôle par priorités, ,par fusion ou par compétition, ne suffirait pas à réaliser des tâches telles que celles que nous traitons. Ces traitements, sous la forme rigide dans laquelle ils sont abordés, permettent tout au plus de satisfaire une tâche précise mais ne permettent pas au système de pouvoir couvrir une variété de tâches et de les réaliser avec la même efficacité. • Notre système aborde en plus, et c'est là la différence essentielle, une connaissance interne sous forme de carte cognitive et des mécanismes de raisonnement permettant de gérer, structurer et exploiter cette connaissance. Enfin, par rapport aux travaux provenant de l'approche hybride: • Les modèles existants aboutissent rarement à des applications réelles permettant des comparaisons concrètes et précises. Le nôtre a été développé et validé en conditions réelles. • D'autre part, les modèles qui parviennent à supporter les contraintes d'une application réelle sont encore fortement marqués par les deux courants sources: le cognitivisme où le comportementalisme. Cet héritage empêche l'approche hybride de s'affranchir totalement des limitations des courants dont elle provient. • Nous pensons que notre système, par le fait d'aborder le problème de l'autonomie se- lon trois axes (de la perception à l'action, de la sensation à la représentation et de la modélisation à l'application) permet d'aborder la même problématique sous un angle nou- veau; en particulier, par une intégration simple et efficace de l'activité et du raisonnement à travers l'architecture ARCO et par une approche constructiviste de la connaissance de l'agent autonome. 11.3 Perspectives Notre contribution à également permis de relever l'importance de certains aspects que nous n'avons pas abordés ou fortement simplifiés dans ce travail. Ils constituent autant, de perspec- tives intéressantes pour des travaux futurs. Il s'agit de • L'étude de la co-évotuiion des différents niveaux d'abstraction de l'architecture. Notre travail construit et fige les deux niveaux inférieurs (physique et comportemental) et ne traite l'évolution qu'au niveau cognitif (connaissance évolutive). Nous envisageons une étude de l'évolution de chacun des niveaux d'abstraction et de leur co-évolution; en parti- culier, il s'agit de déterminer les nouvelles contraintes introduites par une telle évolution dans l'approche synthétique de l'architecture. i • L'étude de Y évolution des catégories sensorielles. Ce point est lié au point précédent; il s'agit soit de considérer des catégories sensorielles innées mais adaptables par l'agent lui-même, soit de considérer un système référentiel totalement acquis par le système. 169 Modélisation d'un agent autonome Cette acquisition se ferait au niveau comportemental. Cette perspective tend à compléter l'approche non-objectiviste dans le sens où elle éviterait l'intervention du concepteur dans la donnée des catégories sensorielles. • L'étude de l'influence de l'intensité sensorielle au niveau comportemental et au niveau cognitif. Nous avons considéré des catégories sensorielles dépourvues de toute intensité; les stimuli sont présents ou absents. Cette approche empêche de considérer une conti- nuité sensorielle qui permettrait d'établir une mesure de proximité entre états sensoriels. Ceci est particulièrement souhaitable pour les traitements réalisés par le processus d'in- terprétation pour juger de la stabilité de l'état sensoriel (lors de disparitions sporadiques de stimuli essentiellement liées au bruit par exemple) et pour permettre une comparaison moins rigoureuse (autre que l'équivalence) entre l'état sensoriel observé et l'état sensoriel prévu. • L'étude de différents types de structuration des coiinaissances sur la base des représen- tations extraites dans notre travail. En particulier, nous avons vu au paragraphe 8.8.3 comment certains mécanismes de structuration, assimilables à la capacité de décéléra- tion introduite par Piaget, permettraient d'aboutir.à la reconnaissance d'états solidaires apparaissant dans des contextes différents. Ainsi, par de nouvelles phases de structura- tion, il est envisageable d'atteindre des connaissances plus abstraites en nous rapprochant de la notion générale d'objet. Ce sont là autant de sujets complémentaires que nous envisageons et espérons pouvoir développer. 170 Bibliographie [AFCET, 1993] AFCET, editor (1993). Actes du 1er congrès biennal de l'association française des sciences et technologies de l'information et des systèmes, volume 1. AFCET. [Agre and Chapman, 1987] Agre, P. E. and Chapman, D. (1987). Pengi: An implementation of a theory of activity. In [Engelmore, 1987], pages 268-272. [Agre and Chapman, 1990] Agre, P. E. and Chapman, D. (1990). What Are Plans for?, pages 17-34. In [Maes, 199Oa]. [Ahuactizin et al., 1992] Ahuactizin, J. M., Talbi, E. G., Bessiere, P., and Mazer, E. (1992). Using genetic algorithms for robot motion planning. In ECAI-92. Wien. [Amit, 1989] Amit, D. J. (1989). Modeling Brain Function, The world of attractor neural networks. Cambridge University Press. [Anderson and Donath, 1990] Anderson, T. L. and Donath, M. (1990). Animal Behavior as a Para- digm for Developing Robot Autonomy, pages 145-168. In [Maes, 199Oa]. [Angle and Brooks, 1990] Angle, C. M. and Brooks, R. A. (1990). Small planetary rovers. In IEEE RSJ International Workshop on Intelligent Robots and Systems, pages 383-388. Ikabara. [Antoine et al., 1992] Antoine, J.-Y., Baiijard, O., Boissier, O., Caillot, B., Chaillot, M., Demazeau, Y., Pesty, S., Sichman, J., Stefanini, M.-H., and Ziebelin, D. (1992). Vers une taxinomie du vocabulaire pour les systèmes multi-agents. Journée du PRC-IA sur les "Systèmes Multi-Agents". [ARC and InCognito, 1994] ARC and InCognito, editors (1994). Journées Jeunes Chercheurs en Sci- ences Cognitives. ARC, In Cognito. [Arkin, 1990] Arkin, R. C. (1990). Integrating Behavioral, Perceptual, and World Knowledge in Reac- tive Navigation, pages 105-122. In [Maes, 199Oa]. [Arkin, 1992] Arkin, R. C. (1992). Homeostatic control for a mobile robot: Dynamic replanning in hazardous environments. Journal of Robotic Systems, 9(2). , [Aubin, 1991] Aubin, J. P. (1991). Viability Theory. Birkhauser. [Baerends, 1976] Baerends, G. (1976). The functional organization of behaviour. Animal Behaviour, 24:726-735. [Barthes, 1963] Barthes, R. (1963). L'activité structuraliste. Essais critiques, pages 215-218. [Beer, 1990] Beer, R. D., editor (1990). Intelligence as Adaptive Behavior: An Experiment in Compu- tational Neuroethology. Academic Press. [Beer and Chid, 1991] Beer, R. D. and Chiel, H. J. (1991). The neural basis of behavioral choice in an artificial insect. In [Meyer and Wilson, 1991], pages 247-254. [Beer et al., 1990] Beer, R. D., Chiel, H. J., and Sterling, L. S. (1990). A Biological Perspective on Autonomous Agent Design, pages 169-186. In [Maes, 199Oa]. [Berge, 1970] Berge, C. (1970). Graphes et hypergraphes. Dunod, Paris. [Bersini, 1991a] Bersini, H. (1991a). Animat's 1. Technical report 91-10, IRIDIA, Bruxelles. [Bersini, 1991b] Bersini, H. (1991b). A cognitive model of goal-oriented automatisms and breakdowns. Technical Report 91-2, IR, IRIDIA, Bruxelles. [Bersini, 1992] Bersini, H. (1992). Immune network and adaptive control. In Várela, F. and Bourgine, P., editors, Towards a practice of autonomous system, pages 217-226. MIT Press, Bradford Books. [Bersini, 1994a] Bersini, H- (1994a). Reinforcement learning for homeostatic endogenous variables. In SA B'94? [Bersini, 1994b] Bersini, H. (1994b). Towards a connetionnist model of actions sequences, active vision and breakdowns. In [Fuhs and Bonabeau, 1994]. 171 ( Modélisation d'un agent autonome [Bersini and Gonzalez, 1993] Bersini, H. and Gonzalez, L. (1993). A simple connectionist model of actions sequence and active vision. In Proceedings of World Congress on Neural Networks. [Booker, 1991] Booker, L. B. (1991). Instinct as an inductive bias for learning behavioral sequences. In [Meyer and Wilson, 1991], pages 230-237. [Booth and Stewart, 1993] Booth, M. and Stewart, J. (1993). Un modèle de l'émergence de la com- munication. In Premières Journées IAD1 SMA. [Borne, 1993] Borne, P., editor (1993). Proceedings of the IEEE International Conference on Systems, Man and Cybernetics. IEEE. [Bourgine, 1992] Bourgine, P. (1992). Heuristique et Abduction, Intelligence Artificielle et Vie Artifi- cielle. XXIl Session de l'Ecole Internationale d'Informatique de PAFCET. [Bourgine and Douzal, 1991] Bourgine, P. and Douzal, V. (1991). Les algorithmes génétiques et leurs applications. In NEURO-NIMES. [Bourgine and Várela, 1991] Bourgine, P. and Várela, F. J. (1991). Towards a practice of autonomous systems. In [Várela and Bourgine, 1991], pages xi-xvii. [Bourgine and Vullierme, 1993] Bourgine, P. and Vullierme, J.-L. (1993). Les machines pensantes ont-elles un ego? in AFCET. [Braitenberg, 1989] Braitenberg, V. (1989). Vehicles: experments in synthetic psychology. MIT Press/Bradford Books. [Brassac, 1994] Brassac, C. (1994). Modéliser l'enchaînement conversationnel. In [Fulis and Bonabeau, 1994]. [Brooks, 1986a] Brooks, R. A. (1986a). Achieving artificial intelligence through building robots. A.I. Memo 899, Al Laboratory, MIT. [Brooks, 1986b] Brooks, R. A. (1986b). A robust layered control system for a mobile robot. IEEE Journal of Robotics and Automation, RA-2. [Brooks, 1987a] Brooks, R. A. (1987a). A hardware retargetable distributed layered architecture for mobile robot control. IEEE, pages 106-110. [Brooks, 1987b] Brooks, R. A. (1987b). Intelligence without representation, report, MIT. [Brooks, 1987c] Brooks, R. A. (1987c). Planning is just a way of avoiding figuring out what to do next. Working Paper 303, MIT. [Brooks, 1988] Brooks, R. A. (1988). A robot that walks: Emergent behavior from a carefully evolved network. Technical report, MlT Artificial Intelligence Laboratory, 545 Technology Square. Cam- bridge, MA 02139. [Brooks, 1990] Brooks, R. A. (1990). Elephants Don't Play Chess, pages 3-15. In [Maes, 1990a], [Brooks, 1991a] Brooks, R. A. (1991a). Artificial life and real robots. In [Várela and Bourgine, 1991], pages 3-10. [Brooks, 1991b] Brooks, R. A. (1991b). Challenges for complete creature architectures. In [Meyer and Wilson, 1991], pages 434-443. [Brooks, 1991c] Brooks, R. A. (1991c). Intelligence without reason. In IJCAIVl. [Brooks et al., 1986] Brooks, R. A., Connell, J., and Flinn, A. (1986). A mobile robot with onboard parallel processor and large workspace arm. In Engcneering Track, ,4j4.4/, Philadelphia, pages 1096-1100. [Brooks and Connell, 1986] Brooks, R. A. and Connell, J. H. (1986). Asynchronous distributed control system for a mobile robot. SPIE, 727:77-84. [Brooks et al., 1988] Brooks, R. A., Connell, J. H., and Ning, P. (1988), Herbert: A second generation mobile robot. A.I. Memo 1016, MIT1 AJ Laboratory. [Bundy, 1983] Bundy, A., editor (1983). Proceedings of The Eighth International Joint Conference on Artificial Intelligence (IJCAI'83), volume 1, 2. William Kaufmann, Inc. [Cabanac, 1991] Cabanac, M. (1991). Pleasure : The answer to conflicting motivations. In [Meyer and Wilson, 1991], pages 206-212. 172 BIBLIOGRAPHIE [Carbonell, 1989] Carbonell, J. (1989). Special volume on machine learning. In Artificial Intelligence, volume 40. [Carpenter and Grossberg, 1987] Carpenter, G. and Grossberg, S. (1987). A massively parallel archi- tecture for a self-organizing neural pattern recognition machine. Computer vision, Graphics and Image Processing, 37:54-115. [Carthy, 1971] Carthy, J. D. (1971). Le comportement des invertébrés. In Foss, B. M., editor, Les voies nouvelles de la psychologie, 1. La perception et le comportement, pages 238-256. Marabout service. [Cecconi and Parisi, 1993] Cecconi, F. and Parisi, D. (1993). Neural networks with motivational units. In [J.-A. Meyer and Wilson, 1993], pages 346-355. [Chaib-draa and Paquet, 1993] Chaib-draa, B. and Paquet, E. (1993). Routines, situations familières et non-familières dans les environnements multiagents. Rapport Interne, Département Informatique, Université Laval, Québec, Canada. [Chapman, 1987] Chapman, D. (1987). Planning for conjunctive goals. Artificial Intelligence, 32:333- 377. [Chapman and Agre, 1986] Chapman, D. and Agre, P. (1986). Abstract reasoning as emergent from concrete activity. In Gerogeff and Lansky, editors, Proceedings of the 1986 Workshop on Reasoning about Actions and Plans. [Chatila et al., 1991] Chatila, R., Alami, R., Degallaix, B., Pérébaskine, V., Gaborit, P., and Moutar- lier, P. (1991). An architecture for task refinement and execution control for intervention robots: Preliminary experiments. In Second Internal tonal Symposium on Experimental Robotics. [CNRS, 1992] CNRS (1992). Le courrier du CNRS, Dossiers Scientifiques, Sciences Cognüives. [Collins and Jefferson, 1991] Collins, R. J. and Jefferson, D. R. (1991). Representations for artificial intelligence. In [Meyer and Wilson, 1991], pages 382-390. [Colombetti and Dorigo, 1993] Colombetti, M. and Dorigo, M. (1993). Training agents to perform sequential behavior. Technical Report 93-023, International Computer Science Institute, Berkeley, CA 94704, Berkeley. [Courant and Ludwig, 1994] Courant, M. and Ludwig, M. (1994). Un modèle d'interaction basé sur les forces. In [Fuhs and Bonabeau, 1994]. [Covrigaru and Lindsay, 1991] Covrigaru, A. A. and Lindsay, R. K. (1991). Deterministic autonomous systems. Al Magazine, Fall 1991:110-117. [Crowley, 1987a] Crowley, J. L. (1987a). Coordination of action and perception in a surveillance robot. In [McDermott, 1987]. [Crowley, 1987b] Crowley, J. L. (1987b). The state of the art in mobile robotics. The Fourth Sympo- sium on Robotics in Construction. [Crowley, 1990] Crowley, J. L. (1990). Knowledge, symbolic reasoning and representation. In [Kanade et al., 1989], pages 501-515. [Dean and Bonasso, 1993] Dean, T. and Bonasso, R. P. (1993). 1992 aaai robot exhibition and compe- tition. AI Magazine, pages 35-48. [Dedieu and Mazer, 1991] Dedieu, E. and Mazer, E. (1991). An approach to sensorimotor relevance. In [Várela and Bourgine, 1991], pages 88-95. [Dedieu et al., 1994] Dedieu, E., Mazer, E., and Bessiere, P. (1994). La modélisation sensorielle. In [Fuhs and Bonabeau, 1994]. [Deffuant, 1992] Deffuant, G. (1992). Réseaux connexionnistes auto-constrttits. PhD thesis, Ecole des Hautes Etudes en Sciences Cognitives, Université Paris 6. [Deffuant, 1993] Deffuant, G. (1993). Réseaux morphodynamiques et modèles cognitifs. In [AFCET, 1993], pages 185-198. [Deffuant and Monneret, 1993] Deffuant, G. and Monneret, E. (1993). Morphodynamic networks: The example of adaptive fibres. In [AFCET, 1993], pages 296-309. [Demazeau and Müller, 1990] Demazeau, Y. and Müller, J.-P., editors (1990). Decentralized A.I., Proceedins of the First European Workshop on Modelling Autonomous Agents in Multi-Agent World. Cambridge, England, North-Holland. 173 Modélisation d'un agent autonome [Demazeau and Müller, 1991] Demazeau, Y. and Müller, J.-P., editors (1991). Decentralized A.I., Proceedins of the Second European Workshop on Modelling Autonomous Agents in Multi-Agent World. Saint-Quentin en Y veli nes, France, North-Holland. [Demazeau and Werner, 1992] Demazeau, Y. and Werner, E-, editors (1992). Decentralized A.I., Pro- ceedins, of the Third European Workshop on Modelling Autonomous Agents in Multi-Agent World. DFKI1D., North-Holland. [Dijkstra, 1959] Dijkstra, E. (1959). A note on two problems in connexion with graphs. Numerische Mathematic, 1:269-271. [Dodge, 1987] Dodge, Y. (1987). Introduction à la programmation linéaire. EDES, CH-2000 Neuchàtel. [Donnet and Smithers, 1991] Donnet, J. and Smithers, T. (1991). Lego vehicles: A technology for studying intelligent systems. In [Várela and Bourgine, 1991]. [Dorigo and Bersini, 1994] Dorigo, M. and Bersini, H. (1994). A comparative analysis of q-learning and classifier systems. In submited to SAB'94- [Dormoy and Kornman, 1991] Dormoy, J.-L. and Kornman, S. (1991). Meta-knowledge, and (artifi- cial) evolution : Some lessons learnt so far. In [Várela and Bourgine, 1991], pages 392-398. [Drescher, 1991] Drescher, G. L. (1991). Made-Up Minds, A Constructivist Approach to Artificial Intelligence. The MIT Press, Cambridge, Massachussets, London, England. [Dreyfus, 1972] Dreyfus, H. (1972). What Computers can't do; A Critique of Artificial Reason. Harper and Row. [Drogoul and Dubreil, 1991] Drogoul, A. and Dubreil, C. (1991). Eco-problem-solving model: Results on the n-puzzle. In [Demazeau and Werner, 1992]. [Ducret, 1989] Ducret, J.-J. (1989), Remarques sur les approches symboliques et infrasymboliques en sciences cognitives. Annales du Groupe CARNAC, 2. [Durfee and Lesser, 1988] Durfee, E. H. and Lesser, V. R. (1988). Predictability versus responsiveness: Coordinating problem solvers in dynamic domains. In [Engelmore, 1988], pages 66-71. [Elfes and Talukdar, 1983] Elfes, A. and Talukdar, S. N. (1983). A distributed control system for the emu rover. In [Bundy, 1983], pages 830-833. [Engelmore, 1987] Engelmore, R., editor (1987). Proceedings of The Sixth National Conference on Artificial Intelligence (AAAI'87), volume 1,2. Morgan Kaufmann Publishers, Inc. [Engelmore, 1988] Engelmore, R., editor (1988). Proceedings of The Seventh National Conference on Artificial Intelligence (AAAT'88), volume 1,2. Morgan Kaufmann Publishers, Inc. [Engelmore, 1991] Engelmore, R., editor (1991). Proceedings of The Eighth National Conference on Artificial Intelligence (AAAI'90). Morgan Kaufmann Publishers, Inc. [Ferber, 1990] Ferber, J. (1990). The framework of eco-problem solving. In [Demazeau and Müller, 1991], pages 101-114. [Fergusson, 1991] Fergusson, 1. A. (1991). Toward an architecture for adaptive, rational, mobile agents. In (Demazeau and Werner, 1992], [Firby, 1987] Firby, R. J. (1987). An investigation into reactive planning in complex domains. In [Engelmore, 1987], pages 202-206. [Fodor, 1986] Fodor, J. (1986). La Modularité de l'Esprit. Editions de Minuit. [Franceschini, 1992] Franceschini, N. (1992), Sequence discriminating neural network in the eye of the fly. In Eeckman, F. H,, editor, Analysis and Modeling of Neural Systems. Kluwer Academic Publishers. [Fulls and Bonabeau, 1994] Fuhs, T. and Bonabcau, E., editors (1994). Actes des Journées de Roche- brune; Autonomie et Interactions Fonctionnelles. Telecom, ARC, CEMEAGREF. [Gardner, 1987] Gardner, H. (1987). La nueva ciencia de la mente, historia de ¡a revolución cognitiva. Editorial Paidós. Translated by L. Wolfson. [Gal, 1994] Gat, Y. (1994). Space Mapping and Navigation for a Behaviour-Based Robot. PhD thesis, IHA, Université de Neuchâtel. 174 BIBLIOGRAPHIE [Gat and Müller, 1991] Gat, Y. and Müller, J.-P. (1991). Simple world modelling for reactive naviga- tion. In AAAl Fall Symposium. [Gatetal., 1993] Gat, Y., Müller, J.-P., Rodriguez, M., Facchinetti, C, Hugli, H., Maitre, G., and Tieche, F. (1993). Architecture for an autonomous system : Application to mobile robot navigation. In NRP-23 Symposium on AI and Robotics. [Gatetal., 1994] Gat, Y., Müller, J.-P., Rodriguez, M., Facchinetti, C, Hugli, H., and Tieche, F. {1994). Architecture for an autonomous system: Application to mobile robot navigation. In 2nd NRP-23 Symposium on AI and Robotics. [Gat et al., 1992] Gat, Y., Rodriguez, M., and Müller, J.-P. (1992). Enriched sensitive and perceptive localization. In Annual Meeting of the Swiss Group for Artificial Intelligence and Cognitive Science (SGAICO'92). [Gazzaniga, 1989] Gazzaniga, M. S., editor (1989). Handbook of Cognitive Neuroscience. Plenum Press. [Georgeff and Lansky, 1987] GeorgefF, M. and Lansky, A. (1987). Reactive reasoning and planning. In Proceedings of the Sixth National Conference on IA. AAAI. [Georgeffet al., 1986] Georgeff, M. P., Lansky, A. L.t and Shoppers, M. J. (1986). Reasoning and planning in dynamic domains: An experiment with a mobile robot. Technical report, AI Center, SRI International, 333 Ravenswood Ave, Menlo Park, California 94025, [Ghedira, 1993] Ghedira, K. (1993). MASC: Une approche multi-agents des problèmes de satisfaction de contraintes. PhD thesis, Ecole Nationale Supérieure de l'Aéronautique et de l'Espace, TOU- LOUSE. [Gingsburg, 1962] Gingsburg, S. (1962). An Introduction to Mathematical Machine Theory. Addison- Wesley, Massachusetts. [Halperin, 1991] Halperin, J. (1991). Machine motivation. In [Meyer and Wilson, 1991], pages 213-221. [Hartsthorne and Weiss, 1931] Hartsthorne, C. and Weiss, P., editors (1931). Collected papers of Charles Sanders Peirce. Harvard University Press. [Haton et al., 1991] Haton, J.-P., Bouzid, N., Charpillet, F., Haton, M.-C, and OTHERS (1991). Le raisonnement en Intelligence Artificielle. InterEditions. [Heidegger, 1964] Heidegger, M. (1964). L'Etre et le Temps. Gallimard, traduit par Bochm-De Waelhens, [Heizelman, 1993] Heizelman, E. (1993). Roboter mit köpfchen. NFPNR-23, Technische Rundschau, Kûnstlische Intelligenz und Robotic, pages 28-33. [Hendler et al., 1990] Hendler, J., Tate, A., and Drummond, M. (1990). Ai planning: Systems and techniques. In [Engelmore, 1991], pages 61-77. f [Hérault, 1989] Hérault, J. (1989). Calcul neuromimétique. In Journées d'électronique, Réseaux de Neurones Artificiels, pages 44-58. Presses Polytechniques Romandes. [Hofstadter, 1988] Hofstadter, D. (1988). Ma Thémagie (En quête de l'essence de l'esprit et du sens). InterEditions. [Holland, 1980] Holland, J. (1980). Adaptive algorithms for discovering and using general patterns in growing knowledge-bases. International Journal of Policy Analysis and Information Systems, 4(3):245-268.- [Holland et al., 1986a] Holland, J., Holyoak, K., Nisbett, R., and Thagard, P. (1986a). Induction: Processes of Inference, Learning and Discovery. The MIT Press, Cambridge, Massachussels. [Holland et al., 1986b] Holland, J., Holyoak, K., Nisbett, R., and Thagard, P. (1986b). Rule-Based Mental Models, chapter 2, pages 29-67. In [Holland et al., 1986a]. [Huberman and Hogg, 1987] Huberman, B. A. and Hogg, T. (1987). Phase transition in artificial intelligence systems. Artificial Intelligence, 33:155-171. ; [J.-A. Meyer and Wilson, 1993] J.-A. Meyer, H. R. and Wilson, S. W., editors (1993). From Ani- mals to Animats 2: Proceedings of the Second International Conference on Simulation of Adaptive Behavior, volume 1. MIT Press, a Bradford Book. 175 Modélisation d'un agent autonome [Jamon, 1991] Jamon, M. (1991). The contribution of quantitative models to the long distance orien- tation problems. In [Meyer and Wilson, 1991], pages 160-168. [Johnson, 1977] Johnson, D. (1977). Efficient algorithms for shortest paths in sparse networks. Journal of the ACM, 24(1):1-13. [Jutten and Hérault, 1988] Jutten, C. and Hérault, J. (1988). Une solution neuromimétique au problème de séparation de sources. Traitement du Signal, 5(6):389-403. [Kamp and Hasier, 1990] Kamp, Y. and Hasler, M. (1990). Réseaux de neurones récursifs pour mémoires associatives. Presses Polytechniques et Universitaires Romandes. [Kampis, 1991] Kampis, G. (1991). Self-Modifying Systems in Biology and Cognitive Science; A New Framework for Dynamics, Information and Complexity. Pergamon Press. [Kanade et al., 1989] Kanade, T., Groen, F., and Hertzberger, L., editors (1989). Intelligent Autono- mous Systems, Proceedings of an International Conference held in Amsterdam, volume 1-2. [Kiss, 1991] Kiss, G. (1991). Autonomous agents, ai and chaos theory. In [Meyer and Wilson, 1991], pages 518-524. [Kohonen, 1989] Kohonen, T., editor (1989). Self-Organization and Associative Memory. Springer- Verlag. [Koza, 1991] Koza, J. R. (1991). Evolution of subsumption using genetic programming. In [Várela and Bourgine, 1991]. [Langton, 1989] Langton, C. (1989). Artificial Life. Addison Wesley. [Latombe, 1988] Latombe, J.-C. (1988). Global path planning approaches for material movements in a worksite. NATO AWR on Advanced Information Technologies for Industrial Material Flow Systems, Grenoble. [LeMoigne, 1986] LeMoigne, J.-L., editor (1986). Intelligence des mécanismes, mécanismes de l'intel- ligence. Fayard / Fondation Diderot. [Lévy, 1987] Levy, P. (1987). La machine univers; Création, cognition et culture informatique. Edi- tions La Découverte. [Lorenz, 1974] Lorenz, K. (1974). Trois essais sur le comportement animai et humain. Editions du Seuil. [Maes, 1990a] Maes, P., editor (1990a). Designing Autonomous Agents: theory and practice from biology to engineering and back. Elsevier Science Publishers B. V. [Macs, 1990b] Maes, P. (1990b). Situated Agents can have goals, pages 49-70. In [Maes, 199Oa]. [Maes, 1991a] Maes, P. (1991a). A bottom-up mechanism for behavior selection in an artificial crea- ture. In [Meyer and Wilson, 1991], pages 238-246. [Maes, 1991b] Maes, P. (1991b). Learning behaviour networks from experience. In [Várela and Bourgine, 1991], pages 48-57. [Maes and Brooks, 1991] Maes, P. and Brooks, R. A. (1991). Learning to coordinate behaviors. In [Engelmore, 1991], pages 796-802. [Malcolm and Smitliers, 1990) Malcolm, C. and Smithers, T. (1990). Symbol Grounding via a Hybrid Architecture in an Autonomous Assemble System, pages 123-144. In [Maes, 199Oa]. [Malcolm et al., 1990] Malcolm, C., Smithers, T., and Hailam, J. (1990). An emerging paradigm in robot architecture. In [Kanade et al., 1989], pages 545-564. [Malarie, 1990] Malarie, M. J. (1990). Learning a distributed map representation based on navigation behaviors. In Proceedings of the USA-Japan Symposium on Flexible Automation, pages 499-506, Kyoto, Japan. [Mataric, 1991a] Mataric, M. J. (1991a). Behavioral synergy without explicit integration. In AAAI Spring Symposium on Integrated Intelligent Architectures. Sigart. [Mataric, 1991b] Mataric, M. J. (1991b). Navigating with a rat brain: A neurobiological-inspired model for robot spatial representation. In [Meyer and Wilson, 1991], pages 169-175. [Maturana, 1970] Maturana, H. R. (1970). Biology of Cognition, chapter 1, pages 2-57. In [Maturana and Várela, 1980]. 176 BIBLIOGRAPHIE [Maturana and Várela, 1972] Maturana, H. R. and Várela, F. J. (1972). De Maquinas y Seres Vivos. Editorial Universitaria S.A. [Maturana and Várela, 1980] Maturana, H. R. and Várela, F. J., editors (1980). Autopoiesis And Cognition, The Realization of the Living. D. Reidel Publishing Company. [Maturana and Várela, 1987] Maturana, H. R. and Várela, F. J. (1987). The Tree of Knowledge: The Biological Roots of Human Understanding. New Science Library. [McCulloch and Pitts, 1943] McCulloch, W. and Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity. Bull. Mathem. Biophys., 5:115-133. [McDermott, 1987] McDermott, J., editor (1987). Proceedings of The Tenth International Joint Confe- rence on Artificial Intelligence (IJCAI'87), volume 1, 2. Morgan Kaufmann Publishers, Inc. [Merleau-Ponty, 1945] Merleau-Ponty, M. (1945). Phénoménologie de la perception. Gallimard. [Merleau-Ponty, 1977] Merleau-Ponty, M. (1977). La structure du comportement. PUF. 8eme édition. [Meyer and Wilson, 1991] Meyer, J.-A. and Wilson, S. W., editors (1991). From Animals to Animals: Proceedings of the First International Conference on Simulation of Adaptive Behavior, volume 1. MIT Press, a Bradford Book. [Minsky, 1988] Minsky, M-, editor (1988). La société de l'esprit. Inter Editions. [Mitchell, 1990] Mitchell, T. M. (1990}. Becoming increasingly reactive. In [Engelmore, 1991], pages 1051-1058. [Mondada et al., 1993] Mondada, F., Franzi, E., and Ienne, P. (1993). Mobile robot miniaturisation: A tool for investigation in control algorithms. In Third International Symposium on Experimental Robotics. ' [Moya, 1991] Moya, C- (1991). Intention, intentionalité et causalité. Présentation, Universidad de Valencia, Spain. [Müller, 1987] Müller, J.-P. (198"). Contribution à la l'étude d'un agent rationnel: Spécification en lo- gique intensionnelle et implantation. PhD thesis. Université Scientifique, Technologique et Médicale de Grenoble, Institut National Polytechnique de Grenoble. [Müller and Rodriguez, 1993] Müller, J.-P. and Rodriguez, M. (1993). A distributed system architec- ture: Application to mobile robotics. In [Borne, 1993], pages 623-625. [Nehmzow et al., 1990] Nehmzow, U., Hallam, J., and Smithers, T. (1990). Really useful robots. In [Kanade et al., 1989], pages 284-293. [Nehmzow and Smithers, 1991a] Nehmzow, U. and Smithers, T. (1991a). Mapbuilding using self- organising networks in "really useful robots". In [Meyer and Wilson, 1991], pages 152-159. [Nehmzow and Smithers, 1991b] Nehmzow, U. and Smithers, T. (1991b). Using motor actions for location recognition. In [Kanade et al., 1989], pages 96-104. [Newell and Simon, 1963] Newell, A. and Simon, H. (1963). Gps: A program that simulates human thouglh. In Feigenbaum, E. and Feldman, J., editors, Computers and Thought, McGraw-Hill. [Ow et al., 1988] Ow, P. S., Smith, S. F., and Thiriez, A. (1988). Reactive plan revision. In [Engelmore, 1988], pages 77-82. [Payton, 1990] Payton, D. W. (1990). Internalized Plans: A Representation for Action Ressources, pages 89-103. .In [Maes, 199Oa]. [Pearce and Kuipers, 1991] Pearce, D. and Kuipers, B. (1991). Learning hill-climbing functions as a strategy for generating behaviors in a mobile robot. In [Meyer and Wilson, 1991], pages 327-336. [Petitot, 1992a] Petitot, J. (1992a). Modèles morphodynamiques de catégorisation phonétique. Le Courrier du CNRS, Dossier Sciences Cognitives, page 90. [Petitot, 1992b] Petitot, J. (1992b). Physique du sens. Editions du CNRS. [Pfeifer and Verschure, 1993] Pfeifer, R. and Verschure, F. (1993). Designing efficiently navigating non-goal-directed robots. In [J.-A. Meyer and Wilson, 1993], pages 31-39! [Pfeifer and Verschure, 1991] Pfeifer, R. and Verschure, P. (1991). Distributed adaptive control: A paradigm for designing autonomous agents. In [Várela and Bourgine, 1991], pages 21-30. i 177 Modélisation d'un agent autonome [Pfeifer and Verschure, 1992] Pfeifer, R. and Verschure, P. (1992). Beyond rationalism : symbols, pat- terns and behavior. Connection Science, special issue on the philosophy of connectionnism. [Pichón et al., 1989] Pichón, J.-M., Blanes, C1 and Franceschini, N. (1989), Visual guidance of a mobile robot equipped with a network of self-motion sensors. SPIE, Mobile Robots IV, 1195. [Resnick, 1991] Resnick, M. (1991). Logo: Animal simulations and the restructuring of science educa- tion. In [Meyer and Wilson, 1991]. [Rodriguez, 1990] Rodriguez, M. (1990). Systeme de pilotage d'un robot mobile. Travail de licence, Université de Neuchâtel, IHA, Emile-Argand 11, CH-2007 Neuchâtel. [Rodriguez, 1994a] Rodriguez, M. (1994a). Architecture and structured representations for an auto- nomous agent. In From Perception to Action, PerAc'94- EPFL, Lausanne. [Rodriguez, 1994b] Rodriguez, M. (1994b). Modélisation d'un agent autonome: architecture compor- tementale et représentation sensori-motrice. In [ARC and InCognito, 1994], pages 57-66. [Rodriguez, 1994c] Rodriguez, M. (1994c). Une architecture réactive et cognitive pour la modélisation d'agents autonomes. In [Fuhs and Bonabeau, 1994]. [Rodriguez et al., 1994a] Rodriguez, M., Erard, P.-J., and Mullér, J.-P. (1994a). Virtual environments for simulating artificial autonomy. In The seventh International Conference on Computer Anima- tion. Swiss National Research Foundation. [Rodriguez et al., 1994b] Rodriguez, M.. Erard, P.-J-, and Muller, J.-P. (1994b). Virtual environments for simulating artificial autonomy. In Thalman, N., editor, Autonomous systems and virtual Reality. J. Wiley. [Roitblat, 1991] Roitblat, H. (1991). Cognitive action theory as a control architecture. In [Meyer and Wilson, 1991], pages 444-450. [Rosenblatt and Pay ton, 1989] Rosenblatt, K. and Payton, D. (1989). A fine-grained alternative to the subsumption architecture for mobile robot control. In Proc. of The IEEE/INNS International Joint Conference on Neural Networks. IEEE. [Russell, 1989] Russell, S. J. (1989). Execution architectures and compilation. In [Sridharan, 1989], pages 15-20. [Sacerdoti, 1977] Sacerdoti, E. (1977). A Structure for Plans and Behaviour. Elsevier-North Holland. [Scaglione, 1990] Scaglione, M. (1990). Théories de la Vision, Dynamique de la relation perception' action en intelligence artificielle. Ecole des Hautes Etudes en Sciences Sociales (Paris). [Schmidhuber, 1991] Schmidhuber, J. (1991). A possibility for implementing curiosity and boredom in model-building neural controllers. In [Meyer and Wilson, 1991], pages 222-227. [Schnepf, 1991] Schnepf, U. (1991). Robot ethology : A proposal for the research into intelligent au- tonomous systems. In [Meyer and Wilson, 1991], pages 465-474. [Schoppers, 1987] Schoppers, M. (1987). Universal plans for reactive robots in unpredictable domains. In [McDcrmott, 1987]. [Schwartz, 1992] Schwartz, E. (1992). Introduction à la pensée et à l'action systémiques. première partie. [Schwarz, 1992] Schwarz, E. (1992). Un modèle de l'émergence et de révolution des systèmes naturels. In Deuxième Ecole de Systémique. AFCET. [Schwarz, 1993] Schwarz, E. (1993). Systems science: A possible bridge between conceptual knowledge and spiritual experience, the case of conciousness. In 4th International Symposium on Systems Research Informatics and Cybernetics. [Searle, 1983] Searle, J. R. (1983). L'intentionalité, essai de philosophie des états mentaux. Les Edi- tions de Minuit. [Slioham, 1988] Shoham, Y. (1988). Reasoning about Change; Time and Causation from the Stand- point of Artificiel Intelligence. The MIT Press, Cambridge, Massachusetts. [Silva et al., 1991] Silva, E., Pereira, F., and de Sousa, J. B. (1991). A blackboard approach to the mission management for autonomous underwater vehicle. In Artificial Intelligence in Engineering, pages 463-476. 178 BIBLIOGRAPHIE [Smithers, 1991] Smithers, T- (1991). Taking eliminative materialism seriously : A methodology for autonomous systems research. In [Várela and Bourgine, 1991], pages 31-40. [Sorouchyari, 1989] Sorouchyari, E. (1989). Mobile robot navigation, a neural network approach. In Annales du groupe CARNAC1 no. S, pages 13-24. [Sridharan, 1989] Sridharan, N., editor (1989), Proceedings of The Eleventh International Joint Confe- rence on Artificial Intelligence (IJCAI'89), volume 1, 2. Morgan Kaufmann Publishers, Inc. [Steels, 1988] Steels, L. (1988). Steps towards common sense. ECAI'88, pages 49-54. [Steels, 1990] Steels, L. (1990). Exploiting analogical representations, pages 71-88. In [Maes, 199Oa]. [Steels, 1991] Steels, L. (1991). Towards a theory of emergent functionality. In [Meyer and Wilson, 1991], pages 451-461. [Stefik, 1981] Stefik, M. (1981). Planning with constraints. Artificial Intelligence, 16:111-140. [Stewart, 1994] Stewart, J. (1994). L'enracinement biologique de la cognition : des conséquences pour la conceptualisation des représentations et de la faculté de langage. In [Fu h s and Bonabeau, 1994]. [Suchman, 1987] Suchman, L- A. (1987). Plans and situated actions. Cambridge University Press, Cambridge. [Sutton, 1991] Sutton, R. (1991). Reinforcement learning architectures for animats. In [Meyer and Wilson, 1991], pages 288-296. [Tate, 1975] Tate, A. (1975). Interacting goals and their use. In IJCAI'75, pages 215-218. [Tate, 1977] Tate, A. (1977). Generating project networks. In IJCAI'77. Menlo Park. [Thomas et al., 1993] Thomas, M., Uccello, M., Gravez, P., and Bars, H. L. (1993). A distributed blackboard application to the decision making in computer aides teleoperation. In [Borne, 1993], pages 635-639. [Tinbergen, 1950] Tinbergen, N. (1950). The hierarchical organization of mechanisms underlying ins- tinctive behaviour. Experimental Biology, 4:305-312. [Toates and Jensen, 1991] Toates, F. and Jensen, P. (1991). Ethological and psychological models of motivation - towards a synthesis. In [Meyer and Wilson, 1991], pages 194-205. [Tolman, 1932] Tolman, E. (1932). Purposive Behavior in Animals and Men. Appleton-Century Crofts. [Torras, 1993] Torras, C. (1993). From geometric motion planning to neural motor control in robotics. AICOM, Vol 6, Nr. 1, pages 3-17. [Touzet, 1994] Touzet, C. (1994). Apprentissage par renforcement neuronal d'un comportement d'évitement d'obstacles pour le mini-robot khepera. In [Fuhs and Bonabeau, 1994]. [Tyrrell, 1993] Tyrrell, T. (1993). Computational Mechanisms for Action Selection. PhD thesis, Uni- versity of Edinburgh. [Várela, 1979] Várela, F. (1979). Principies of Biological Autonomy. North Holland. [Várela, 1988] Várela, F. (1988). Connaître les sciences cognitives, tendances et perspectives. Editions du Seuil. [Várela and Bourgine, 1991] Várela, F. J. and Bourgine, P., editors (1991). Toward a Practice of Autonomous Systems, Proceedings of The First European Conference on Artificial Life (ECAL'91), volume 1. The MIT Press. [Vere, 1983] Vere, S. (1983). Planning in time: Windows and durations for activities and goals. IEEE transactions on Pattern Analysis and Machine Intelligence, pages 246-267. [Verschure et al., 1992] Verschure, P. F., Kröse, B. J., and Pfeifer, R. (1992). Distributed adaptive control: The self-organisation of structured behavior. Robotics and Autonomous Systems, 9:1-16. [Vittoz, 1989] Vittoz, E. (1989). Analog visi implementation of neural networks. In Journées d'électronique, Réseaux de neurones artificiels, pages 223-250. EPFL1 Presses Polytechniques Ro- mandes. [Warren, 1974] Warren, D. (1974). Warplan: A system for generating plans. Memorandum 76, Dept. of Computational Logic, Edinburgh University. 179 Modélisation d'un agent autonome [Watzlawick, 1978] Watzlawick, P. (1978). La réalité de la réalité: Confusion, désinformation, com- munication. Editions du Seuil. [Webb and Smithers, 1991] Webb, B. and Smithers, T. (1991). The connection between ai and biology in the study of behaviour. Iu [Várela and BouTgìne, 1991], pages 421-428. [VVehrle, 1994] Wehrle, T. (1994). Eine Methode zur psychologiquen Modellierung und Simulation von Automaten Agenten. PhD thesis, Philosophische Fakultaet I, Universitaet Zuetich. [Weisbuch, 1989] Weisbuch, G. (1989). Dynamique des systèmes complexes, Une introduction aux réseaux d'automates. InterEditions et Editions du CNRS. [Wilkins, 1983] Wilkins, D. (1983). Representation in a domain independent planner. In [Bundy, 1983], pages 733-740. [Winograd and Flores, 1987] Winograd, T. and Flores, F. (1987). Understanding computers and co- gnition. Ablex Pubi. [Yeap and Handley, 1991] Yeap, W. and Handley, C. (1991). Four important issues in cognitive map- ping. In [Meyer and Wilson, 1991], pages 176-183. [Yeap, 1988] Yeap, W. K. (1988). Towards a computational theory of cognitive maps. Artificial Intelligence, 34:297-360. 180