Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.

Théorie évolutive des jeux

Théorie évolutive des jeux

Другие языки:

Théorie évolutive des jeux

Подписчиков: 0, рейтинг: 0

La théorie évolutive des jeux, appelée aussi théorie des jeux évolutionniste, est l'application de la théorie des jeux à l'étude de l'évolution de populations en biologie. Elle définit un cadre de compétitions, de stratégies et d'analyses dans lequel la compétition darwinienne peut être modélisée. Elle a vu le jour en 1973 avec la formalisation par John Maynard Smith et George R. Price des compétitions, analysées en tant que stratégies, et des critères mathématiques qui peuvent être utilisés pour prédire les résultats des stratégies concurrentes.

La théorie évolutive des jeux diffère de la théorie classique des jeux en ce qu'elle se concentre davantage sur la dynamique du changement de stratégie, qui est influencée par la fréquence des stratégies compétitives dans la population.

La théorie évolutive des jeux a contribué à expliquer les bases des comportements altruistes dans l'évolution darwinienne. Elle a suscité l'intérêt des économistes, des sociologues, des anthropologues et des philosophes.

Histoire

Théorie classique des jeux

La théorie classique des jeux non coopératifs a été conçue par John von Neumann pour déterminer les stratégies optimales dans les compétitions entre adversaires. Une compétition implique des joueurs, qui ont tous un choix de coups. Les jeux peuvent être à un seul tour ou répétitifs. L'approche qu'un joueur adopte pour effectuer ses mouvements constitue sa stratégie. Les règles régissent le résultat des coups des joueurs, et les résultats produisent des gains pour les joueurs ; les règles et les gains qui en résultent peuvent être exprimés sous forme d'arbres de décision ou de matrice de gains. La théorie classique exige que les joueurs fassent des choix rationnels. Chaque joueur doit tenir compte de l'analyse stratégique que font ses adversaires pour faire son propre choix de coups.

Le problème du comportement ritualisé

Le biologiste mathématicien John Maynard Smith a modélisé la théorie évolutive des jeux.

La théorie des jeux évolutifs est née du problème de l'explication du comportement rituel des animaux dans une situation de compétition : « pourquoi les animaux sont-ils si "gentleman ou ladylike" dans les compétitions pour des ressources ? » Les éminents éthologues Niko Tinbergen et Konrad Lorenz ont proposé qu'un tel comportement existe car il profite à l'espèce. John Maynard Smith a estimé que cela était incompatible avec la pensée darwinienne, où la sélection se fait au niveau individuel, de sorte que l'intérêt personnel est récompensé alors que la recherche du bien commun ne l'est pas. Maynard Smith, en tant que biologiste mathématicien, s'est tourné vers la théorie des jeux suggérée par George Price, bien que les tentatives de Richard Lewontin d'utiliser cette théorie aient échoué.

Adapter la théorie classique des jeux vers la théorie évolutive des jeux

Maynard Smith a réalisé qu'une version évolutive de la théorie des jeux n'exige pas des joueurs qu'ils agissent de manière rationnelle, mais seulement qu'ils aient une stratégie. Les résultats d'un jeu montrent à quel point cette stratégie était bonne, tout comme l'évolution teste des stratégies alternatives pour la capacité à survivre et à se reproduire. En biologie, les stratégies sont des traits héréditaires qui contrôlent l'action d'un individu, par analogie avec les programmes informatiques. Le succès d'une stratégie est déterminé par la qualité de celle-ci en présence de stratégies compétitives (y compris elle-même), et par la fréquence à laquelle ces stratégies sont utilisées. Maynard Smith a décrit son travail dans son livre Evolution and the Theory of Games (Évolution et Théorie des Jeux).

Les participants visent à produire autant de répliques d'eux-mêmes qu'ils le peuvent, et le gain est exprimé en unités d'aptitude (valeur relative de la capacité de reproduction). C'est toujours un jeu multijoueurs avec de nombreux compétiteurs. Les règles incluent la dynamique des réplicateurs, en d'autres termes comment les joueurs les plus aptes vont engendrer plus de répliques d'eux-mêmes dans la population et comment les moins aptes seront éliminés, dans une équation de réplicateur. La dynamique des réplicateurs modélise l'hérédité mais pas la mutation, et suppose une reproduction asexuée par souci de simplicité. Les jeux se déroulent de manière répétitive, sans conditions de fin. Les résultats incluent la dynamique des changements dans la population, le succès des stratégies et les états d'équilibre atteints. Contrairement à la théorie classique des jeux, les joueurs ne choisissent pas leur stratégie et ne peuvent pas la changer : ils naissent avec une stratégie et leur progéniture hérite de cette même stratégie.

Jeux évolutifs

Modèles

La théorie évolutive des jeux analyse les mécanismes darwiniens à l'aide d'un modèle de système comportant trois composantes principales : la population, le jeu et la dynamique des réplicateurs. Le processus du système comporte quatre phases : (1) le modèle (comme l'évolution elle-même) traite d'une population P(n) (population n) ; la population affichera une variation entre les individus en compétition ; dans la maquette, cette compétition est représentée par le jeu ; (2) le jeu teste les stratégies des individus selon les "règles du jeu" (game rules) ; les règles produisent des gains différents (en unités de fitness = taux de production de la progéniture) ; les individus qui participent à ces compétitions se rencontrent par paires avec d'autres, généralement dans une condition de répartition très mixte de la population ; le mélange des stratégies dans la population affecte les résultats des gains en modifiant les chances que tout individu puisse se retrouver dans des compétitions avec diverses stratégies ; les personnes quittent le concours par paires avec une aptitude déterminée par le résultat du concours, représenté dans une matrice de gains ; (3) sur la base de cette aptitude résultante, chaque membre de la population est ensuite soumis à une réplication (replicator rules) ou à une élimination déterminée par les mathématiques exactes du processus de la dynamique des réplicateurs ; ce processus global produit alors une nouvelle génération P(n+1) ; chaque individu survivant a désormais un nouveau niveau de forme physique déterminé par le résultat du jeu ; (4) la nouvelle génération (population n+1) prend alors la place de la précédente et le cycle se répète ; la composition de la population peut converger vers un état stable sur le plan de l'évolution qui ne peut être envahi par aucune stratégie mutante.

La théorie évolutive des jeux englobe l'évolution darwinienne, y compris la compétition (le jeu), la sélection naturelle (dynamique des réplicateurs) et l'hérédité. La théorie des jeux évolutifs a contribué à la compréhension de la sélection de groupe, de la sélection sexuelle, de l'altruisme, des soins parentaux, de la co-évolution et de la dynamique écologique. De nombreuses situations contre-intuitives dans ces domaines ont été mises sur une base mathématique solide par l'utilisation de ces modèles.

La façon habituelle d'étudier la dynamique de l'évolution dans les jeux est d'utiliser des équations de réplicateurs. Elles montrent le taux de croissance de la proportion d'organismes utilisant une certaine stratégie et ce taux est égal à la différence entre le gain moyen de cette stratégie et le gain moyen de la population dans son ensemble. Les équations de réplicateurs continus supposent des populations infinies, un temps continu, un mélange complet et que les stratégies se reproduisent. Les attracteurs (points fixes stables) des équations sont équivalents à des états stables sur le plan de l'évolution. Une stratégie qui peut survivre à toutes les stratégies "mutantes" est considérée comme stable sur le plan de l'évolution. Dans le contexte du comportement animal, cela signifie généralement que ces stratégies sont programmées et fortement influencées par la génétique, rendant ainsi la stratégie de tout acteur ou organisme déterminée par ces facteurs biologiques.

Les jeux évolutifs sont des objets mathématiques qui ont des règles, des gains et des comportements mathématiques différents. Chaque "jeu" représente différents problèmes auxquels les organismes doivent faire face, et les stratégies qu'ils pourraient adopter pour survivre et se reproduire. Les jeux évolutifs reçoivent souvent des noms originaux et recouvrent des histoires qui décrivent la situation générale d'un jeu particulier. Parmi les jeux représentatifs, citons le jeu du poulet,[1] la guerre d'usure,[15] la chasse au cerf, la situation producteur-profiteur, la tragédie des biens communs et le dilemme du prisonnier. Les stratégies de ces jeux comprennent le Faucon (Faucon), le Bourgeois (Bourgeois), l'Essayeur (Prober), l'Assesseur (Assessor) et le Riposteur (Retaliator). Les différentes stratégies s'affrontent selon les règles du jeu en question, et les mathématiques sont utilisées pour déterminer les résultats et les comportements.

Faucon-colombe

Solution du jeu Faucon-Colombe (Hawk-Dove) pour V=2, C=10 et la base de départ B=4. L'aptitude d'un Faucon à s'adapter à différents mélanges de populations est représentée par une ligne noire, celle de la Colombe par une ligne rouge. Une ESS (un point fixe) existera lorsque la condition physique des Faucons et des Colombes est égale : les Faucons représentent 20% de la population et les Colombes 80% de la population.

Le premier jeu que Maynard Smith a analysé est le jeu classique Faucon-Colombe (ou jeu du poulet ; l'appellation Faucon-Colombe a été choisie par Maynard Smith à partir de descriptions de visions politiques courantes pendant la guerre du Vietnam). Il a été conçu pour analyser le problème de Lorenz et Tinbergen, qui décrit une compétition pour une ressource partageable. Les concurrents peuvent être soit Faucon, soit Colombe. Il s'agit de deux sous-types ou morphes d'une même espèce avec des stratégies différentes. Le Faucon fait d'abord preuve d'agressivité, puis la situation tourne au combat jusqu'à ce qu'il gagne ou soit blessé (perd). La Colombe affiche d'abord son agressivité, mais si elle est confrontée à une escalade majeure (envers le combat), elle s'enfuit pour se mettre à l'abri. Si elle n'est pas confrontée à une telle escalade, la colombe tente de partager la ressource.

Matrice de paiement pour le jeu Faucon-Colombe
	rencontre Faucon	rencontre Colombe
si Faucon	V/2 − C/2	V
si Colombe	0	V/2

Si on donne à la ressource une valeur V, les dommages causés par la perte d'un combat ont un coût C :

si un Faucon rencontre une Colombe, il obtient toute la ressource V pour lui ;
si un Faucon rencontre un Faucon, la moitié du temps il gagne, la moitié du temps il perd...donc son résultat moyen est alors V/2 – C/2 ;
si une Colombe rencontre un Faucon, elle se retire et n'obtient rien, soit 0 ;
si une Colombe rencontre une Colombe, les deux partagent la ressource et obtiennent V/2.

Le gain réel dépend toutefois de la probabilité de rencontrer un Faucon ou une Colombe, qui à son tour est une représentation du pourcentage de Faucons et de Colombes dans la population lorsqu'une compétition particulière a lieu. Cela est à son tour déterminé par les résultats de toutes les compétitions précédentes. Si le coût de perdre C est supérieur à la valeur de gagner V (la situation normale dans la nature), les mathématiques aboutissent à une stratégie stable du point de vue de l'évolution (ESS pour Evolutionary Stable Strategy en anglais), un mélange des deux stratégies où la population des Faucons est V/C. La population régresse jusqu'à ce point d'équilibre si de nouveaux Faucons ou Colombes viennent perturber temporairement la population. La solution du jeu Faucon-Colombe explique pourquoi la plupart des compétitions entre animaux n'impliquent que des comportements de combat rituel dans ces compétitions, plutôt que des combats purs et simples. Le résultat ne dépend pas du tout du bon comportement de l'espèce comme le suggère Lorenz, mais uniquement de l'implication des actions de gènes dits égoïstes.

Guerre d'usure

Guerre d'usure pour différentes valeurs de la ressource. Notez le temps qu'il faut pour qu'une accumulation de 50% des participants abandonne par rapport à la valeur (V) de la ressource pour laquelle ils sont en compétition.

Dans le jeu Faucon-Colombe, la ressource est partageable, ce qui donne des gains aux deux Colombes qui se rencontrent dans une compétition par paire. Lorsque la ressource n'est pas partageable, mais qu'une ressource alternative peut être disponible en faisant marche arrière et en essayant ailleurs, les stratégies pures de Faucon ou Colombe sont moins efficaces. Si une ressource non partageable est combinée à un coût élevé de perte d'un concours (blessure ou décès possible), les gains de Faucon et Colombe sont encore plus réduits. Une stratégie plus sûre, consistant à afficher un moindre coût, à bluffer et à attendre de gagner, est alors viable – une stratégie de bluff. Le jeu devient alors celui de l'accumulation des coûts, qu'il s'agisse des coûts d'affichage ou des coûts d'un engagement prolongé non résolu. Il s'agit en fait d'une enchère ; le gagnant est le concurrent qui va gober le coût le plus élevé tandis que le perdant obtient le même coût que le gagnant mais aucune ressource. Les mathématiques de la théorie évolutive des jeux qui en résultent conduisent à une stratégie optimale de bluff chronométré.

En effet, dans la guerre d'usure, toute stratégie qui est inébranlable et prévisible est instable, car elle sera finalement remplacée par une stratégie mutante qui repose sur le fait qu'elle peut mieux que la stratégie prévisible existante investir un petit delta supplémentaire de ressources d'attente pour s'assurer qu'elle gagne. Par conséquent, seule une stratégie aléatoire et imprévisible peut se maintenir dans une population de Bluffeurs. Les concurrents choisissent en effet un coût acceptable à engager en fonction de la valeur de la ressource recherchée, en faisant effectivement une offre aléatoire dans le cadre d'une stratégie mixte (une stratégie où un concurrent a quelques, voire plusieurs, actions possibles dans sa stratégie). Cela met en œuvre une distribution des offres pour une ressource de valeur spécifique V, où l'offre pour un concours spécifique est choisie au hasard dans cette distribution. La distribution (une ESS) peut être calculée en utilisant le théorème de Bishop-Cannings, qui s'applique à toute ESS à stratégie mixte. La fonction de distribution dans ces concours a été déterminée par Parker et Thompson comme étant :

p(x)={\frac {e^{-x/V}}{V}}.

Il en résulte que la population cumulée des Quitteurs pour un coût particulier m dans cette solution de "stratégie mixte" est :

p(m)=1-e^{-m/V},

comme le montre le graphique ci-contre. Le sentiment intuitif selon lequel une plus grande valeur de la ressource recherchée entraîne des temps d'attente plus longs se confirme. Cela s'observe dans la nature, comme chez les mouches à fumier mâles qui se disputent les sites de reproduction, où le moment du désengagement dans les compétitions est tel que prédit par les mathématiques de la théorie de l'évolution.

Asymétries permettant l'apparition de nouvelles stratégies

Dans la guerre d'usure, rien ne doit signaler à l'adversaire la taille d'une offre, sinon l'adversaire peut utiliser la réplique dans une contre-stratégie efficace. Il existe cependant une stratégie mutante qui peut mieux convenir à un bluffeur dans le jeu de la guerre d'usure si une asymétrie appropriée existe, la stratégie bourgeoise. Le Bourgeois utilise une sorte d'asymétrie pour sortir de l'impasse. Dans la nature, une telle asymétrie est la possession d'une ressource. La stratégie consiste à jouer comme un Faucon s'il est en possession de la ressource, mais à s'afficher puis à battre en retraite s'il n'en a pas en possession. Cela nécessite une plus grande capacité cognitive que Faucon, mais Bourgeois est commun dans de nombreuses compétitions d'animaux, comme dans les compétitions chez les crevettes-mantes et de papillons des bois mouchetés.

Alternatives pour l'interaction sociale en théorie des jeux

Comportement social

La mouche du fumier (Scatophaga stercoraria), un organisme assimilable à un joueur de la Guerre d'usure.

Une crevette-mante protégeant son abri en employant une stratégie du Bourgeois.

Des jeux comme Faucon-Colombe et Guerre d'Usure représentent une pure compétition entre individus et n'ont pas d'éléments sociaux associés. Lorsque des influences sociales s'appliquent, les compétiteurs ont quatre alternatives possibles pour l'interaction stratégique. Cela est illustré sur la figure ci-contre à gauche, où un signe "+" représente un avantage et un signe "–" un coût.

La figure de droite montre deux exemples de stratégies animales assimilables abordées dans le cadre de la théorie évolutive des jeux : en examinant les comportements, puis en déterminant à la fois les coûts et la valeur des ressources obtenues dans une compétition, la stratégie supposée d'un organisme peut être de ce fait confirmée.

Dans une relation de coopération ou mutualiste, le "donneur" et le "bénéficiaire" sont presque indissociables, car tous deux tirent un avantage de la coopération, c'est-à-dire que le couple se trouve dans une situation où ils peuvent tous deux tirer profit de l'exécution d'une certaine stratégie, ou bien ils doivent tous deux agir de concert en raison de contraintes globales qui les placent effectivement "dans le même bateau".

Dans une relation altruiste, le donneur, fournit un avantage au receveur, avec un coût pour lui-même. Dans le cas général, le receveur aura un lien de parenté avec le donneur et le don est à sens unique. Les comportements où les bénéfices sont donnés alternativement (dans les deux sens) à un coût, sont souvent qualifiés d'altruistes, mais à l'analyse, un tel "altruisme" peut être considéré comme découlant de stratégies "égoïstes" optimisées.
La malveillance (spite) est essentiellement une forme "inversée" d'altruisme où un allié est aidé en nuisant à son (ses) concurrent(s). Le cas général est que l'allié est apparenté (phylogénétiquement) et que le bénéfice retiré est un environnement compétitif plus épanouissant pour l'allié.
L'égoïsme (selfishness) est le critère de base de tout choix stratégique du point de vue de la théorie des jeux – les stratégies qui ne visent pas l'autosurvie et l'autoreproduction ne sont pas viables sur la durée lors d'un jeu. Cependant, cette situation est d'autant plus critique que la concurrence s'exerce à plusieurs niveaux – c'est-à-dire au niveau génétique, individuel et collectif.

Batailles de gènes égoïstes

Les femelles de spermophiles de Belding (espèce d'écureuil terrestre) risquent leur vie en lançant de forts cris d'alarme, protégeant les membres féminins de la colonie qui leur sont étroitement liés ; les mâles sont moins étroitement liés et ne lancent pas de tels cris.

À première vue, il peut sembler que les compétiteurs des jeux évolutifs sont les individus présents dans chaque génération qui participent directement au jeu. Mais les individus ne vivent qu'un seul cycle de jeu, et ce sont plutôt les stratégies qui s'affrontent réellement les unes les autres pendant la durée de ces jeux sur plusieurs générations. Ce sont donc finalement les gènes qui jouent une compétition complète – les gènes égoïstes de la stratégie. Les gènes de contestation sont présents chez un individu et, dans une certaine mesure, dans toute sa famille. Cela peut parfois affecter profondément les stratégies qui permettent de survivre, notamment en ce qui concerne les questions de coopération et de défection. William Hamilton, connu pour sa théorie de la sélection des parents, a exploré un grand nombre de ces cas en utilisant des modèles de théorie des jeux. Le traitement par les parents lors des compétitions de chasse permet d'expliquer de nombreux aspects du comportement des insectes sociaux, le comportement altruiste dans les interactions parents/enfants, les comportements de protection mutuelle et les soins coopératifs des enfants. Pour ces jeux, Hamilton a défini une forme étendue d'aptitude – l'aptitude inclusive –, qui comprend la progéniture d'un individu ainsi que tout équivalent de progéniture trouvé dans la famille.

Les mathématiques de la sélection parentale
Le concept de sélection parentale est le suivant : fitness inclusive = contribution personnelle à la fitness + contribution de tous les individus apparentés. La fitness (ou valeur sélective) est mesurée par rapport à la population moyenne ; par exemple, une fitness = 1 signifie une croissance au taux moyen de la population, une fitness < 1 signifie une diminution de la part de la population (disparition), une fitness > 1 signifie une augmentation de la part de la population (reprise). La fitness inclusive d'un individu w_i est la somme de sa fitness spécifique propre a_i à laquelle on ajoute la fitness spécifique de chaque individu apparenté sans exception, pondérée par le degré de parenté qui est égal à la somme de chaque *r_jb_j où r_j est la parenté d'un parent spécifique et b_j est la fitness de ce parent spécifique, ce qui donne : $w_{i}=a_{i}+\sum _{j}r_{j}b_{j}.$ Maintenant, si l'individu a_i sacrifie sa "propre fitness équivalente en moyenne à 1" en acceptant un coût de fitness C, pour pouvoir "récupérer cette perte" par la suite, w_i doit toujours être égal à 1 (ou supérieur à 1)...et si on utilise RB* pour représenter la somme, on obtient : 1 < (1-C) + RB ....ou bien, par réarrangement..... R > C / B.

Hamilton est allé au-delà de la relation de parenté pour travailler avec Robert Axelrod, analysant des jeux de coopération dans des conditions n'impliquant pas de parenté où l'altruisme réciproque entre en jeu.

Eusocialité et sélection parentale

Les ouvrières de l'espèce de fourmi australienne Iridomyrmex purpureus (toujours femelles) ont pour valeur de parenté : 0,5 avec leur mère ou père ; 0,5 avec leurs sœurs ; 0,75 avec leurs propres enfants ; 0,25 avec leurs frères. Il est donc plus avantageux pour un individu de cette espèce d'aider à produire une sœur que d'avoir soi-même un enfant.

Chez les insectes eusociaux, les ouvriers perdent leurs droits de reproduction au profit de leur reine. Il a été suggéré que la sélection des parents, basée sur la composition génétique de ces ouvriers, pourrait les prédisposer à un comportement altruiste. La plupart des sociétés d'insectes eusociaux ont une détermination sexuelle haplodiploïde, ce qui signifie que les ouvriers sont exceptionnellement proches les uns des autres.

Cette explication de l'eusocialité des insectes a cependant été contestée par quelques théoriciens des jeux évolutifs très réputés comme Nowak et Wilson qui ont publié une explication alternative controversée de la théorie évolutive des jeux basée sur un développement séquentiel et des effets de sélection de groupe proposés pour ces espèces d'insectes.

Dilemme du prisonnier

Une difficulté de la théorie de l'évolution, reconnue par Darwin lui-même, était le problème de l'altruisme. Si la base de sélection se situe au niveau individuel, l'altruisme n'a aucun sens. Mais la sélection universelle au niveau du groupe (pour le bien de l'espèce et non de l'individu) ne passe pas le test mathématique de la théorie des jeux et n'est certainement pas le cas général dans la nature. Pourtant, chez de nombreux animaux sociaux, le comportement altruiste existe. La solution à ce paradoxe peut être trouvée dans l'application de la théorie évolutive des jeux au jeu du dilemme du prisonnier – un jeu qui teste les avantages de la coopération ou de la désertion de la coopération. C'est certainement le jeu le plus étudié de toute la théorie des jeux.

L'analyse du dilemme du prisonnier est comme un jeu répétitif. Cela donne aux compétiteurs la possibilité de se venger de leur défection lors des tours précédents du jeu. De nombreuses stratégies ont été testées ; les meilleures stratégies compétitives sont la coopération générale avec une riposte réservée si nécessaire. La plus célèbre et l'une des plus réussies est "un prêté pour un rendu" qui peut se modéliser par un algorithme simple.

procedure tit-for-tat
EventBit:=Trust;

do while Contest=ON;
    if Eventbit=Trust then
        Cooperate 
    else
        Defect;
    
    if Opponent_Move=Cooperate then 
        EventBit:=Trust 
    else 
        Eventbit:=NOT(Trust);
end;

Le gain pour un tour de jeu est défini par la matrice de gain pour un tour de jeu unique (indiqué dans le diagramme à barres numéro 1 ci-dessous). Dans les jeux à plusieurs tours, les différents choix – Coopérer ou Défection – peuvent être pris à n'importe quel tour, entraînant un certain gain. Toutefois, ce sont les éventuels gains cumulés sur plusieurs tours qui comptent dans la détermination des gains globaux pour différentes stratégies à plusieurs tours telles que "un prêté pour un rendu".

Les gains dans deux variétés de jeu de dilemme du prisonnier. Dilemme du prisonnier : coopérer ou trahir ? Bénéfice_{[tentation de trahir vs coopération]} > Bénéfice_{[coopération mutuelle]} Bénéfice_{[trahison mutuelle]} > Bénéfice_{[le pigeon coopère mais l'opposant le trahit]}

Exemple 1 : Le jeu simple du dilemme du prisonnier à un tour. Le jeu classique du dilemme du prisonnier donne au joueur un maximum de gains s'il fait défection (trahison) et si son partenaire coopère (ce choix est connu sous le nom de tentation). Si toutefois le joueur coopère et que son partenaire est défaillant, il obtient le pire résultat possible (les "pigeons" payent). Dans ces conditions, le meilleur choix (un équilibre de Nash) est de faire défection.

Exemple 2 : Le dilemme du prisonnier joué sur plusieurs tours. La stratégie employée est le "un prêté pour un rendu" qui modifie les comportements en fonction de l'action entreprise par un partenaire lors du tour précédent – c'est-à-dire récompenser la coopération et punir la défection. L'effet de cette stratégie sur les gains accumulés au cours de nombreux tours est de produire un gain plus élevé pour la coopération des deux joueurs et un gain plus faible pour la défection. Cela supprime la tentation de faire défection. Le gain des "pigeons" devient également moindre, bien que "l'invasion" par une pure stratégie de défection ne soit pas entièrement éliminée.

Voies vers l'altruisme

Il y a altruisme lorsqu'un individu, à un coût C pour lui-même, exerce une stratégie qui procure un avantage B à un autre individu. Le coût peut consister en une perte de capacité ou de ressource qui contribue à la lutte pour la survie et la reproduction, ou en un risque supplémentaire pour sa propre survie. Les stratégies d'altruisme peuvent se manifester par :

Type	Applies to:	Situation	Mathematical effect
Sélection parentale – (fitness inclusive des compétiteurs apparentés)	Parents – individus génétiquement apparentés	Les participants au Jeu Évolutif sont les gènes de la stratégie. La meilleure récompense pour un individu n'est pas nécessairement la meilleure récompense pour le gène. Dans toute génération, le gène du joueur n'est PAS SEULEMENT chez un individu, il est dans un Groupe d'Apparentés. La sélection naturelle permet d'obtenir la meilleure condition physique possible pour le Groupe d'Apparentés. Par conséquent, les stratégies qui incluent le sacrifice de soi de la part des individus sont souvent gagnantes – des stratégies stables sur le plan de l'évolution. Les animaux doivent vivre en groupe familial pendant une partie du jeu pour que ce sacrifice altruiste puisse avoir lieu.	Les jeux doivent tenir compte de la Fitness Inclusive. La fonction d'aptitude est l'aptitude combinée d'un groupe de concurrents apparentés – chacun pondéré par le degré de parenté – par rapport à la population génétique totale. L'analyse mathématique de cette vision du jeu centrée sur le gène conduit à la règle de Hamilton, selon laquelle la parenté du donneur altruiste doit être supérieure au rapport coût/bénéfice de l'acte altruiste lui-même : R > C / B avec R la parenté, C le coût et B le bénéfice
Réciprocité directe	Compétiteurs qui échangent des faveurs dans des relations par paires (un individu contre un autre)	Une incarnation de la théorie du jeu "Je te gratterai le dos si tu grattes le mien". Une paire d'individus échange des faveurs dans un jeu à plusieurs tours. Les individus sont reconnaissables entre eux en tant que partenaires. Le terme "direct" s'applique parce que la faveur de retour est spécifiquement rendue au partenaire de la paire d'individus uniquement.	Les caractéristiques du jeu à plusieurs tours entraînent un danger de défection et des gains potentiellement moindres en termes de coopération à chaque tour, mais une telle défection peut entraîner une punition au tour suivant – faisant du jeu un dilemme répété pour le prisonnier. C'est pourquoi la famille des stratégies de type "un prêté pour un rendu" passe au premier plan.
Réciprocité indirecte	Les concurrents, apparentés ou non, échangent des faveurs mais sans partenariat. Une faveur retournée est "implicite" mais sans source spécifique identifiée qui doit la donner.	Ce comportement s'apparente à "Je te gratte le dos, tu grattes le dos de quelqu'un d'autre, un autre grattera le mien (probablement)". La faveur retournée ne provient pas d'un partenaire établi en particulier. Le potentiel de réciprocité indirecte existe pour un organisme spécifique s'il vit dans un groupe d'individus qui peuvent interagir sur une longue période de temps. Il a été avancé que les comportements humains dans l'établissement du système moral ainsi que l'utilisation importante d'énergie de la part des individus dans la société humaine pour soutenir leur réputation individuelle sont un effet direct de la dépendance des sociétés à des stratégies de réciprocité indirecte.	Le jeu est très sensible à la défection, car les représailles directes sont impossibles. Par conséquent, la réciprocité indirecte ne fonctionnera pas sans l'établissement d'un score social, une mesure du comportement coopératif passé. Les mathématiques conduisent à une version modifiée de la règle de Hamilton où : Q > C / B où Q (probabilité de connaître le score social) doit être supérieure au rapport coût/bénéfice Les organismes qui utilisent le score social sont appelés Discriminateurs et nécessitent un niveau de connaissance plus élevé que les stratégies de simple réciprocité directe. Comme l'a dit le biologiste évolutionniste David Haig : « Pour la réciprocité directe, il faut un visage ; pour la réciprocité indirecte, il faut un nom. »

La stratégie évolutivement stable

Matrice des gains pour le jeu Faucon-Colombe avec l'ajout de la stratégie de l'évaluateur. Celui-ci "étudie son adversaire", se comportant comme un faucon lorsqu'il est jumelé à un adversaire qu'il juge "plus faible", comme une colombe lorsque l'adversaire semble plus grand et plus fort. Le fait de jouer comme Assesseur est une ESS, car l'Assessur peut envahir les populations de faucons et de colombes, et peut résister à l'invasion de mutants de faucons ou de colombes.

La stratégie évolutivement stable (SSE ou ESS en anglais) s'apparente à l'équilibre de Nash dans la théorie classique des jeux, mais avec des critères mathématiquement étendus. L'équilibre de Nash est un équilibre de jeu où il n'est pas rationnel pour un joueur de s'écarter de sa stratégie actuelle, à condition que les autres adhèrent à leurs stratégies. Une ESS est une dynamique d'état de jeu où, dans une très grande population de concurrents, une autre stratégie mutante ne peut pas réussir à entrer dans la population pour perturber la dynamique existante (qui elle-même dépend de la composition de la population). Par conséquent, une stratégie réussie (avec une ESS) doit être à la fois efficace contre les concurrents lorsqu'elle est rare – pour entrer dans la population concurrente précédente, et réussie lorsque, plus tard, en forte proportion dans la population – pour se défendre. Cela signifie que la stratégie doit être couronnée de succès lorsqu'elle est en compétition avec d'autres exactement comme elle.

Une ESS n'est pas :

une stratégie optimale : cela maximiserait la fitness, et de nombreux états de l'ESS sont bien en dessous de la fitnessmaximale réalisable dans un paysage de fitness (voir le graphique Faucon-Colombe ci-contre à titre d'exemple) ;
une solution singulière : souvent, plusieurs conditions de l'ESS peuvent exister dans une situation de compétition ; une compétition particulière peut se stabiliser dans l'une de ces possibilités, mais plus tard, une perturbation majeure des conditions environnementales peut faire passer la solution dans l'un des états alternatifs de l'ESS ;
toujours présente : il est possible qu'il n'y ait pas d'ESS ; un exemple de jeu évolutif sans ESS est le jeu pierre-papier-ciseaux, qu'on retrouve chez des espèces comme le lézard à taches latérales (Uta stansburiana) ;
une stratégie imbattable : l'ESS n'est qu'une stratégie inviolable.

Les individus femelles des araignées à toile entonnoir (Agelenopsis aperta) s'affrontent pour la possession des toiles des araignées du désert en utilisant la stratégie de l'Assesseur.

L'état de l'ESS peut être résolu soit en explorant la dynamique du changement de population pour déterminer une ESS, soit en résolvant des équations pour les conditions de point stationnaire stable qui définissent une ESS. Par exemple, dans le jeu Faucon-Colombe, nous pouvons chercher s'il existe une condition de mélange de population statique où la forme physique des colombes sera exactement la même que celle des faucons (les deux ayant donc des taux de croissance équivalents – un point statique).

Soit p la chance de rencontrer un Faucon ; alors la chance de rencontrer une colombe est $1-p$

Soit WFaucon = gain de Faucon

WFaucon = Gain dans la chance de rencontrer une Colombe + Gain dans la chance de rencontrer un Faucon

Prenons les résultats de la matrice de gains et intégrons-les dans l'équation ci-dessus :

$WFaucon=V\times (1-p)+(V/2-C/2)\times p$

De la même façon pour une Colombe :

$WColombe=V/2\times (1-p)+0\times p$

Ainsi :

$WColombe=V/2\times (1-p)$

Équilibrage des deux fitness, Faucon et Colombe :

$V\times (1-p)+(V/2-C/2)\times p=V/2\times (1-p)$

Et résolution pour p :

$p=V/C$

Ainsi pour ce "point statique" où le Pourcentage de Population est une ESS, la résolution est $ESS_{(}pourcentageFaucon)=V/C$ .

De même, en utilisant les inégalités, on peut montrer qu'un mutant supplémentaire de Faucon ou de Colombe entrant dans cet état de l'ESS finit par être moins adapté à son espèce – à la fois un véritable équilibre de Nash et un équilibre de l'ESS. Cet exemple montre que lorsque les risques de blessure ou de décès en compétition (représentés par le coût C) sont nettement supérieurs à la récompense potentielle (représentée par la valeur de bénéfice V), la population stable sera mélangée entre les agresseurs et les Colombes, et la proportion de Colombes dépassera celle des agresseurs. Cela explique les comportements observés dans la nature.

Jeux instables, schémas cycliques

Pierre-papier-ciseaux

Invasion de mutants dans la matrice de gain du jeu "pierre-papier-ciseaux" – un cycle sans fin.

Un jeu d'évolution qui s'avère être un jeu d'enfants est le jeu pierre-papier-ciseaux. Le jeu est simple : la pierre bat les ciseaux (les casse), les ciseaux battent le papier (le coupent) et le papier bat la pierre (l'enveloppe). Tous ceux qui ont déjà joué à ce jeu simple savent qu'il n'est pas judicieux d'avoir un coup favori : l'adversaire s'en rendra vite compte et passera au contre-coup gagnant. La meilleure stratégie (un équilibre de Nash) consiste à jouer un coup aléatoire mixte avec l'un des trois coups pris un tiers du temps. En termes de théorie évolutive des jeux, il s'agit d'une stratégie mixte. Mais de nombreuses formes de vie sont incapables d'avoir un comportement mixte – elles ne présentent qu'une seule stratégie (dite pure). Si le jeu est joué uniquement avec les stratégies pures de la pierre, du papier et des ciseaux, le jeu évolutif est dynamiquement instable : les mutants Pierre peuvent prendre le dessus sur une population tout en Ciseaux, mais ensuite les mutants Papier peuvent prendre le dessus sur une population tout en Pierre, mais ensuite les mutants Ciseaux peuvent prendre le dessus sur une population tout en Papier – et ainsi de suite... Cela se voit facilement sur la matrice des gains du jeu où, si les chemins d'invasion des mutants sont notés, on peut voir que les "chemins d'invasion" des mutants forment une boucle. Cela déclenche un schéma d'invasion cyclique.

On a incorporé le "pierre-papier-ciseaux" dans un jeu évolutif afin de modéliser les processus naturels dans l'étude de l'écologie. En utilisant des méthodes d'économie expérimentale, les scientifiques ont utilisé le jeu PPC pour tester en laboratoire les comportements dynamiques évolutifs de la société humaine. Des comportements sociaux cycliques, prédits par la théorie évolutive des jeux, ont été observés dans le cadre de diverses expériences de laboratoire.

Le lézard à taches latérales

Le lézard à taches latérales utilise efficacement une stratégie pierre-papier-ciseaux en période de reproduction.

Le lézard à taches latérales (Uta stansburiana) est un lézard polymorphe à trois formes (morphes) dont chacune adopte une stratégie d'accouplement différente :

L'individu à gorge orange est très agressif et opère sur un vaste territoire – il tente de s'accoupler avec de nombreuses femelles dans cette zone plus étendue.
L'individu à gorge jaune non agressif imite les marques et le comportement des lézards femelles, et se glisse "furtivement" dans le territoire des "gorges oranges" pour s'accoupler avec les femelles qui s'y trouvent (prenant ainsi le contrôle de la population).
L'individu à gorge bleue s'accouple avec une femelle et la garde soigneusement – ce qui rend impossible la réussite des "pirates" (sneakers) et donc prend leur place dans une population.

Cependant, les "gorges bleues" ne peuvent pas supplanter les "gorges oranges" plus agressives. La situation globale correspond au jeu "pierre, ciseaux, papier" (dans cet ordre), créant un cycle de population de six ans. Lorsqu'il a appris que ces lézards étaient essentiellement engagés dans un jeu de structure pierre-papier-ciseaux, John Maynard Smith se serait exclamé : « Ils ont lu mon livre ! »

Signalement, sélection sexuelle et la théorie du handicap

Une simulation sur ordinateur du jeu "pierre-papier-ciseaux". La matrice des gains associée à ce jeu est affichée sur la figure. En partant d'une population arbitraire, le pourcentage des trois formes s'accumule pour former un cycle continu.

Outre la difficulté d'expliquer comment l'altruisme existe chez de nombreux organismes évolués, Darwin a également été gêné par une deuxième énigme : pourquoi un nombre important d'espèces ont-elles des attributs phénotypiques qui leur sont manifestement défavorables en ce qui concerne leur survie – et devrait-on, par le processus de la section naturelle, choisir contre, par exemple, la structure massive de plumes gênantes que l'on trouve dans la queue d'un paon ? À ce sujet, Darwin a écrit à un collègue : « La vue d'une plume dans la queue d'un paon, chaque fois que je la regarde, me rend malade. » Ce sont les mathématiques de la théorie évolutive des jeux qui ont non seulement expliqué l'existence de l'altruisme mais aussi l'existence totalement contre-intuitive de la queue du paon et d'autres encombrements biologiques de ce type.

La queue du paon peut être considérée comme un exemple de théorie du handicap en action.

À l'analyse, les problèmes de la vie biologique ne sont pas du tout différents des problèmes qui définissent l'économie : se nourrir (qui s'apparente à l'acquisition et à la gestion des ressources), survivre (stratégie compétitive) et se reproduire (investissement, risque et rendement). La théorie des jeux a été conçue à l'origine comme une analyse mathématique des processus économiques et c'est d'ailleurs la raison pour laquelle elle s'est révélée si utile pour expliquer tant de comportements biologiques. Un autre affinement important du modèle de la théorie évolutive des jeux qui a des connotations économiques repose sur l'analyse des coûts. Un modèle simple de coût suppose que tous les compétiteurs subissent la même pénalité imposée par les coûts du jeu, mais ce n'est pas le cas. Les joueurs les plus performants seront dotés ou auront accumulé une "réserve de richesse" ou une "accessibilité" plus élevée que les joueurs moins performants. Cet effet de richesse dans la théorie évolutive des jeux est représenté mathématiquement par le "potentiel de détention des ressources" (PDR ou RHP pour resource holding potential en anglais) et montre que le coût effectif pour un concurrent ayant un PDR plus élevé n'est pas aussi important que pour un concurrent ayant un PDR plus faible. Comme un individu ayant un PDR élevé est plus désirable pour produire une progéniture potentiellement réussie, il est logique qu'avec la sélection sexuelle, le PDR ait évolué pour être signalé d'une manière ou d'une autre par les rivaux concurrents, et pour que cela fonctionne, cette signalisation doit être faite de façon honnête. Amotz Zahavi a développé ce raisonnement dans ce que l'on appelle la théorie du handicap, selon lequel les meilleurs compétiteurs signalent leur supériorité de façon coûteuse. Comme les personnes ayant un PDR élevé peuvent se permettre un "affichage" (de leurs caractéristiques) aussi coûteux, ce signalement est intrinsèquement honnête et peut être considéré comme tel par le récepteur du signal. Le plumage magnifique et coûteux du paon est la meilleure illustration de ce phénomène dans la nature. La preuve mathématique du principe du handicap a été développée par Alan Grafen à l'aide d'une modélisation évolutionniste de la théorie des jeux.

Coévolution

Deux types de dynamiques ont été abordés jusqu'à présent dans cet article :

les jeux évolutifs qui conduisent à une situation stable ou à un point de stase (fixe) pour les stratégies compétitives qui aboutissent à une stratégie stable sur le plan de l'évolution ;
les jeux évolutifs qui présentent un comportement cyclique (comme le jeu pierre-papier-ciseaux) où les proportions des stratégies en compétition évoluent continuellement dans le temps au sein de la population globale.

Coévolution compétitive : le triton à peau rugueuse (Tarricha granulosa) est très toxique, en raison d'une course aux armements évolutive avec un prédateur, la couleuvre obscure (Thamnophis sirtalis), qui à son tour est très tolérante au poison. Ces deux espèces sont engagées dans une course à l'armement de la Reine Rouge.

Coévolution mutualiste: l'orchidée de Darwin (Angraecum sesquipedale) et le sphinx de Morgane (Xanthopan morgani) ont une relation mutualiste dans laquelle le papillon de nuit se charge du pollen en échange de nectar, et la fleur est pollinisée en retour.

Une troisième dynamique, la coévolution, combine la compétition intraspécifique et interspécifique. Des exemples incluent la compétition prédateur-proie et la co-évolution hôte-parasite, ainsi que le mutualisme. Des modèles de jeu évolutifs ont été créés pour les systèmes coévolutifs par paires d'espèces et multi-espèces. La dynamique générale diffère entre les systèmes compétitifs et les systèmes mutualistes.

Dans un système coévolutif inter-espèces compétitif (non mutualiste), les espèces sont impliquées dans une course aux armements, où les adaptations qui sont les meilleures pour concurrencer les autres espèces ont tendance à être préservées. Les gains du jeu et la dynamique des réplicateurs en sont le reflet. Cela conduit à une dynamique de la Reine Rouge où les protagonistes doivent « courir aussi vite qu'ils le peuvent pour simplement rester en un seul et même endroit ».

Un certain nombre de modèles de théorie évolutive des jeux ont été construits pour englober les situations de coévolution. Un facteur-clé applicable dans ces systèmes coévolutifs est l'adaptation continue de la stratégie dans ces courses aux armements. La modélisation coévolutive inclut donc souvent des algorithmes génétiques pour refléter les effets de mutation, tandis que les ordinateurs simulent la dynamique du jeu coévolutif global. La dynamique qui en résulte est étudiée au fur et à mesure que divers paramètres sont modifiés. Parce que plusieurs variables sont simultanément en jeu, les solutions deviennent le domaine de l'optimisation multi-variable. Les critères mathématiques de détermination des points stables sont l'optimum de Pareto et la dominance de Pareto, une mesure des pics d'optimalité des solutions dans les systèmes multivariables.

Carl Bergstrom et Michael Lachmann appliquent la théorie évolutive des jeux à la répartition des bénéfices dans les interactions mutualistes entre organismes. Les hypothèses darwiniennes sur l'aptitude sont modélisées à l'aide de la dynamique des réplicateurs pour montrer que l'organisme évoluant à un rythme plus lent dans une relation mutualiste obtient une part disproportionnée des bénéfices ou des gains.

Élargir le modèle

Un modèle mathématique analysant le comportement d'un système doit à la base être aussi simple que possible pour aider à développer une base de compréhension des fondamentaux, ou "effets du premier ordre", relatifs à ce qui est étudié. Une fois cette compréhension en place, il convient alors de voir si d'autres paramètres, plus subtils ("effets de second ordre"), ont un impact supplémentaire sur les comportements primaires, ou façonnent des comportements supplémentaires dans le système. À la suite des travaux fondateurs de Maynard Smith sur la théorie évolutive des jeux, le sujet a connu un certain nombre d'extensions très importantes qui ont permis de mieux comprendre la dynamique de l'évolution, notamment dans le domaine des comportements altruistes. Ci-dessous deux exemples de ces extensions-clés de la théorie évolutive des jeux.

Dans un jeu d'évolution spatiale, les concurrents se rencontrent dans des compétitions à des positions fixes sur la grille et n'interagissent qu'avec leurs voisins immédiats. Voici la dynamique d'une compétition de type Faucon-Colombe, montrant les compétiteurs Faucon et Colombe ainsi que les changements de stratégie ayant lieu dans les différentes cellules.

Jeux spatiaux

Les facteurs géographiques de l'évolution comprennent le flux de gènes et le transfert horizontal de gènes. Les modèles de jeux spatiaux représentent la géométrie en plaçant les participants dans un réseau de cellules : les compétitions ont lieu uniquement avec les voisins immédiats. Les stratégies gagnantes s'emparent de ces voisinages immédiats et interagissent ensuite avec les voisinages adjacents. Ce modèle est utile pour montrer comment des poches de coopérants peuvent envahir et introduire de l'altruisme dans le jeu du dilemme du prisonnier, où "un prêté pour un rendu" (TFT en anglais pour tit for tat) est un équilibre de Nash mais PAS également une ESS. La structure spatiale est parfois abstraite en un réseau général d'interactions, ce qui constitue le fondement de la théorie des graphes évolutifs.

Effets causés par le fait d'avoir des informations

Dans la théorie évolutive des jeux, comme dans la théorie des jeux conventionnelle, l'effet de la signalisation (l'acquisition d'informations) est d'une importance capitale, comme dans le dilemme du prisonnier avec réciprocité indirecte (où les compétitions entre les MÊMES paires d'individus ne sont PAS répétitives). Cela modélise la réalité de la plupart des interactions sociales normales qui ne sont pas liées à la famille. À moins qu'une mesure de probabilité de la réputation ne soit disponible dans le dilemme du prisonnier, seule une réciprocité directe peut être obtenue. Cette information permet également de soutenir une réciprocité indirecte.

Alternativement, les agents peuvent avoir accès à un signal arbitraire initialement non corrélé à la stratégie mais qui y devient corrélé en raison de la dynamique évolutive. C'est l'effet Green-beard ou l'évolution de l'ethnocentrisme chez les humains. Selon le jeu considéré, il peut permettre l'évolution d'une coopération ou d'une hostilité irrationnelle.

Du niveau moléculaire au niveau multicellulaire, un modèle de jeu de signalisation avec asymétrie d'information entre l'émetteur et le récepteur pourrait être approprié, comme dans l'attraction d'un(e) partenaire d'accouplement ou l'évolution de la machinerie de traduction à partir des chaînes d'ARN.

Populations finies

De nombreux jeux évolutifs ont été modélisés en populations finies pour voir l'effet que cela peut avoir, par exemple, dans le succès des stratégies mixtes.

Voir aussi

Notes

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Evolutionary game theory » (voir la liste des auteurs).

Références

Bibliographie complémentaire

Davis, Morton,; "Game Theory – A Nontechnical Introduction", Dover Books, (ISBN 0-486-29672-5)
Dawkins, Richard; "The Selfish Gene", Oxford University Press, (ISBN 0-19-929114-4)
Dugatkin and Reeve; "Game Theory and Animal Behavior", Oxford University Press, (ISBN 0-19-513790-6)
Hofbauer and Sigmund; "Evolutionary Games and Population Dynamics", Cambridge University Press, (ISBN 0-521-62570-X)
Kohn, Marek; "A Reason for Everything", Faber and Faber, (ISBN 0-571-22393-1)
Sandholm, William H.; "Population Games and Evolutionary Dynamics", The MIT Press, (ISBN 0262195879)
Segerstrale, Ullica; "Nature's Oracle - The life and work of W.D. Hamilton", Oxford University Press, 2013, (ISBN 978-0-19-860727-4)
Sigmund, Karl; "Games of Life", Penguin Books, also Oxford University Press, 1993, (ISBN 0198547838)
Vincent and Brown; "Evolutionary Game Theory, Natural Selection and Darwinian Dynamics", Cambridge University Press, (ISBN 0-521-84170-4)

Liens externes

(en) Théorie évolutive des jeux sur l'Encyclopédie de Philosophie de Stanford
(en) Évolution des écologies morales artificielles au Centre d'éthique appliquée de l'Université de Colombie britannique
(en) Théorie évolutive des jeux sur Curlie
(en) Web of Stories, Interview - Vie et Oeuvre - de John Maynard Smith, par Richard Dawkins

Portail de l’économie
Portail des mathématiques

Théorie évolutive des jeux

Histoire

Théorie classique des jeux

Le problème du comportement ritualisé

Adapter la théorie classique des jeux vers la théorie évolutive des jeux

Jeux évolutifs

Modèles

Faucon-colombe

Guerre d'usure

Asymétries permettant l'apparition de nouvelles stratégies

Comportement social

Batailles de gènes égoïstes

Eusocialité et sélection parentale

Dilemme du prisonnier

Voies vers l'altruisme

La stratégie évolutivement stable

Jeux instables, schémas cycliques

Pierre-papier-ciseaux

Le lézard à taches latérales

Signalement, sélection sexuelle et la théorie du handicap

Coévolution

Élargir le modèle

Jeux spatiaux

Effets causés par le fait d'avoir des informations

Populations finies

Voir aussi

Notes

Références

Articles connexes

Bibliographie complémentaire

Liens externes