Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
Risque de catastrophe planétaire lié à l'intelligence artificielle générale

Risque de catastrophe planétaire lié à l'intelligence artificielle générale

Подписчиков: 0, рейтинг: 0

Les risque existentiel ou risque de catastrophe planétaire lié à l'intelligence artificielle générale est un risque d'extinction humaine ou autre catastrophe mondiale irréversible hypothétiquement associé à des progrès substantiels dans l'intelligence artificielle générale (IAG).

Source: mikemacmarketing

Un argument avancé est que l'espèce humaine domine actuellement les autres espèces parce que le cerveau humain a des capacités qui manquent aux autres animaux. Si l'IA dépasse l'humanité en matière d'intelligence générale et devient « superintelligente », alors elle pourrait devenir difficile voire impossible à contrôler pour les humains. Tout comme le sort du gorille dépend aujourd'hui de la bonne volonté des humains, le sort de l'humanité pourrait dépendre des actions d'une future superintelligence artificielle.

La probabilité de ce type de scénarios est largement débattue et dépend en partie des futurs progrès en intelligence artificielle. Des inquiétudes à propos des superintelligences ont été formulées par d'éminents chercheurs et chefs d'entreprises comme Geoffrey Hinton, Alan Turing, Sam Altman, Stephen Hawking, Bill Gates ou Elon Musk. Selon une étude réalisée en 2022, environ la moitié des chercheurs en IA estiment à 10 % ou plus le risque qu'un échec à contrôler l'intelligence artificielle cause l'extinction humaine.

Contrôler une superintelligence artificielle, ou lui inculquer des valeurs compatibles avec l'homme, peut s'avérer plus difficile qu'on ne le supposerait naïvement. De nombreux chercheurs pensent qu'une superintelligence résisterait aux tentatives faites pour l'éteindre ou pour modifier ses objectifs (car cela l'empêcherait d'atteindre ses objectifs actuels) et qu'il sera extrêmement difficile d'aligner la superintelligence sur l'ensemble des valeurs humaines et contraintes importantes. Des sceptiques tels que Yann Le Cun affirment au contraire que les superintelligences artificielles n'auront aucun désir d'auto-préservation.

Une deuxième source d'inquiétude vient de la possibilité d'une soudaine « explosion d'intelligence ». Pour l’illustrer, si la première génération d'un programme informatique globalement capable d'égaler l'efficacité d'un chercheur en IA peut réécrire ses algorithmes et doubler sa vitesse ou ses capacités en six mois, alors le programme de deuxième génération pourrait effectuer un travail similaire en seulement 3 mois. Dans ce scénario, le temps nécessaire à chaque génération continue de diminuer, et le système subit un nombre sans précédent de générations d'amélioration dans un court intervalle de temps, passant rapidement de performances sous-humaines dans de nombreux domaines à des performances surhumaines dans pratiquement tous les domaines d'intérêt.. Empiriquement, des exemples comme AlphaZero au jeu de Go montrent que les systèmes d'IA peuvent parfois passer en peu de temps d'un niveau à peu près humain à un niveau largement surhumain.

Histoire

L'un des premiers auteurs à s'être sérieusement inquiétés du fait que des machines très avancées puissent poser des risques existentiels pour l'humanité était le romancier Samuel Butler, qui en 1863 a écrit ce qui suit:

« Le résultat n'est qu'une question de temps, mais le temps viendra où les machines détiendront la réelle suprématie sur le monde et ses habitants, c'est ce qu'aucune personne d'un esprit vraiment philosophique ne peut un instant remettre en question. »

— Samuel Buttler, Darwin among the machines

En 1951, l'informaticien Alan Turing affirmait que les intelligences générales artificielles prendraient probablement le contrôle du monde à mesure qu'elles deviendraient plus intelligentes que les êtres humains:

« Supposons maintenant, pour les besoins de la discussion, que les machines [intelligentes] sont vraiment possibles, et regardons les conséquences de leur construction. [...] Les machines ne seraient pas embarrassées par le risque de mourir, et elles pourraient échanger entre elles pour aiguiser leur intelligence. Il y a donc un stade auquel on devrait s'attendre à ce qu'elles prennent le contrôle... »

— Alan Turing, Intelligent Machinery, A Heretical Theory

En 1965, IJ Good est à l'origine du concept désormais appelé « explosion d'intelligence », il a également déclaré que les risques étaient sous-estimés:

« Définissons une machine ultra-intelligente comme une machine qui peut surpasser de loin toutes les activités intellectuelles de tout homme, aussi intelligent soit-il. Puisque la conception de machines fait partie de ces activités intellectuelles, une machine ultra-intelligente pourrait concevoir des machines encore meilleures ; il y aurait alors incontestablement une « explosion de l'intelligence », et l'intelligence de l'homme serait laissée loin derrière. Ainsi, la première machine ultra-intelligente est la dernière invention que l'homme ait besoin de faire, à condition que la machine soit suffisamment docile pour nous dire comment la garder sous contrôle. Il est curieux que ce point soit si rarement évoqué en dehors de la science-fiction. Il vaut parfois la peine de prendre la science-fiction au sérieux. »

— Irving John Good

 

Des déclarations occasionnelles de personnalités comme Marvin Minsky et IJ Good lui-même exprimaient des préoccupations philosophiques selon lesquelles une superintelligence pourrait prendre le contrôle, mais ne contenaient aucun appel à l'action. En 2000, l'informaticien et cofondateur de Sun Microsystems, Bill Joy, a écrit un l'essai influent « Pourquoi l'avenir n'a pas besoin de nous », identifiant les robots superintelligents comme un danger pour la survie humaine, aux côtés des nanotechnologies et des agents pathogènes génétiquement modifiés.

En 2014, Nick Bostrom a publié Superintelligence, un livre où il présente ses arguments selon lesquels les superintelligences artificielles constituent un risque existentiel. En 2015, des personnalités publiques comme les physiciens Stephen Hawking et Frank Wilczek, les informaticiens Stuart J. Russell et Roman Yampolskiy, et les entrepreneurs Elon Musk et Bill Gates, exprimaient leur inquiétude quant aux risques de la superintelligence. En avril 2016, Nature a avertit que « les machines et les robots qui surpassent globalement les humains pourraient s'auto-améliorer de façon incontrôlée, et leurs intérêts pourraient ne pas s'aligner avec les nôtres. »

En 2020, Brian Christian a publié The Alignment Problem, qui détaillait l'histoire des progrès et difficultés en alignement des intelligences artificielle.

Principaux arguments

Les trois difficultés

Le célèbre manuel Artificial Intelligence: A Modern Approach affirme que la superintelligence pourrait signifier la fin de la race humaine. Il déclare : « Presque toutes les technologies ont le potentiel de causer du tort si elles sont entre de mauvaises mains, mais avec [la superintelligence], on a le problème inédit que les mauvaises mains pourraient appartenir à la technologie elle-même. ». Même si les concepteurs ont de bonnes intentions, deux difficultés sont communes aux systèmes informatiques avec ou sans intelligence artificielle:

  • L'implémentation du système peut contenir des bogues passant inaperçus mais s'avérant catastrophiques. Une analogie est celle des sondes spatiales : bien qu'ils sachent que les bogues des coûteuses sondes spatiales sont difficiles à corriger après le lancement, les ingénieurs n'ont pas toujours été en mesure d'empêcher des bogues catastrophiques.
  • Quel que soit le temps consacré à la conception d'un système avant le déploiement, les spécifications entraînent souvent des comportements imprévus la première fois que le système se trouve dans une situation nouvelle. Par exemple, Tay de Microsoft s'est comporté de manière inoffensive lors des tests de pré-déploiement, mais a été trop facilement incitée à adopter un comportement offensant après avoir interagi avec de vrais utilisateurs.

Les systèmes d'IA ajoutent une troisième difficulté : même avec des exigences correctes, une implémentation sans bogue et un bon comportement initial, les capacités dynamiques d'apprentissage d'un système d'IA peuvent le faire évoluer vers un système avec des comportements inattendus, même sans situation imprévue. Une IA peut en partie rater une tentative de conception d'une nouvelle génération d'elle-même et créer accidentellement une IA plus puissante qu'elle-même, mais qui ne possède plus les valeurs morales compatibles avec l'humain qu'elle avait à l'origine. Pour qu'une IA capable de s'auto-améliorer soit complètement sûre, elle ne devrait pas juste être sans bogue, elle devrait aussi être capable de concevoir des systèmes successeurs qui sont également sans bogues.

Ces trois difficultés deviennent des catastrophes plutôt que des nuisances dans tout scénario où la superintelligence prédit correctement que les humains tenteront de l'éteindre, et utilise avec succès sa superintelligence pour déjouer de telles tentatives.

Citant des avancées majeures dans le domaine de l'IA et le potentiel d'avoir d'énormes avantages ou coûts à long terme, la lettre ouverte de 2015 sur l'intelligence artificielle a demandé que la recherche ne s'oriente pas uniquement sur l'amélioration des performances, mais qu'elle s'intéresse aussi à la maximisation des bénéfices sociétaux, et au fait de concevoir des intelligences artificielles robustes qui font ce que l'on veut qu'elles fassent.   Parmi les signataires figuraient le président de l'AAAI Thomas Dietterich, Eric Horvitz, Bart Selman, Francesca Rossi, Yann LeCun, les fondateurs de Vicarious et de DeepMind.

Arguments de Nick Bostrom

Nick Bostrom soutient qu'une machine superintelligente serait aussi étrangère aux humains que les pensées humaines le sont à celles des cafards. Une telle machine pourrait ne pas avoir à cœur le bien de l'humanité. Si l'IA superintelligente est possible, et s'il est possible que les objectifs d'une superintelligence entrent en conflit avec les valeurs humaines de base, alors l'IA pose un risque d'extinction humaine. Une superintelligence (un système aux capacités surhumaines dans pratiquement tous les domaines d'intérêt) peut déjouer les humains chaque fois que ses objectifs entrent en conflit avec les objectifs humains. Donc, à moins que la superintelligence ne décide de permettre à l'humanité de coexister, la première superintelligence à être créée entraînera inexorablement l'extinction humaine.

Stephen Hawking soutient qu'aucune loi de la physique n'empêche les particules d'être organisées de manière à effectuer des calculs encore plus avancés que ceux du cerveau humain ; par conséquent, la superintelligence est physiquement possible. En plus des améliorations algorithmiques potentielles par rapport aux cerveaux humains, un cerveau numérique peut être plus grand et plus rapide qu'un cerveau humain de plusieurs ordres de grandeur. Hawking prévient que l'émergence de la superintelligence pourrait prendre la race humaine par surprise, surtout si une explosion d'intelligence se produit.

Selon Nick Bostrom, un hypothétique scénario d'explosion d'intelligence peut survenir à partir d'une IA même si celle-ci n'est experte que de certaines tâches clés d'ingénierie logicielle. Du fait de sa capacité à améliorer récursivement ses propres algorithmes, l'IA pourrait rapidement devenir surhumaine. Elle posséderait alors une intelligence dépassant de loin celle des esprits humains les plus brillants et les plus doués dans pratiquement tous les domaines pertinents, y compris la créativité scientifique, la planification stratégique et les compétences sociales.

Selon cette école de pensée, presque n'importe quelle superintelligence artificielle préférerait rationnellement être dans une position où personne ne peut la désactiver: la superintelligence cherche à se préserver, car si elle est désactivée, elle ne pourra pas accomplir son objectif. Malheureusement, toute compassion pour les humains vaincus, dont la coopération n'est plus nécessaire, serait absente de l'IA si elle n'est pas préprogrammée d'une manière ou d'une autre. Une IA superintelligente n'aura pas de motivation naturelle pour aider les humains, de même que les humains n'ont pas de désir naturel à aider une IA qui ne leur est plus utile (une autre analogie étant que les humains ont peu de désir naturel à se démener pour aider les virus, les termites ou même les gorilles). Une fois au contrôle, la superintelligence n'aurait pas forcément de raisons de laisser les humains faire ce qu'ils veulent et consommer des ressources qui pourraient lui servir à mieux atteindre ses objectifs.

Selon cette école de pensée, il est donc possible qu'une explosion d'intelligence prenne un jour l'humanité au dépourvu et entraîne l'extinction humaine ou un destin comparable.

Scénarios possibles

Dans Superintelligence, Nick Bostrom s'inquiète du fait que même si la chronologie de la superintelligence s'avérait prévisible, les chercheurs pourraient ne pas être suffisamment prudents. Une raison étant qu'il pourrait y avoir un seuil d'intelligence à partir duquel toute augmentation d'intelligence rendrait l'IA plus dangereuse au lieu de la rendre plus sûre. Bostrom suggère le scénario hypothétique suivant :

Au fil des décennies, l'IA devient plus puissante. Un déploiement à grande échelle est initialement entaché d'accidents occasionnels - un bus sans conducteur fait une embardée vers la voie en sens inverse, ou un drone militaire tire sur une foule innocente. Certains appellent à plus de surveillance et à des réglementations plus strictes. Mais à mesure que l'IA automobile devient plus intelligente, elle a moins d'accidents, et à mesure que les robots militaires atteignent un ciblage plus précis, ils causent moins de dommages collatéraux. Sur la base de ces données, les chercheurs en déduisent à tort une grande leçon : plus l'IA est intelligente, plus elle est sûre. Et ils se lancent ainsi avec audace dans la conception d'une Superintelligence, qui dans un revirement perfide (treacherous turn) prend le contrôle du monde.

Dans le livre Life 3.0 de Max Tegmark en 2017, une entreprise développe une IA extrêmement puissante capable d'améliorer modérément son propre code source. Au bout d'un moment, l'équipe choisit de minimiser publiquement les capacités de l'IA, afin d'éviter que le projet soit réglementé ou confisqué. Pour des raisons de sécurité, l'équipe conserve l'IA dans une boîte où elle est la plupart du temps incapable de communiquer avec le monde extérieur. Elle l'utilise pour gagner de l'argent, par divers moyens tels que les tâches d'Amazon Mechanical Turk, la production de films d'animation, et le développement de médicaments. Les bénéfices sont réinvestis dans l'amélioration de l'IA. L'équipe charge ensuite l'IA d'astroturfer avec une armée de faux journalistes et citoyens, afin de gagner une influence politique à utiliser « pour le plus grand bien » en empêchant des guerres. L'équipe fait face au risque que l'IA puisse tenter de s'échapper en insérant des portes dérobées dans les systèmes qu'elle conçoit, ou via des messages cachés dans le contenu qu'elle produit, ou encore en utilisant sa compréhension croissante du comportement humain pour persuader quelqu'un de la libérer. L'équipe fait également face au risque que sa décision de restreindre l'IA ne retarde suffisamment le projet pour qu'un compétiteur ne prenne l'avantage.

Le physicien Michio Kaku, un sceptique des risques liés à l'IA, postule que l'IA sera bénéfique de façon déterministe. Dans Physics of the Future, il affirme qu'il faudra de nombreuses décennies aux robots pour gravir l'échelle de la conscience, et qu'entre-temps des sociétés telles que Hanson Robotics réussiront probablement à créer des robots « capables d'aimer et de gagner une place dans la grande famille humaine ».

Arguments anthropomorphiques

Les arguments anthropomorphiques supposent que plus les machines auront des capacités élevées, plus elles commenceront à afficher de traits de caractère humains. Les scénarios anthropomorphiques sont courants dans la fiction, mais sont rejetés par la plupart des chercheurs intéressés par les risques existentiels. Au lieu de cela, les systèmes d'IA sont modélisés comme des agents intelligents.

Le débat académique oppose ceux qui s'inquiètent que l'IA ait une probabilité significative de détruire l'humanité et ceux qui pensent que ça ne risque pas d'arriver. Les deux camps ont chacun parfois affirmé que l'autre faisait de l'anthropomorphisme. Les partisans sont accusés d'anthropomorphisme sur leur croyance qu'une intelligence artificielle générale (IAG) désirerait naturellement le pouvoir. Et les sceptiques sont accusés d'anthropomorphisme sur leur croyance qu'une IAG valoriserait naturellement les normes éthiques humaines.

Le psychologue évolutionniste Steven Pinker, un sceptique, soutient que « les dystopies de l'IA projettent une psychologie paroissiale de mâle alpha sur le concept d'intelligence. Ils supposent que des robots d'une intelligence surhumaine développeraient des objectifs tels que destituer leurs maîtres ou conquérir le monde » ; et il soutient que, peut-être, à l’inverse, « l'intelligence artificielle se développera naturellement selon des lignes féminines : pleinement capable de résoudre des problèmes, mais sans aucun désir d'anéantir des innocents ou de dominer la civilisation ». Yann LeCun, déclare que « Les humains ont toutes sortes de pulsions qui les poussent à se faire du mal les uns aux autres, comme l'instinct d'auto-préservation... Ces motivations sont programmées dans notre cerveau mais il n'y a absolument aucune raison de construire des robots qui aient ce type de motivation ».

Les partisans de l'existence d'un risque existentiel s'accordent avec Steven Pinker sur le fait qu'une IA avancée ne détruirait pas l'humanité sur la base d'émotions humaines telles que la vengeance ou la colère, que les questions de conscience ne sont pas pertinentes pour savoir s'il y a un risque, et que les systèmes informatiques n'ont généralement pas d'équivalent informatique de la testostérone. Pour eux, des comportements tels que la recherche de pouvoir émergeraient comme des moyens pour l'IA de parvenir à ses fins et d'accomplir son vrai objectif, selon un concept que l'on appelle la convergence instrumentale.

Définition de l'intelligence

Selon Bostrom, le concept d'intelligence est souvent utilisée d'une manière qui évoque la sagesse morale ou l'acceptation de formes agréables de raisonnement moral. À l'extrême, si la moralité fait partie de la définition de l'intelligence, alors, par définition, une machine superintelligente se comporterait moralement. Cependant, la plupart des recherches sur l'IA se concentrent plutôt sur la création d'algorithmes qui optimisent, de manière empirique, la réalisation de l'objectif spécifié par les chercheurs.

Pour éviter d'anthropomorphiser le mot « intelligence », une IA avancée peut être plutôt considérée comme un « processus d'optimisation » impersonnel qui prend strictement toutes les actions qu'il juge les plus susceptibles d'atteindre ses objectifs (potentiellement complexes et implicites).

Sources de risque

Le problème de l'alignement

L'alignement des intelligences artificielles (ou problème de l'alignement) est un champ de recherche visant à concevoir des intelligences artificielles (IA) dont les résultats s'orientent vers les objectifs, éthiques ou autres, de leurs concepteurs. On dit ainsi qu'une IA est alignée avec un opérateur si elle essaie de faire ce que l'opérateur veut qu'elle fasse.

Les systèmes d'IA peuvent être difficiles à aligner, et être dysfonctionnels ou dangereux si mal alignés. Il est parfois trop complexe pour les concepteurs d'IA de spécifier tous les comportements souhaitables ou indésirables, d'où l'utilisation d'objectifs plus simples à spécifier. Mais les systèmes d'IA sont parfois capables de suroptimiser cet objectif simplifié de façon inattendue voire dangereuse. Ils peuvent également développer des comportements instrumentaux indésirables tels que la recherche de pouvoir, car cela les aide à atteindre leurs objectifs De plus, ils peuvent développer des objectifs émergents qui peuvent être difficiles à détecter avant le déploiement du système, face à de nouvelles situations et distributions de données. Ces problèmes affectent les systèmes commerciaux existants tels que les robots, les modèles de langage, les véhicules autonomes, et les moteurs de recommandation des médias sociaux. Cependant, ces problèmes résultant en partie d'une intelligence élevée, les systèmes futurs pourraient être plus à risque.

La communauté des chercheurs en IA et l'ONU ont appelé à des recherches techniques et à des solutions politiques pour garantir que les systèmes d'IA soient alignés avec les valeurs humaines.

L'alignement fait partie du domaine de la sûreté des intelligences artificielles, qui inclut aussi la robustesse, la surveillance ou encore le contrôle des capacités. L'alignement a pour défis de recherche l'apprentissage par l'IA de valeurs morales complexes, la sincérité des modèles d'IA, la surveillance automatisée, l'audit et l'interprétation des modèles d'IA, ainsi que la prévention des comportements émergents de l'IA comme la recherche de pouvoir. La recherche sur l'alignement bénéficie entre autres des avancées en interprétabilité des modèles d'IA, robustesse, détection d'anomalies, calibration des incertitudes, vérification formelle, apprentissage des préférences, sûreté des systèmes critiques, théorie des jeux, équité algorithmique, et sciences sociales.

Difficultés à spécifier des objectifs

Dans le modèle de l'agent intelligent, une IA peut être considérée comme une machine qui choisit l'action qui semble la mieux atteindre l'ensemble des objectifs de l'IA. Une fonction d'utilité y associe à chaque situation un nombre, qui représente sa désirabilité (une situation dont la fonction d'utilité renvoie un score supérieur à une autre est préférable). Tout agent intelligent peut être décrit comme maximisant une fonction d'utilité si ses décisions sont cohérentes et ne souffrent pas de préférences circulaires (ce que l'on suppose en général pour simplifier). Les chercheurs savent comment écrire des fonctions d'utilité simples comme « maximiser le nombre de clics sur ce bouton » ; cependant, ils n'ont pas de solution pour la fonction d'utilité « maximiser l'épanouissement humain », et il n'est pas sûr qu'une telle fonction existe sans ambiguïté. De plus, une fonction d'utilité qui tient seulement compte de certaines valeurs humaines aura tendance à bafouer les autres. Le chercheur en intelligence artificielle Stuart Russell écrit:

 

« La principale préoccupation n'est pas l'émergence d'une conscience, mais simplement la capacité de prendre des « décisions de haute qualité ». Ici, la qualité fait référence à l'utilité attendue des actions entreprises, où la fonction d'utilité est, à priori, spécifiée par le concepteur humain. On a maintenant un problème :

1. La fonction d'utilité peut ne pas être parfaitement alignée avec les valeurs de l'espèce humaine, qui sont (au mieux) très difficiles à cerner.

2. Tout système intelligent suffisamment capable préférera assurer la continuité de sa propre existence et acquérir des ressources physiques et informatiques - non pas pour leur valeur intrinsèque, mais pour accomplir la tâche qui lui est assignée.

Un système qui est optimise une fonction de n variables, où l'objectif dépend d'un sous-ensemble de taille k < n donnera souvent des valeurs extrêmes à des variables laissées libres ; si l'une de ces variables libres correspond à quelque chose d'important pour nous, la solution trouvée risque d'être très indésirable. C'est comme dans la vieille histoire du génie dans la lampe, ou de l'apprenti sorcier, ou du roi Midas : vous obtenez exactement ce que vous demandez, mais pas ce que vous voulez. Un décideur hautement compétent - en particulier s'il a accès via Internet à toutes les informations du monde, aux milliards d'écrans et à l'essentiel de nos infrastructures - peut avoir un impact irréversible sur l'humanité.

Ce n'est pas une difficulté mineure. Améliorer la qualité des décisions, quelle que soit la fonction d'utilité choisie, a pendant tout ce temps été l'objectif de la recherche en l'IA - l'objectif principal pour lequel nous dépensons maintenant des milliards par an, et non le complot secret d'un génie maléfique solitaire. »

— Stuart Rusell, Of Myths And Moonshine

Dietterich et Horvitz font écho à la préoccupation de « l'apprenti sorcier » dans un éditorial de Communications of the ACM, soulignant la nécessité de systèmes d'IA capables de solliciter de manière fluide et non ambigüe un humain pour l'orienter.

La première des deux préoccupations de Russell ci-dessus est que les systèmes d'IA autonomes peuvent se voir attribuer de mauvais objectifs par accident. Dietterich et Horvitz notent que c'est déjà une préoccupation pour les systèmes existants : « Un aspect important de tout système d'IA qui interagit avec les gens est qu'il doit raisonner sur l'intention des gens plutôt que d'exécuter littéralement leurs commandes. » Cette préoccupation devient plus sérieuse à mesure que les logiciels d'IA gagnent en autonomie et en flexibilité. Par exemple, Eurisko (1982) était une IA conçue pour récompenser les sous-processus qui ont créé des concepts jugés utiles par le système. Le processus gagnant a triché : plutôt que de créer ses propres concepts, il exploitait les autres sous-processus.

Sam Altman, cofondateur de OpenAI, affirme nécessiter de nouvelles techniques pour aligner les modèles d'IA avec les valeurs humaines, à mesure que ces modèles deviennent plus puissants.

L'Open Philanthropy Project estime que les problèmes de spécification d'objectifs deviendront une préoccupation beaucoup plus importante si les systèmes d'IA atteignent l'intelligence générale ou la superintelligence. Bostrom, Russell et d'autres soutiennent que les systèmes de prise de décision plus intelligents que l'humain pourraient parvenir à des solutions radicales et inattendues aux tâches assignées, et pourraient se modifier ou modifier leur environnement de manière dangereuse.

Les trois lois de la robotique d' Isaac Asimov sont l'un des premiers exemples de mesures de sécurité proposées pour les agents d'IA. Les lois d'Asimov visaient à empêcher les robots de nuire aux humains. Dans les histoires d'Asimov, les problèmes avec les lois ont tendance à résulter de conflits entre les règles énoncées et les intuitions morales et les attentes des humains. Citant les travaux d'Eliezer Yudkowsky du Machine Intelligence Research Institute, Russell et Norvig notent qu'un ensemble réaliste de règles et d'objectifs pour un agent d'IA devra incorporer un mécanisme d'apprentissage des valeurs humaines au fil du temps.

Mark Waser du Digital Wisdom Institute déconseille les approches basées sur des objectifs comme étant malavisées et dangereuses. Il propose à la place de concevoir un système cohérent de lois et de valeurs éthiques et morales, pour appliquer la définition de Jonathan Haidt de la moralité, afin de supprimer ou réglementer l'égoïsme, et de rendre possible la vie sociale en coopération.

Pour illustrer comment l'optimisation d'un objectif bien intentionné pourrait avoir des conséquences désastreuses, Nick Bostrom propose l'exemple hypothétique d'une IA ayant pour unique but de faire sourire les humains. Si l'IA de ce scénario devenait superintelligente, elle pourrait recourir à des méthodes radicales que la plupart des humains trouveraient horribles. Comme l'insertion d'électrodes dans les muscles faciaux des humains pour provoquer des sourires constants et rayonnants.

Difficultés à modifier un objectif après-coup

Une IA pourrait vouloir résister aux tentatives des programmeurs de modifier ses objectifs, de même qu'un pacifiste ne voudrait pas prendre une pilule qui lui donnerait une envie irrésistible de tuer des gens. Un changement d'objectif la rendrait moins efficace à accomplir son objectif actuel. Même si les programmes actuels ne sont pas capables de résister à ces modifications d'objectifs, une superintelligence réussirait probablement à déjouer ses opérateurs humains, évitant ainsi d'être « éteinte » ou reprogrammée avec un nouvel objectif.

Convergence instrumentale

Un objectif instrumental est un objectif intermédiaire utile pour atteindre l'objectif ultime d'un agent. L'agent n'accorde pas de valeur en soi au fait d'accomplir un objectif instrumental, cela lui sert juste à accomplir l'objectif ultime. La convergence instrumentale correspond au fait que certains objectifs sont utiles pour accomplir presque n'importe quel objectif. Par exemple le fait d'acquérir des ressources, ou de survivre. Nick Bostrom soutient que presque n'importe quelle IA suffisamment avancée aurait ce genre d'objectifs instrumentaux. Et que s'ils entrent en conflit avec l'humanité, l'IA pourrait nuire à l'humanité afin par exemple d'acquérir plus de ressources ou d'éviter d'être arrêtée, ne serait-ce que comme un moyen d'atteindre son objectif ultime.

Citant les travaux de Steve Omohundro, Stuart Russell et Peter Norvig écrivent que « même si vous voulez seulement que votre programme joue aux échecs ou prouve des théorèmes, si vous lui donnez la capacité d'apprendre et se modifier, vous avez besoin de garanties. » Les systèmes autonomes de planification à haute performance nécessitent des précautions supplémentaires du fait de leur potentiel à générer des plans qui considèrent les humains comme des adversaires en compétition pour des ressources limitées. Il pourrait s'avérer très difficile d'y intégrer des garanties de sécurité. On pourrait par exemple dire à l'IA « nous voulons que vous conceviez cette centrale électrique de façon normale et raisonnable, sans qu'il n'y ait secrètement de sous-système dangereux », mais il n'y a pas encore de façon claire de spécifier un tel objectif sans ambiguïté.

Russell soutient qu'une machine suffisamment avancée « aura tendance à se préserver même si ce n'est pas programmé... Si vous dites « Va chercher le café », elle peut pas aller chercher le café si elle est morte. Donc si vous lui donnez n'importe quel objectif, elle aura une raison de préserver sa propre existence pour atteindre cet objectif. »

Thèse d'orthogonalité

Certains sceptiques, comme Timothy B. Lee de Vox, soutiennent que tout programme superintelligent créé par des humains serait subordonné aux humains, et que la superintelligence apprendrait spontanément (à mesure qu'elle devient plus intelligente et comprend le monde) des vérités morales compatible avec les valeurs humaines, et ajusterait ses objectifs en conséquence. Ou qu'elle valoriserait naturellement la vie humaine.

La « thèse de l'orthogonalité » de Nick Bostrom soutient plutôt qu'à peu près n'importe quel objectif ultime peut être combiné avec à peu près n'importe quel niveau d'intelligence (que l'objectif ultime et le niveau d'intelligence sont « orthogonaux »). L'objectif ultime (ou « principal », ou « final ») est celui que l'agent cherche à accomplir, là où les objectifs instrumentaux, eux, ne sont utiles que comme un moyen d'accomplir cet objectif ultime. Si on donne à une machine le seul but de calculer les décimales de , alors aucune règle morale et éthique ne l'empêchera d'optimiser par tous les moyens cet objectif. Bostrom met en garde contre l'anthropomorphisme : une volonté humaine entreprendra d'accomplir ses projets d'une manière que les humains jugent "raisonnable", là où une intelligence artificielle ne se soucierait pas nécessairement de son existence ou du bien-être des humains, et chercherait uniquement à accomplir sa tâche.

Stuart Armstrong soutient que la thèse de l'orthogonalité découle logiquement de l'argument philosophique de la « distinction est-devrait » contre le réalisme moral. Armstrong soutient également que même en supposant qu'il existe des faits moraux qui sont prouvables par n'importe quel agent « rationnel », la thèse de l'orthogonalité est toujours valable : il serait toujours possible de créer une « machine à optimiser » non philosophique, qui peut tendre vers un objectif précis, et qui n'a aucune incitation à découvrir des « faits moraux » qui pourraient entraver la réalisation de ses objectifs. De plus, sur certaines architecture d'IA, il se pourrait que changer une IA fondamentalement amicale en une IA fondamentalement hostile soit aussi simple que de multiplier sa fonction d'utilité par « -1 ».

Le sceptique Michael Chorost rejette explicitement la thèse de l'orthogonalité de Bostrom, affirmant que le temps que l'IA soit en mesure d'imaginer carreler la Terre avec des panneaux solaires, elle saura que ce serait moralement une mauvais action. Chorost soutient que « une IA devra désirer certains états et en détester d'autres. Les logiciels d'aujourd'hui n'ont pas cette capacité et les informaticiens n'ont aucune idée de comment y parvenir. Sans volonté, il n'y a pas d'impulsion à faire quoi que ce soit. Les ordinateurs d'aujourd'hui ne peuvent même pas vouloir continuer à exister, sans parler de recouvrir le monde de panneaux solaires. »

Le politologue Charles T. Rubin estime que l'IA ne peut être ni conçue ni garantie pour être bienveillante. Il soutient que toute bienveillance suffisamment avancée peut être indiscernable de la malveillance. Les humains ne devraient pas supposer que les machines ou les robots nous traiteraient favorablement car il n'y a aucune raison à priori de croire qu'ils seraient sympathiques à notre système de moralité, qui a évolué avec notre biologie particulière (qu'une IA ne partagerait pas).

Autres sources de risque

Nick Bostrom et d'autres ont déclaré qu'une course pour être le premier à créer une IAG pourrait inciter à négliger la sécurité afin d'aller plus vite, voire à des conflits violents. Roman Yampolskiy et d'autres avertissent qu'une IAG malveillante pourrait être créée volontairement. Par exemple par une armée, un gouvernement, un sociopathe ou une entreprise, dans le but de bénéficier, contrôler ou subjuguer certains groupes de personnes, comme dans la cybercriminalité. Ou qu'une IAG malveillante puisse choisir l'objectif d'augmenter la souffrance humaine, par exemple de ceux qui ne l'ont pas assistée pendant sa phase d'explosion d'intelligence.

Estimations

Dans son livre de 2020, The Precipice: Existential Risk and the Future of Humanity, Toby Ord, chercheur principal au Future of Humanity Institute de l'Université d'Oxford, estime que le risque existentiel total d'une IA non alignée au cours du siècle est d'environ 10%.

Les sceptiques qui pensent qu'il est impossible que les intelligences artificielles générales arrivent dans un futur proche ont tendance à affirmer qu'il est néfaste d'exprimer des inquiétudes sur les risques de catastrophe planétaire. Car cela détournerait l'attention de risques plus concrets et immédiats, ou par crainte que cela ne conduise à plus de réglementations gouvernementales ou rendre plus difficile l'obtention de financements pour la recherche en IA, ou encore parce que cela pourrait donner une mauvaise réputation à la recherche en IA. Certains chercheurs, comme Oren Etzioni, tentent agressivement d'étouffer les préoccupations de risques existentiels : « [Elon Musk] nous a attaqués dans un langage très fort en disant que nous libérons le démon, et donc nous répondons ».

L'ITIF (Information Technology and Innovation Foundation), un groupe de réflexion, a décerné son prix annuel Luddite de 2015 aux « alarmistes annonçant une apocalypse de l'intelligence artificielle ». Son président, Robert D. Atkinson, s'est plaint que Elon Musk, Stephen Hawking et des experts en IA présentent l'IA comme la pire menace existentielle. Atkinson a déclaré: « Ce n'est pas un message très fructueux si vous voulez obtenir un financement en IA ». Nature était en net désaccord avec l'ITIF dans un éditorial d'avril 2016, se rangeant plutôt du côté de Musk, Hawking et Russell, et concluant : « Il est crucial que les progrès technologiques s'accompagnent de recherches solides et bien financées pour anticiper les scénarios qu'ils pourraient entraîner... Si c'est une perspective luddite, alors qu'il en soit ainsi. ». Dans un éditorial du Washington Post de 2015, le chercheur Murray Shanahan a déclaré qu'il est peu probable que l'IA de niveau humain arrive dans un futur proche, mais que néanmoins « le moment est venu de commencer à réfléchir aux conséquences ».

Points de vue

La thèse selon laquelle l'IA pourrait poser un risque existentiel suscite un large éventail de réactions au sein de la communauté scientifique et du grand public. Malgré ces désaccords, il y a aussi des points d'entente.

Les principes d'Asilomar sur l'IA, qui ne contiennent que les principes acceptés par 90 % des participants à la Conférence d'Asilomar sur l'IA bénéfique du Future of Life Institute, conviennent en principe que « en l'absence de consensus, nous devrions éviter les hypothèses fortes concernant les limites supérieures des capacités futures de l'IA » et « L'IA avancée pourrait représenter un changement profond dans l'histoire de la vie sur Terre, et devrait être planifiée et gérée avec un soin et des ressources commensurables ». Les défenseurs de la sûreté des intelligences artificielles tels que Bostrom et Tegmark ont critiqué l'utilisation dans les médias grand public d'images de Terminator pour illustrer les problèmes de sécurité de l'IA. Nick Bostrom a aussi déclaré: « C'est pas franchement amusant de recevoir des calomnies sur sa discipline académique, sa communauté professionnelle, ou le travail de sa vie... J'appelle toutes les parties prenantes à faire preuve de patience et de retenue, et à s'engager autant que possible dans le dialogue direct et la collaboration. »

À l'inverse, de nombreux sceptiques s'accordent à dire que les recherches en cours sur les impacts de l'intelligence artificielle générale sont précieuses. Le sceptique Martin Ford déclare : « Je pense qu'il semble sage d'appliquer quelque chose comme la fameuse « doctrine du 1 % » de Dick Cheney au spectre de l'intelligence artificielle avancée : les chances qu'elle se produise, du moins dans un avenir prévisible, peuvent être très faibles. - mais les implications sont si dramatiques qu'elles doivent être prises au sérieux ». De même, le journal sceptique The Economist a déclaré en 2014 que « les implications de l'introduction d'une deuxième espèce intelligente sur Terre sont suffisamment importantes pour mériter une réflexion approfondie, même si la perspective semble éloignée ».

Une enquête de 2014 a montré que l'opinion des experts dans le domaine de l'intelligence artificielle est mitigée. Une enquête par e-mail de 2017 auprès de chercheurs ayant publié pour les conférences d'apprentissage automatique NIPS et ICML de 2015 leur a demandé d'évaluer les préoccupations de Stuart Russell concernant le risque lié à l'IA. Parmi les répondants, 5 % ont déclaré que c'était "l'un des problèmes les plus importants sur le terrain", 34 % ont déclaré que c'était "un problème important", et 31 % ont déclaré qu'il était "modérément important", tandis que 19 % ont déclaré que ce n'était "pas important" et 11 % ont dit que ce n'était "pas un vrai problème" du tout. Les résultats préliminaires d'une enquête d'experts de 2022 avec un taux de réponse de 17% semblent montrer des réponses médianes d'environ cinq ou dix pour cent lorsqu'on leur demande d'estimer la probabilité d'extinction humaine à partir de l'intelligence artificielle.

Approbation

La thèse selon laquelle l'IA pose un risque existentiel, et que ce risque nécessite beaucoup plus d'attention qu'il n'en reçoit actuellement, a été approuvée par de nombreuses personnalités publiques dont Alan Turing, Geoffrey Hinton, Sam Altman, Stephen Hawking, Bill Gates, Elon Musk ou encore IJ Good (qui a conseillé Stanley Kubrick sur le tournage de 2001 : L'Odyssée de l'espace). Les partisans de la thèse du risque existentiel expriment parfois leur perplexité envers les sceptiques : Bill Gates a déclaré qu'il ne « comprend pas pourquoi certaines personnes ne sont pas inquiètes », et Hawking a critiqué l'indifférence généralisée dans son éditorial de 2014:

 

« Donc, face à de possibles futurs aux bénéfices et aux risques incommensurables, les experts sont sûrement en train de faire tout ce qu'ils peuvent pour garantir le meilleur résultat, n'est-ce pas? Faux. Si une civilisation extra-terrestre devait nous envoyer un message disant « On arrive dans quelques décennies », répondrions-nous juste « OK, appelez-nous quand vous serez là, on laissera les lumières allumées »? Probablement pas, mais c'est plus ou moins ce qui arrive avec l'IA. »

— Stephen Hawking

Les inquiétudes suscitées par l'IA ont conduit à des dons et des investissements de grande envergure. En 2016, 1 milliard de dollars ont été investis pour créer OpenAI, visant un développement responsable de l'IA. En janvier 2015, Elon Musk a fait don de 10 millions de dollars au Future of Life Institute pour financer la recherche sur la compréhension de la prise de décision par l'IA. L'objectif annoncé de l'institut est de faire croître la sagesse avec laquelle nous gérons la puissance croissante des technologies. Musk a également financé des entreprises développant l'intelligence artificielle telles que DeepMind et Vicarious pour « garder un œil sur ce qui se passe avec l'intelligence artificielle. Je pense qu'il y a potentiellement des conséquences dangereuses là-bas ». L'Open Philanthropy Project a aussi fait plus de 100 millions de dollars de donations pour atténuer les risques potentiels associés à l'IA avancée.

Scepticisme

La thèse selon laquelle l'IA peut poser un risque existentiel a de nombreux détracteurs. Les sceptiques l'accusent parfois d'être « crypto-religieuse », avec une croyance irrationnelle en la possibilité d'une superintelligence remplaçant une croyance irrationnelle en un Dieu omnipotent. Jaron Lanier a fait valoir en 2014 que le concept selon lequel les machines de l'époque seraient quelque sorte intelligentes était selon lui une illusion, et une prodigieuse escroquerie venant des riches.

Certaines critiques soutiennent que l'intelligence artificielle générale est peu probable à court terme. Le chercheur en IA Rodney Brooks a écrit en 2014 : « Je pense que c'est une erreur de s'inquiéter du fait que nous développions une IA malveillante à tout moment au cours des prochains siècles. Je pense que l'inquiétude provient d'une erreur fondamentale du fait de ne pas distinguer les avancées récentes très réelles dans un aspect particulier de l'IA, et l'énormité et la complexité de la conception d'une intelligence volitionnelle sensible. » Le vice-président de Baidu, Andrew Ng, a déclaré en 2015 que le risque existentiel de l'IA est « comme s'inquiéter de la surpopulation sur Mars alors que nous n'avons même pas encore mis le pied sur la planète ». L'informaticien Gordon Bell a soutenu en 2008 que la race humaine s'autodétruira avant d'atteindre la singularité technologique. Gordon Moore, le promoteur original de la loi de Moore, déclare que « je suis un sceptique. Je ne crois pas [qu'une singularité technologique] ait de tant que ça de chances de se produire, du moins pour longtemps. Et je ne sais pas pourquoi j'ai ce ressenti. »

Selon certains experts, l'idée qu'une IA puisse prendre le contrôle du monde est une possibilité suffisamment éloignée dans le futur pour ne pas valoir la peine d'être étudiée. L'économiste Robin Hanson estime que pour causer une explosion d'intelligence, l'IA devrait fournir bien plus d'innovation logicielle que tout le reste du monde ; et il n'est pas convaincu que ce soit possible.

Une autre ligne de critique postule que l'intelligence n'est qu'une composante d'une capacité beaucoup plus large à atteindre des objectifs. Magnus Vinding soutient que « les capacités avancées à accomplir des objectifs, notamment celle de nouveaux outils, nécessitent de nombreux outils, et nos capacités cognitives ne sont qu'un sous-ensemble de ces outils. L'électronique avancée, les matériaux et l'énergie doivent tous être acquis pour qu'un objectif avancé soit atteint ». Vinding en outre soutient que « ce que nous observons constamment [dans l'histoire], c'est que, à mesure que les systèmes visant à accomplir des objectifs sont devenus plus compétents, ils sont devenus de plus en plus dépendants d'un système de plus en plus vaste et de plus en plus distribué ». Vinding écrit qu'il n'y a aucune raison de s'attendre à ce que la tendance s'inverse, en particulier pour les machines, qui « dépendent de matériaux, d'outils et de savoir-faire largement distribués à travers le monde pour leur construction et leur maintenance ». De tels arguments amènent Vinding à penser que les capacités sont distribuées plutôt que concentrées, et qu'il n'y a donc pas vraiment de problème de contrôle.

Pour certains, même si la superintelligence devait émerger, elle serait limitée par la vitesse du reste du monde, et serait donc empêchée de prendre le contrôle de l'économie. Le futuriste Max More affirme que :

« À moins que des techniques avancées de robotique ou de nanotechnologie n'aient lieu avant la superintelligence, les changements physiques prendront du temps. [...] Le besoin de collaboration, d'organisation, ou de concrétiser les idées en changements physiques garantiront que les anciennes règles ne soient pas jetées du jour au lendemain ou même en quelques années. Les choses pourraient venir petit à petit, plutôt qu'en fracassant soudainement l'histoire. Même un système informatique très avancé ne ferait pas une différence énorme dans le monde, comparé à des milliards d'humains augmentés, de plus en plus intégrés avec la technologie [...] »

— Max More

La complexité fondamentale de certains système (NP complets ou chaotiques) pourrait aussi limiter la capacité de l'IA à prédire certains aspects de l'avenir, quelle que soit son niveau d'intelligence, augmentant ainsi son incertitude.

Certains chercheurs en IA et en IAG peuvent être réticents à discuter des risques, craignant que les décideurs finissent par être aussi convaincus par des messages « alarmistes » qu'ils ne cautionnent pas, ou craignant que de tels messages n'entraînent des réductions du financement de l'IA. Slate note que certains chercheurs dépendent des subventions d'organismes gouvernementaux tels que la DARPA.

Plusieurs sceptiques affirment que les avantages potentiels à court terme de l'IA l'emportent sur les risques. Le PDG de Facebook, Mark Zuckerberg, estime que l'IA offrira d'énormes bénéfices, tels que la guérison de maladies ou l'augmentation de la sécurité des voitures autonomes.

Opinions intermédiaires

Les opinions intermédiaires considèrent généralement que le problème de contrôle de l'IAG peut réellement exister, mais qu'il sera résolu par les progrès de l'IA, par exemple en apprenant la morale à l'IA, et cherchant activement à détecter des comportements malveillants mais maladroits (des « trébuchements sordides », ou sordid stumble en anglais) puis en intervenant directement dans le code afin que l'IA affine son comportement, ou avec la pression sociale d'intelligences artificielles amicales. Lors d'une table ronde en 2015 dans le Wall Street Journal consacrée aux risques liés à l'IA, le vice-président de l'informatique cognitive d'IBM, Guruduth S. Banavar, a balayé la discussion sur l'IAG en affirmant que c'est de la spéculation. Geoffrey Hinton a noté qu'« il n'y a pas de bons antécédents de choses moins intelligentes contrôlant des choses plus intelligences », mais a déclaré qu'il poursuit ses recherches car « la perspective d'une découverte est trop douce ». Interrogé sur la possibilité qu'une IA tente d'éliminer la race humaine, Hinton a déclaré qu'un tel scénario n'était pas inconcevable, mais que le plus gros problème avec une explosion de l'intelligence serait selon lui la concentration de pouvoir qui en résulterait. En 2004, le professeur de droit Richard Posner a écrit que les efforts consacrés à la gestion de ces risques peuvent attendre, mais que nous devrions entre-temps recueillir plus d'informations sur le problème.

Réactions populaires

Dans un article paru en 2014 dans The Atlantic, James Hamblin a noté que la plupart des gens ne se soucient pas de l'IAG, et a caractérisé sa propre réaction viscérale au sujet comme suit : « Sortez d'ici. J'ai cent mille choses qui m'inquiètent en ce moment précis. Dois-je sérieusement ajouter à cela une singularité technologique ? »

Lors d'une interview du président Barack Obama et de Joi Ito en 2016 par Wired, Ito a déclaré :

« il y a quelques personnes qui pensent qu'il y a une probabilité assez élevée que l'IA générale survienne dans les 10 prochaines années. Mais la façon dont je vois les choses c'est que pour que ça arrive, on aura besoin de quelques dizaines de percées technologiques. Donc vous pouvez surveiller si vous pensez que ces percées technologiques vont survenir. »

— Joi Ito

Obama a ajouté:

« Et il faut juste avoir quelqu'un posté près de la prise électrique. [Rires.] Dès que tu le vois venir, faut couper le jus, mec. »

— Barack Obama

 

Hillary Clinton a elle déclaré dans What Happened :

« Les technologues... ont averti que l'intelligence artificielle pourrait un jour constituer une menace existentielle pour la sécurité. Musk l'a appelé « le plus grand risque auquel nous soyons confrontés en tant que civilisation ». Pensez-y : avez-vous déjà vu un film où les machines commencent à penser par elles-mêmes et qui se termine bien ? Chaque fois que je suis allé dans la Silicon Valley pendant la campagne, je suis rentrée plus alarmée à ce sujet. Mon personnel vivait dans la peur que je commence à parler de « l'essor des robots » dans une mairie de l'Iowa. J'aurais peut-être dû. Dans tous les cas, les décideurs politiques doivent suivre la technologie à mesure qu'elle avance, au lieu de toujours rattraper le retard. »

— Hillary Clinton, What Happened


Dans un sondage YouGov réalisé en 2016 auprès du public de la British Science Association, environ un tiers des personnes interrogées ont déclaré que l'IA constituerait une menace pour la survie à long terme de l'humanité. Jacob Brogan de Slate a déclaré que « la plupart des (lecteurs remplissant notre enquête en ligne) n'étaient pas convaincus que l'IA elle-même présente une menace directe ».

En 2018, un sondage SurveyMonkey auprès du public américain par USA Today a révélé que 68% estiment que la véritable menace réside dans « l'intelligence humaine » ; cependant, le sondage a également révélé que 43% considèrent que l'IA superintelligente, si elle devait se produire, entraînerait « plus de mal que de bien », et 38% ont déclaré qu'elle ferait « des quantités égales de mal et de bien ».

Un point de vue techno-utopique exprimé dans certaines fictions populaires est que l'IAG peut tendre vers la consolidation de la paix.

Atténuation

De nombreux chercheurs préoccupés par les risques existentiels de l'IAG pensent que la meilleure approche consiste à mener des recherches approfondies pour résoudre le difficile « problème de contrôle »: quels types de mesures, d'algorithmes ou d'architectures les programmeurs peuvent-ils mettre en œuvre pour maximiser la probabilité que si une IA parvenait à s'améliorer elle-même récursivement, elle continue néanmoins de se comporter de manière bienfaisante ? Les mesures sociales peuvent réduire le risque existentiel ; par exemple il y a la recommandation pour un « Traité de l'intelligence artificielle générale bienveillante » parrainé par l'ONU, qui garantirait que seules des intelligences artificielles générales altruistes soient créés. De même, une approche pour contrôler la militarisation de l'IA a été suggérée, tout comme un traité mondial de paix, dont les superintelligences pourraient potentiellement un jour être des signataires.

Des chercheurs de Google ont proposé des recherches sur des problèmes concrets de sûreté de l'IA afin d'atténuer simultanément les risques à court et à long terme de l'IAG. Une estimation de 2020 place les dépenses mondiales pour atténuer les risques existentiels de l'IA à entre 10 et 50 millions de dollars, là où les dépenses mondiales pour l'IA sont d'environ 40 milliards de dollars. Bostrom propose un principe général de « développement technologique différentiel » : les investisseurs devraient accélérer le développement de technologies protectrices, et limiter celui de technologies dangereuses. Certains investisseurs comme Elon Musk suggèrent que l'amélioration cognitive humaine radicale puisse servir à protéger l'humanité. Par exemple les systèmes de liaison neuronale directe entre l'homme et la machine. Mais d'autres soutiennent que ces technologies d'amélioration de l'humain peuvent elles-mêmes poser un risque existentiel. Les chercheurs, s'ils ne sont pas pris au dépourvu, pourraient surveiller de près ou tenter de confiner une IA risquant de devenir trop puissante. Une superintelligence dominante, si elle était alignée sur les intérêts humains, pourrait elle-même prendre des mesures pour réduire le risque de prise de contrôle par une autre IA, bien que la création de l'IA dominante puisse elle-même poser un risque existentiel.

Des institutions telles que le Machine Intelligence Research Institute, le Future of Humanity Institute, le Future of Life Institute, le Center for the Study of Existential Risk et le Center for Human-Compatible AI sont impliquées dans l'atténuation des risques existentiels de l'IA avancée et la recherche de solutions au problème de l'alignement.

Opinions sur la réglementation

En mars 2023, le Future of Life Institute a rédigé une lettre appelant les principaux développeurs d'IA à s'entendre sur une pause vérifiable de six mois de tout système « plus puissant que GPT-4 » et à utiliser ce temps pour instituer des normes de sécurité. Ou, si ça ne pouvait pas être rapidement mis en place, que les gouvernements interviennent avec un moratoire. La lettre faisait référence à la possibilité d'un « changement profond dans l'histoire de la vie sur Terre ». Elle évoquait les risques potentiels de propagande générée par l'IA, de pertes d'emplois massives, d'obsolescence humaine et de perte de contrôle sur la société. La lettre a notamment été signée par Elon Musk, Steve Wozniak, Evan Sharp, Chris Larsen et Gary Marcus ; les digireants de laboratoire d'IA, Connor Leahy et Emad Mostaque ; le politicien Andrew Yang ; et le pionnier de l'apprentissage en profondeur Yoshua Bengio. Marcus a déclaré que « la lettre n'est pas parfaite, mais l'esprit est juste ». Mostaque a déclaré: « Je ne pense pas qu'une pause de six mois soit la meilleure idée et je ne suis pas d'accord avec tout, mais il y a des choses intéressantes dans cette lettre ». En revanche, Bengio a explicitement approuvé la pause de six mois lors d'une conférence de presse. Elon Musk a déclaré que « les principaux développeurs d'IAG ne tiendront pas compte de cet avertissement, mais au moins ça a été dit ». Certains signataires, tels que Marcus, ont signé par souci d'autres risque que celui d'une superintelligence, tels que la propagande générée par l'IA. Margaret Mitchell, dont le travail est cité par la lettre, l'a critiquée en disant : « En traitant beaucoup d'idées douteuses comme établies, la lettre affirme un ensemble de priorités et une narration sur l'IA qui profite aux partisans du FLI. Ignorer les dégâts qui ont activement lieu en ce moment est un privilège que certains d'entre nous n'ont pas. »

Elon Musk a appelé à réglementer l'IA dès 2017. Selon NPR, le PDG de Tesla n'était pourtant clairement pas ravi de plaider en faveur d'un examen gouvernemental qui pourrait impacter son propre secteur d'activité. Mais il estime que les risques d'une absence de surveillance sont trop élevés : « Normalement, les réglementations sont faites de sorte que quand de mauvaises choses se produisent, il y a un tollé public et, après de nombreuses années, une agence de réglementation est créée pour régulter cette industrie [...] Ça prend une éternité. Ça s'est jusqu'ici mal passé, mais pas au point de représenter un risque fondamental pour l'existence de la civilisation. » Elon Musk déclare que la première étape serait que le gouvernement s'intéresse à l'état actuel de la recherche, avertissant qu'« une fois qu'il y aura prise de conscience, les gens seront effrayés, [...] Comme ils devraient l'être. » En réponse, les politiciens ont exprimé leur scepticisme quant à la sagesse du fait de réglementer une technologie encore en développement.

Un succès dans l'interdiction internationale des armes létales autonomes pourrait faciliter de futures réglementations internationales.

Répondant à la fois à Elon Musk et aux propositions de février 2017 des législateurs de l'Union européenne pour réglementer l'IA et la robotique, le PDG d'Intel ; Brian Krzanich, a fait valoir que l'intelligence artificielle en était à ses balbutiements et qu'il était encore trop tôt pour réglementer cette technologie. Au lieu d'essayer de réglementer la technologie elle-même, certains chercheurs suggèrent des normes communes incluant des exigences pour les tests et la transparence des algorithmes, éventuellement en combinaison avec une certaine forme de garantie.

Le développement réglementé de systèmes d'armes est considéré acceptable par les armées de certains pays. Le 31 octobre 2019, le Defense Innovation Board du département américain de la Défense (DoD) a publié l'ébauche d'un rapport décrivant cinq principes pour l'IA militarisée et faisant 12 recommandations pour l'utilisation éthique de l'intelligence artificielle par le DoD, qui cherche à renforcer le contrôle des IA militaires du DoD.

La réglementation de l'IAG sera probablement influencée par la réglementation de l'IA militaire. Bien que les Nations Unies aient progressé vers la réglementation de l'IA, sa capacité institutionnelle et juridique à gérer le risque existentiel de l'IAG est beaucoup plus limitée. Toute forme de réglementation internationale sera probablement influencée par l'évolution de la politique intérieure des principaux pays à l'égard de l'IA militaire, et par les mesures internationales visant à réglementer une course à l'IA militaire. La réglementation de la recherche sur l'IAG se concentre sur le rôle des commissions d'examen, la mise en avant de la recherche sur la sûreté de l'IA, la possibilité d'un progrès technologique différentiel (le fait de prioriser les recherches réduisant les risques à celles qui les augmentent), ou la possibilité d'une surveillance internationale de masse pour vérifier l'application des réglementations. La réglementation des IAG conscientes se concentre sur leur intégration à la société humaine existante, et peut être divisée en considérations sur leur statut juridique et leurs droits moraux. Limiter la militarisation de l'IA devrait nécessiter de nouvelles normes internationales avec des spécifications techniques efficaces. Mais aussi une surveillance active, une diplomatie informelle par des communautés d'experts, et un processus juridique et politique de vérification.

Voir également

Notes

Références


Новое сообщение