Avertissement: Sauf indication contraire, les opinions exprimées ci-dessous appartiennent uniquement à l’auteur.
Malgré sa nascence assez récente, l’industrie de l’intelligence artificielle des consommateurs (IA) est déjà dans un grand bouleversement si l’on en croit le principal scientifique de l’IA de Meta.
Il a partagé ses prévisions lors d’un débat technologique au Forum économique mondial récemment conclu à Davos, en nivellement les critiques à des modèles génératifs de l’IA et en grand langage (LLM), qui sont à l’origine de l’essor de l’IA et alimentent actuellement tous les services de consommation populaires, notamment, y compris Chatgpt, Gemini, Claude et Midjourney.
Les quatre échecs de (courant) AI
LeCun, connu pour son scepticisme de la génération actuelle de modèles d’IA, a souligné que malgré leur utilité, ils échouent fondamentalement dans quatre domaines critiques sans lesquels ils ne peuvent pas vraiment transformer le monde ou être capables de perdre des humains (ou, dans certains façons, même les animaux).
Ces quatre domaines sont:
Conscience et compréhension du monde physique manque de mémoire persistante Manque d’incapacité de raisonnement d’une planification complexe
Les LLM n’ont vraiment maîtrisé qu’un degré élevé (mais pas total) de compréhension du langage humain et sont capables de suivre certaines instructions principalement avec précision, mais sont fondamentalement motivés par des probabilités statistiques après avoir consommé de grands volumes de contenu.
Ils peuvent écrire sur la plupart des choses, mais ils ne les comprennent pas car ils sont incapables d’interfacer avec le monde réel de quelque manière que ce soit.
Ils n’ont pas non plus la capacité de penser ou de planifier quoi que ce soit à l’avance, même si certaines tentatives de les pousser dans cette direction sont en cours de réalisation, comme en témoignent le récent lancement d’Openai de l’agent opérateur qui peut voir votre écran et prendre des mesures en ligne pour vous.
Les modèles de diffusion, tels que ceux utilisés pour générer des images ou des vidéos lorsque vous utilisez MidJourney, Dall-E ou Sora, fonctionnent sur des principes similaires, et c’est là que le manque de conscience tridimensionnelle a conduit à de nombreuses erreurs embarrassantes, comme le classique Exemple de personnes cultivant des membres ou des doigts supplémentaires.
Parce que ces modèles ne savent pas à quoi ressemble vraiment une réelle main, ce qu’elle fait et comment elle fonctionne par rapport au corps, ils ne sont pas capables d’en générer des représentations précises dans différents contextes. Ils approximnent simplement son apparence conformément à l’invite fournie par l’utilisateur.
La compréhension du monde physique par un chat est bien supérieure à tout ce que nous pouvons faire avec l’IA.
Yann LeCun
Tout comme les LLM, ils ont été nourris suffisamment de données pour être exacts et utiles la plupart du temps, mais pas tout le temps. Ils sont également incapables de raisonner sur ce qu’ils font réellement.
En ce sens, nous ne sommes pas du tout vraiment à l’ère de «l’intelligence» artificielle, car les machines ne pensent pas vraiment à ce qu’ils font et n’ont pas de connaissance réelle du monde sur la base de laquelle ils le feraient effectuer le raisonnement.
Je pense que la durée de conservation du paradigme actuel est assez courte [based on LLM]probablement trois à cinq ans. Je pense que dans les cinq ans, personne dans leur bon sens ne les utiliserait plus, du moins pas comme la composante centrale d’un système d’IA.
Yann LeCun
Des milliards plus tard?
Il est difficile de ne pas être d’accord avec LeCun sur ces principes fondamentaux, bien que nous n’ayons pas encore vu d’alternatives aux modèles utilisés aujourd’hui.
Il est facile de souligner que Chatgpt ne pense pas vraiment, mais il est beaucoup plus difficile de produire une alternative qui ferait mieux que ce qu’elle ne le fait en utilisant les modèles développés par OpenAI.
Cependant, il semble impossible pour l’IA d’avoir l’impact révolutionnaire qui nous a promis sans résoudre ces problèmes fondamentaux. Un algorithme statistique extrêmement précis peut alimenter un chatbot remarquablement réaliste, mais cela ne signifie pas qu’il s’agit de raisonner et de prendre des mesures conscientes.
Il sera très utile, sans aucun doute, comme il l’est déjà dans de nombreux domaines, mais cela ne nous prendra pas près d’AGI ou d’ASI.
Cela soulève la question – les centaines de milliards sont-ils versés dans les modèles d’IA actuels un gaspillage de ressources?
Après tout, la génération actuelle de l’IA n’a pas encore payé. Openai continue de saigner de l’argent, et tout le monde dans l’industrie s’appuie sur un financement généreux des investisseurs (ou dans son propre, compte tenu des poches profondes de Google, Microsoft ou Meta).
Mais même si les modèles suivants s’améliorent progressivement, la réalité semble être qu’ils sont tous construits sur les mauvaises fondations – et ils ne peuvent pas dépasser leurs limites.
Un modèle reposant sur un ensemble de probabilités cependant complexe ne commencera pas à penser tout d’un coup. Il n’est pas équipé pour penser, se souvenir ou avoir une conscience spatiale du monde physique. Et cela n’accompagnera pas, peu importe combien de données vous les nourrissent.
Les modèles en grand langage portent ce nom pour une raison. Ils ont été conçus pour traiter le langage humain et sont très bons dans ce domaine – tellement bons qu’ils nous font croire que nos ordinateurs montrent des signes de pensée.
Mais leur comportement magique n’est pas différent de l’astuce d’un illusionniste de rue.
Que ce soit dans les cinq ans ou plus tard, une fois les nouveaux modèles développés, les actuels se retrouveront dans la poubelle de l’histoire en tant que gadgets imparfaits mais très convaincants qui ont dirigé d’énormes quantités de capital dans une recherche sur l’IA appropriée.
Crédit d’image en vedette: Forum économique mondial