Après le lancement du modèle d’intelligence artificielle DeepSeek-R1 le 20 janvier dernier, qui a provoqué un effondrement du cours de l’action du fabricant de puces Nvidia ainsi qu’une forte baisse de la valorisation de plusieurs autres entreprises technologiques, certains ont déclaré qu’il s’agissait d’un « moment Spoutnik » dans la course sino-américaine à la suprématie en matière d’IA. Pour une industrie américaine de l’IA qui avait sans doute besoin d’être bousculée, cet épisode soulève toutefois plusieurs questions difficiles.
Les investissements de l’industrie technologique américaine dans l’IA ont été massifs, Goldman Sachs s’attendant à ce que « les géants technologiques, les grandes sociétés et les services publics investissent environ 1 000 milliards $ au cours des années à venir pour soutenir l’IA ». Or, depuis un certain temps déjà, de nombreux observateurs et moi-même nous interrogeons sur l’orientation des investissements dans l’IA et du développement de celle-ci aux États-Unis.
Toutes les entreprises leaders en la matière appliquant pour l’essentiel le même plan d’action (bien que Meta se distingue dans une certaine mesure par son modèle partiellement en open source), l’industrie semble avoir placé tous ses œufs dans le même panier. Toutes les entreprises technologiques américaines, sans exception, se montrent obsédées par l’optimisation de l’échelle. Invoquant des « lois de mise à l’échelle » qui restent encore à prouver, elles partent du principe que l’introduction d’une quantité croissante de données et de puissance de calcul dans leurs modèles constitue la clé qui leur permettra de débloquer des capacités toujours plus impressionnantes. Certains vont jusqu’à affirmer que « l’échelle est tout ce dont vous avez besoin ».
Avant le 20 janvier, les entreprises américaines n’étaient pas disposées à envisager d’autres solutions que les modèles fondamentaux préformés sur des ensembles massifs de données pour prédire le mot suivant dans une séquence. Compte tenu de leurs priorités, elles se concentraient presque exclusivement sur les modèles de diffusion et les chatbots destinés à effectuer des tâches humaines (ou similaires). Bien que l’approche de DeepSeek soit globalement la même, elle semble s’appuyer davantage sur l’apprentissage par renforcement, les méthodes basées sur un ensemble d’experts (en utilisant de nombreux modèles plus petits et plus efficaces), la distillation et le raisonnement par chaîne de pensée. C’est cette stratégie qui lui aurait semble-t-il permis de créer un modèle compétitif à un niveau de coûts beaucoup moins élevé.
Bien que nous ne soyons pas certains que DeepSeek nous ait tout dit, cet épisode vient mettre en lumière une « pensée de groupe » au sein de l’industrie américaine de l’IA. L’aveuglement du secteur américain face à des approches alternatives moins coûteuses et plus prometteuses, combiné à un battage médiatique, constitue précisément ce que Simon Johnson et moi-même avions prédit dans Power and Progress, que nous avons écrit juste avant le début de l’ère de l’IA générative. La question consiste désormais à savoir si cette industrie américaine présente d’autres angles morts, plus dangereux encore. Les principales entreprises technologiques américaines sont-elles par exemple en train de manquer l’occasion d’orienter leurs modèles dans une direction davantage axée sur l’être humain ? Seul l’avenir nous le dira, mais je pense que la réponse est oui.
Se pose ensuite la question de savoir si la Chine accomplirait actuellement un bond en avant par rapport aux États-Unis. Dans l’affirmative, cela signifie-t-il que les structures autoritaires verticales descendantes (que James A. Robinson et moi-même avons qualifiées d’« institutions extractives ») pourraient égaler voire surpasser les fonctionnements ascendants dans la stimulation de l’innovation ?
J’ai tendance à penser que le contrôle du haut vers le bas entrave l’innovation, comme l’affirmons Robinson et moi-même dans Why Nations Fail. Si le succès de DeepSeek semble remettre en cause cette affirmation, il est loin de prouver que l’innovation dans le cadre d’institutions extractives peut être aussi puissante ou durable que dans le cadre d’institutions inclusives. DeepSeek s’appuie en effet sur plusieurs années d’avancées aux États-Unis (et dans une certaine mesure en Europe). Toutes ses méthodes de base ont été mises au point aux États-Unis. Les modèles basés sur un ensemble d’experts et l’apprentissage par renforcement ont été développés au sein d’instituts de recherche universitaires il y a plusieurs dizaines d’années, et ce sont les géants technologiques américains qui ont créé les modèles Transformers, le raisonnement par chaîne de pensée et la distillation.
L’accomplissement de DeepSeek réside du côté de l’ingénierie : la capacité à combiner les mêmes méthodes de manière plus efficace que les sociétés américaines. Reste à savoir si les entreprises et instituts de recherche chinois parviendront à franchir l’étape suivante en proposant des techniques, produits et approches qui changeront réellement la donne.
DeepSeek semble par ailleurs se distinguer de la plupart des autres entreprises chinoises spécialisées dans l’IA, qui produisent généralement des technologies pour l’État ou au moyen de fonds publics. Sachant que l’entreprise (issue d’un fonds spéculatif) a dans un premier temps opéré sous les radars, sa créativité et son dynamisme se poursuivront-ils maintenant que DeepSeek est sous les feux de la rampe ? Quoi qu’il arrive, la réussite d’une seule entreprise ne saurait être considérée comme la preuve irréfutable de la capacité de la Chine à surpasser des sociétés plus ouvertes en matière d’innovation.
Une autre question intervient, de nature géopolitique. La saga DeepSeek signifie-t-elle que les contrôles américains à l’exportation et autres mesures visant à freiner la recherche chinoise en matière d’IA ont échoué ? La réponse à cette question n’est pas claire non plus. Bien que DeepSeek ait entraîné ses derniers modèles (V3 et R1) sur des puces plus anciennes et moins puissantes, l’entreprise pourrait encore avoir besoin de puces plus puissantes pour réaliser de nouvelles avancées et passer à l’échelle supérieure.
Quoi qu’il en soit, il apparaît désormais clairement que l’approche américaine à somme nulle était inapplicable et malavisée. Une telle stratégie n’a de sens que si vous considérez vous diriger vers l’intelligence artificielle générale (des modèles capables d’égaler les êtres humains dans n’importe quelle tâche cognitive), et que celui qui atteindra le premier cette intelligence artificielle générale jouira d’un immense avantage géopolitique. En nous accrochant à ces hypothèses – dont aucune n’est nécessairement justifiée – nous avons empêché une collaboration fructueuse avec la Chine dans de nombreux domaines. À titre d’exemple, si un pays produit des modèles qui améliorent la productivité humaine ou nous permettent de mieux gérer l’énergie, cette innovation sera bénéfique pour les deux pays, surtout si elle est largement utilisée.
À l’instar de ses équivalents américains, DeepSeek aspire à développer l’IAG, et la création d’un modèle dont la formation est nettement moins coûteuse pourrait changer la donne. Pour autant, l’accomplissement d’une réduction des coûts de développement par des méthodes connues ne nous conduira pas miraculeusement à l’IAG au cours des prochaines années. La question reste ouverte de savoir si l’IAG est atteignable à court terme (celle de savoir si elle est souhaitable étant encore plus discutable).
Même si nous ne connaissons pas encore tous les détails concernant la manière dont DeepSeek a développé ses modèles, et même si nous ignorons ce que sa réussite apparente signifie pour l’avenir de l’industrie de l’IA, une chose est sûre : le nouveau venu chinois a brisé l’obsession du secteur technologique pour la mise à l’échelle, et a sans doute ébranlé son excès de confiance.
Daron Acemoglu, lauréat du prix Nobel d’économie en 2024 et professeur d’économie au MIT, est coauteur (avec Simon Johnson) de l’ouvrage intitulé Power and Progress : Our Thousand-Year Struggle Over Technology and Prosperity (PublicAffairs, 2023).
Project Syndicate, 2025.
www.project-syndicate.org