L'industrie invisible qui rend possible le ChatGPT, la diffusion stable et tous les autres systèmes d'IA modernes
Lorsque vous utilisez ChatGPT pour écrire un e-mail ou générer une image avec Midjourney, vous pensez rarement à ce qui se cache derrière la "magie" de l'intelligence artificielle. Pourtant, derrière chaque réponse intelligente et chaque image générée se cache une industrie de plusieurs milliards de dollars dont peu de gens parlent : le marché des données d'entraînement à l'IA.
Ce secteur, qui, selon MarketsandMarkets, atteindra 9,58 milliards de dollars d' ici 2029 avec un taux de croissance de 27,7 % par an, est le véritable moteur de l'intelligence artificielle moderne. Mais comment fonctionne exactement cette activité cachée ?
Quelques entreprises, dont la plupart des gens n'ont jamais entendu parler, dominent le monde des données de formation à l'IA :
Scale AI, la plus grande entreprise du secteur avec une part de marché de 28 %, a récemment été évaluée à 29 milliards de dollars après l'investissement de Meta. Ses entreprises clientes paient entre 100 000 et plusieurs millions de dollars par an pour des données de haute qualité.
Appen, basée en Australie, exploite un réseau mondial de plus d'un million de spécialistes dans 170 pays qui étiquettent et conservent manuellement les données pour l'IA. Des entreprises comme Airbnb, John Deere et Procter & Gamble utilisent leurs services pour "enseigner" leurs modèles d'IA.
Parallèlement, il existe un écosystème de sources ouvertes dirigé par des organisations telles que LAION (Large-scale Artificial Intelligence Open Network), une organisation allemande à but non lucratif qui a créé LAION-5B, l'ensemble de données de 5,85 milliards de paires image-texte qui a rendu possible la diffusion stable.
Common Crawl publie chaque mois des téraoctets de données web brutes utilisées pour entraîner GPT-3, LLaMA et de nombreux autres modèles linguistiques.
Ce que le public ne sait pas, c'est à quel point la formation d'un modèle d'IA moderne est devenue coûteuse. Selon Epoch AI, les coûts ont augmenté de 2 à 3 fois par an au cours des huit dernières années.
Le chiffre le plus surprenant ? Selon AltIndex.com, les coûts de formation à l'IA ont augmenté de 4 300 % depuis 2020.
L'une des questions les plus controversées concerne l'utilisation de matériel protégé par des droits d'auteur. En février 2025, le tribunal du Delaware a statué dans l'affaire Thomson Reuters v. ROSS Intelligence que la formation à l'IA peut constituer une violation directe du droit d'auteur, rejetant la défense de l'"usage loyal".
L'Office américain du droit d'auteur a publié un rapport de 108 pages concluant que certaines utilisations ne peuvent pas être défendues en tant qu'usage loyal, ce qui ouvre la voie à des coûts de licence potentiellement énormes pour les entreprises du secteur de l'intelligence artificielle.
Une enquête menée par la MIT Technology Review a révélé que DataComp CommonPool, l'un des ensembles de données les plus utilisés, contient des millions d'images de passeports, de cartes de crédit et d'actes de naissance. Avec plus de 2 millions de téléchargements au cours des deux dernières années, cela pose d'énormes problèmes de protection de la vie privée.
Les experts prévoient que d'ici 2028, la majorité des textes publics générés par l'homme et disponibles en ligne seront utilisés. Ce scénario de "pic de données" pousse les entreprises à trouver des solutions innovantes :
La loi californienne sur la transparence de l'IA exigera des entreprises qu'elles divulguent les ensembles de données utilisés pour la formation, tandis que l'UE met en œuvre des exigences similaires dans le cadre de la loi sur l'IA.
Pour les entreprises qui souhaitent développer des solutions d'IA, il est essentiel de comprendre cet écosystème :
Le marché des données d'entraînement à l'IA représente 9,58 milliards de dollars et croît de 27,7 % par an. Cette industrie invisible n'est pas seulement le moteur de l'IA moderne, mais représente également l'un des plus grands défis éthiques et juridiques de notre époque.
Dans le prochain article, nous examinerons comment les entreprises peuvent concrètement entrer dans ce monde, avec un guide pratique pour commencer à développer des solutions d'IA en utilisant les ensembles de données et les outils disponibles aujourd'hui.
Pour ceux qui souhaitent en savoir plus dès maintenant, nous avons compilé un guide détaillé avec la feuille de route de la mise en œuvre, les coûts spécifiques et la panoplie complète d'outils - téléchargeable gratuitement avec l'abonnement à la newsletter
Liens utiles pour démarrer immédiatement :
Sources techniques :
N'attendez pas la "révolution de l'IA". Créez-la. Dans un mois, vous pourriez avoir votre premier modèle fonctionnel, alors que d'autres sont encore en train de planifier.