L'entraînement des modèles d' intelligence artificielle représente l'un des défis les plus complexes du développement technologique contemporain. Bien plus qu'une simple question algorithmique, la formation efficace d'un modèle nécessite une approche méthodique et multidisciplinaire qui intègre les données, la science des données, la connaissance du domaine et l'ingénierie logicielle. Comme le souligne James Luke dans son texte fondateur"Beyond Algorithms : Delivering AI for Business", le succès d'une mise en œuvre de l'IA dépend beaucoup plus de la gestion des données et de la conception systémique que des algorithmes eux-mêmes. Le paysage évolue rapidement, avec des innovations telles que le modèle DeepSeek-R1 qui redéfinit les coûts et l'accessibilité.
Contrairement à ce que l'on croit souvent, la quantité de données n'est pas toujours le facteur déterminant du succès. La qualité et la représentativité des données sont nettement plus importantes. Dans ce contexte, il est crucial d'intégrer différentes sources :
Cette intégration permet de créer une base de formation complète qui tient compte des scénarios du monde réel tout en respectant les normes éthiques et de protection de la vie privée.
Le processus de "traitement des données" représente jusqu'à 80 % des efforts requis dans les projets d'intelligence artificielle. Cette phase implique
Le choix de l'architecture du modèle doit être guidé par la nature spécifique du problème à résoudre, plutôt que par des tendances ou des préférences personnelles. Différents types de problèmes requièrent différentes approches :
L'optimisation architecturale nécessite une évaluation systématique des différentes configurations, en mettant l'accent sur l'équilibre entre les performances et les exigences informatiques, un aspect qui est devenu encore plus pertinent avec l'avènement de modèles tels que DeepSeek-R1, qui offrent des capacités de raisonnement avancées à des coûts nettement inférieurs.
La distillation est apparue comme un outil particulièrement puissant dans l'écosystème actuel de l'IA. Ce processus permet de créer des modèles plus petits et plus spécifiques qui héritent des capacités de raisonnement de modèles plus grands et plus complexes, tels que DeepSeek-R1.
Comme le montre le cas de DeepSeek, l'entreprise a distillé ses capacités de raisonnement sur plusieurs modèles plus petits, y compris des modèles open-source de la famille Llama de Meta et de la famille Qwen d'Alibaba. Ces petits modèles peuvent ensuite être optimisés pour des tâches spécifiques, ce qui accélère la tendance vers des modèles rapides et spécialisés.
Sam Witteveen, développeur en apprentissage automatique, observe : "Nous commençons à entrer dans un monde où les gens utilisent plusieurs modèles. Ils ne se contentent pas d'utiliser un seul modèle en permanence". Cela inclut les modèles fermés à bas prix tels que Gemini Flash et GPT-4o Mini, qui "fonctionnent très bien pour 80 % des cas d'utilisation".
Au lieu de former des modèles distincts pour des compétences connexes, l'apprentissage multitâche permet aux modèles de partager des connaissances entre différentes fonctions :
Pour les entreprises opérant dans des domaines très spécifiques, où les informations ne sont pas largement disponibles sur le web ou dans les ouvrages généralement utilisés pour la formation des modèles linguistiques, le réglage fin supervisé (SFT) est une option efficace.
DeepSeek a démontré qu'il est possible d'obtenir de bons résultats avec des "milliers" d'ensembles de questions et de réponses. Par exemple, Chris Hay, ingénieur chez IBM, a montré comment il a mis en place un petit modèle en utilisant ses propres ensembles de données spécifiques aux mathématiques et a obtenu des réponses extrêmement rapides qui ont dépassé les performances du modèle o1 d'OpenAI sur les mêmes tâches.
Les entreprises qui souhaitent former un modèle en l'alignant davantage sur des préférences spécifiques - par exemple, rendre un chatbot de support client empathique mais concis - voudront mettre en œuvre des techniques d'apprentissage par renforcement (RL). Cette approche est particulièrement utile si une entreprise souhaite que son chatbot adapte son ton et ses recommandations en fonction du retour d'information de l'utilisateur.
Pour la plupart des entreprises, la génération améliorée par récupération (RAG) est la voie la plus simple et la plus sûre. Il s'agit d'un processus relativement simple qui permet aux organisations d'ancrer leurs modèles avec des données propriétaires contenues dans leurs bases de données, ce qui garantit que les résultats sont exacts et spécifiques au domaine.
Cette approche permet également de contrer certains des problèmes d'hallucination associés à des modèles tels que DeepSeek, qui hallucinent actuellement dans 14 % des cas, contre 8 % pour le modèle o3 d'OpenAI, selon une étude menée par Vectara.
La combinaison de la distillation de modèles et du RAG est l'élément magique pour la plupart des entreprises, car elle est devenue incroyablement facile à mettre en œuvre, même pour les personnes ayant des compétences limitées en science des données ou en programmation.
L'efficacité de l'IA ne se mesure pas seulement en termes de précision brute, mais nécessite un cadre d'évaluation complet qui tient compte des éléments suivants
L'impact le plus immédiat de la sortie de DeepSeek est la réduction agressive de son prix. L'industrie technologique s'attendait à ce que les coûts baissent avec le temps, mais peu avaient prévu la rapidité avec laquelle cela se produirait. DeepSeek a démontré que des modèles puissants et ouverts peuvent être à la fois bon marché et efficaces, créant ainsi des possibilités d'expérimentation à grande échelle et de mise en œuvre rentable.
Amr Awadallah, PDG de Vectara, a insisté sur ce point, notant que le véritable point de basculement n'est pas seulement le coût de la formation, mais le coût de l'inférence, qui pour DeepSeek est d'environ 1/30e de celui des modèles o1 ou o3 d'OpenAI par coût d'inférence et par jeton. "Les marges qu'OpenAI, Anthropic et Google Gemini ont pu réaliser devront maintenant être réduites d'au moins 90 % parce qu'ils ne peuvent pas rester compétitifs avec des prix aussi élevés", a déclaré M. Awadallah.
De plus, ces coûts continueront à diminuer. Le PDG d'Anthropic, Dario Amodei, a récemment déclaré que le coût de développement des modèles continue de diminuer à un rythme d'environ quatre fois par an. Par conséquent, le prix facturé par les fournisseurs de LLM pour leur utilisation continuera également à diminuer.
"Je m'attends à ce que le coût soit nul", a déclaré Ashok Srivastava, CDO d'Intuit, une société qui a fortement encouragé l'IA dans ses offres de logiciels fiscaux et comptables tels que TurboTax et Quickbooks. "... et le temps de latence sera réduit à zéro. Ils deviendront simplement des capacités de base que nous pourrons utiliser."
DeepSeek et Deep Research d'OpenAI sont plus que de nouveaux outils dans l'arsenal de l'IA - ce sont les signes d'un changement profond dans lequel les entreprises déploieront des masses de modèles spécifiques extrêmement rentables, compétents et enracinés dans les données et l'approche de l'entreprise.
Pour les entreprises, le message est clair : les outils permettant de créer de puissantes applications d' IA spécifiques à un domaine sont à portée de main. Vous risquez de prendre du retard si vous ne tirez pas parti de ces outils. Mais le véritable succès viendra de la façon dont vous conservez les données, exploitez des techniques telles que le RAG et la distillation, et innovez au-delà de la phase de pré-entraînement.
Comme l'a dit M. Packer d'AmEx, les entreprises qui gèrent correctement leurs données seront celles qui mèneront la prochaine vague d'innovation dans le domaine de l'IA.