Comment former un modèle d'intelligence artificielle
La formation de modèles d'intelligence artificielle représente l'un des défis les plus complexes du développement technologique contemporain. Bien plus qu'une simple question algorithmique, la formation efficace d'un modèle nécessite une approche méthodique et multidisciplinaire qui intègre la science des données, la connaissance du domaine et l'ingénierie logicielle. Comme le souligne James Luke dans son texte fondateur"Beyond Algorithms : Delivering AI for Business", le succès d'une mise en œuvre de l'IA dépend beaucoup plus de la gestion des données et de la conception systémique que des algorithmes eux-mêmes. Le paysage évolue rapidement, avec des innovations telles que le modèle DeepSeek-R1 qui redéfinit les coûts et l'accessibilité.
La base : la collecte et la gestion des données
La qualité plutôt que la quantité
Contrairement à ce que l'on croit souvent, la quantité de données n'est pas toujours le facteur déterminant du succès. La qualité et la représentativité des données sont nettement plus importantes. Dans ce contexte, il est crucial d'intégrer différentes sources :
- Données propriétaires: collectées de manière éthique et anonymisées par les implémentations existantes
- Données autorisées: proviennent de fournisseurs fiables qui respectent des normes de qualité strictes
- Jeux de données en libre accès: soigneusement vérifiés pour garantir la diversité et l'exactitude des données
- Données synthétiques: générées artificiellement pour combler les lacunes et résoudre les problèmes de confidentialité.
Cette intégration permet de créer une base de formation complète qui tient compte des scénarios du monde réel tout en respectant les normes éthiques et de protection de la vie privée.
Le défi de la préparation des données
Le processus de "traitement des données" représente jusqu'à 80 % des efforts requis dans les projets d'intelligence artificielle. Cette phase implique
- Nettoyage des données: élimination des incohérences, des doublons et des valeurs aberrantes
- Transformation des données: Conversion en formats adaptés au traitement
- Intégration de données: Fusion de différentes sources qui utilisent souvent des schémas et des formats incompatibles.
- Traitement des données manquantes: stratégies telles que l'imputation statistique ou l'utilisation de données de substitution
Architecture du modèle : le bon dimensionnement
Le choix de l'architecture du modèle doit être guidé par la nature spécifique du problème à résoudre, plutôt que par des tendances ou des préférences personnelles. Différents types de problèmes requièrent différentes approches :
- Modèles linguistiques basés sur des transformateurs pour les tâches nécessitant une compréhension linguistique approfondie
- Réseaux neuronaux convolutionnels pour la reconnaissance d'images et de formes
- Réseaux neuronaux graphiques pour l'analyse des relations complexes entre entités
- Apprentissage par renforcement pour les problèmes d'optimisation et de décision
- Architectures hybrides combinant plusieurs approches pour des cas d'utilisation complexes
L'optimisation architecturale nécessite une évaluation systématique des différentes configurations, en mettant l'accent sur l'équilibre entre les performances et les exigences informatiques, un aspect qui est devenu encore plus pertinent avec l'avènement de modèles tels que DeepSeek-R1, qui offrent des capacités de raisonnement avancées à des coûts nettement inférieurs.
Méthodologies de formation avancées
Distillation modèle
La distillation est apparue comme un outil particulièrement puissant dans l'écosystème actuel de l'IA. Ce processus permet de créer des modèles plus petits et plus spécifiques qui héritent des capacités de raisonnement de modèles plus grands et plus complexes, tels que DeepSeek-R1.
Comme le montre le cas de DeepSeek, l'entreprise a distillé ses capacités de raisonnement sur plusieurs modèles plus petits, y compris des modèles open-source de la famille Llama de Meta et de la famille Qwen d'Alibaba. Ces petits modèles peuvent ensuite être optimisés pour des tâches spécifiques, ce qui accélère la tendance vers des modèles rapides et spécialisés.
Sam Witteveen, développeur en apprentissage automatique, observe : "Nous commençons à entrer dans un monde où les gens utilisent plusieurs modèles. Ils ne se contentent pas d'utiliser un seul modèle en permanence". Cela inclut les modèles fermés à bas prix tels que Gemini Flash et GPT-4o Mini, qui "fonctionnent très bien pour 80 % des cas d'utilisation".
Apprentissage multitâche
Au lieu de former des modèles distincts pour des compétences connexes, l'apprentissage multitâche permet aux modèles de partager des connaissances entre différentes fonctions :
- Les modèles optimisent simultanément plusieurs objectifs liés
- La fonctionnalité de base bénéficie d'une exposition plus large à différentes tâches
- Les performances s'améliorent dans toutes les tâches, en particulier celles pour lesquelles les données sont limitées.
- L'efficacité des calculs augmente grâce au partage des composants
Réglage fin supervisé (SFT)
Pour les entreprises opérant dans des domaines très spécifiques, où les informations ne sont pas largement disponibles sur le web ou dans les ouvrages généralement utilisés pour la formation des modèles linguistiques, le réglage fin supervisé (SFT) est une option efficace.
DeepSeek a démontré qu'il est possible d'obtenir de bons résultats avec des "milliers" d'ensembles de questions et de réponses. Par exemple, Chris Hay, ingénieur chez IBM, a montré comment il a mis en place un petit modèle en utilisant ses propres ensembles de données spécifiques aux mathématiques et a obtenu des réponses extrêmement rapides qui ont dépassé les performances du modèle o1 d'OpenAI sur les mêmes tâches.
Apprentissage par renforcement (RL)
Les entreprises qui souhaitent former un modèle en l'alignant davantage sur des préférences spécifiques - par exemple, rendre un chatbot de support client empathique mais concis - voudront mettre en œuvre des techniques d'apprentissage par renforcement (RL). Cette approche est particulièrement utile si une entreprise souhaite que son chatbot adapte son ton et ses recommandations en fonction du retour d'information de l'utilisateur.
Génération améliorée par récupération (RAG)
Pour la plupart des entreprises, la génération améliorée par récupération (RAG) est la voie la plus simple et la plus sûre. Il s'agit d'un processus relativement simple qui permet aux organisations d'ancrer leurs modèles avec des données propriétaires contenues dans leurs bases de données, ce qui garantit que les résultats sont exacts et spécifiques au domaine.
Cette approche permet également de contrer certains des problèmes d'hallucination associés à des modèles tels que DeepSeek, qui hallucinent actuellement dans 14 % des cas, contre 8 % pour le modèle o3 d'OpenAI, selon une étude menée par Vectara.
La combinaison de la distillation de modèles et du RAG est l'élément magique pour la plupart des entreprises, car elle est devenue incroyablement facile à mettre en œuvre, même pour les personnes ayant des compétences limitées en science des données ou en programmation.
Évaluation et perfectionnement : au-delà des mesures de précision
L'efficacité de l'IA ne se mesure pas seulement en termes de précision brute, mais nécessite un cadre d'évaluation complet qui tient compte des éléments suivants
- Précision fonctionnelle: fréquence à laquelle le modèle produit des résultats corrects
- Robustesse: constance des performances en cas de variations des données d'entrée et des conditions.
- Équité: performances constantes pour différents groupes d'utilisateurs et scénarios
- Étalonnage: alignement entre les indices de confiance et la précision réelle
- Efficacité: exigences en matière de calcul et de mémoire
- Explicabilité: transparence des processus de prise de décision, un aspect dans lequel les modèles distillés de DeepSeek excellent, en montrant leur processus de raisonnement.
L'impact de la courbe des coûts
L'impact le plus immédiat de la sortie de DeepSeek est la réduction agressive de son prix. L'industrie technologique s'attendait à ce que les coûts baissent avec le temps, mais peu avaient prévu la rapidité avec laquelle cela se produirait. DeepSeek a démontré que des modèles puissants et ouverts peuvent être à la fois bon marché et efficaces, créant ainsi des possibilités d'expérimentation à grande échelle et de mise en œuvre rentable.
Amr Awadallah, PDG de Vectara, a insisté sur ce point, notant que le véritable point de basculement n'est pas seulement le coût de la formation, mais le coût de l'inférence, qui pour DeepSeek est d'environ 1/30e de celui des modèles o1 ou o3 d'OpenAI par coût d'inférence et par jeton. "Les marges qu'OpenAI, Anthropic et Google Gemini ont pu réaliser devront maintenant être réduites d'au moins 90 % parce qu'ils ne peuvent pas rester compétitifs avec des prix aussi élevés", a déclaré M. Awadallah.
De plus, ces coûts continueront à diminuer. Le PDG d'Anthropic, Dario Amodei, a récemment déclaré que le coût de développement des modèles continue de diminuer à un rythme d'environ quatre fois par an. Par conséquent, le prix facturé par les fournisseurs de LLM pour leur utilisation continuera également à diminuer.
"Je m'attends à ce que le coût soit nul", a déclaré Ashok Srivastava, CDO d'Intuit, une société qui a fortement encouragé l'IA dans ses offres de logiciels fiscaux et comptables tels que TurboTax et Quickbooks. "... et le temps de latence sera réduit à zéro. Ils deviendront simplement des capacités de base que nous pourrons utiliser."
Conclusion : l'avenir de l'IA pour les entreprises est ouvert, bon marché et axé sur les données
DeepSeek et Deep Research d'OpenAI sont plus que de nouveaux outils dans l'arsenal de l'IA - ce sont les signes d'un changement profond dans lequel les entreprises déploieront des masses de modèles spécifiques extrêmement rentables, compétents et enracinés dans les données et l'approche de l'entreprise.
Pour les entreprises, le message est clair : les outils permettant de créer de puissantes applications d'IA spécifiques à un domaine sont à portée de main. Vous risquez de prendre du retard si vous ne tirez pas parti de ces outils. Mais le véritable succès viendra de la façon dont vous conservez les données, exploitez des techniques telles que le RAG et la distillation, et innovez au-delà de la phase de pré-entraînement.
Comme l'a dit M. Packer d'AmEx, les entreprises qui gèrent correctement leurs données seront celles qui mèneront la prochaine vague d'innovation dans le domaine de l'IA.