Entreprises

Au-delà de l'algorithme : comment les modèles d'intelligence artificielle sont formés et affinés

"Les données sont la clé. Le Saint-Graal de l'IA générative" - Hilary Packer, directrice technique d'American Express. Le traitement des données représente 80 % des efforts déployés dans les projets d'IA. DeepSeek a changé les règles : coût de l'inférence 1/30 par rapport à OpenAI. Dario Amodei : les coûts diminuent de 4 fois par an. "Je m'attends à ce que le coût tombe à zéro" - directeur général d'Intuit. La combinaison distillation + RAG est l'élément magique pour la plupart des entreprises. L'avenir ? Des masses de modèles spécifiques et peu coûteux, ancrés dans les données de l'entreprise.

Comment former un modèle d'intelligence artificielle

L'entraînement des modèles d' intelligence artificielle représente l'un des défis les plus complexes du développement technologique contemporain. Bien plus qu'une simple question algorithmique, la formation efficace d'un modèle nécessite une approche méthodique et multidisciplinaire qui intègre les données, la science des données, la connaissance du domaine et l'ingénierie logicielle. Comme le souligne James Luke dans son texte fondateur"Beyond Algorithms : Delivering AI for Business", le succès d'une mise en œuvre de l'IA dépend beaucoup plus de la gestion des données et de la conception systémique que des algorithmes eux-mêmes. Le paysage évolue rapidement, avec des innovations telles que le modèle DeepSeek-R1 qui redéfinit les coûts et l'accessibilité.

La base : la collecte et la gestion des données

La qualité plutôt que la quantité

Contrairement à ce que l'on croit souvent, la quantité de données n'est pas toujours le facteur déterminant du succès. La qualité et la représentativité des données sont nettement plus importantes. Dans ce contexte, il est crucial d'intégrer différentes sources :

  • Données propriétaires: collectées de manière éthique et anonymisées par les implémentations existantes
  • Données autorisées: proviennent de fournisseurs fiables qui respectent des normes de qualité strictes
  • Jeux de données en libre accès: soigneusement vérifiés pour garantir la diversité et l'exactitude des données
  • Données synthétiques: générées artificiellement pour combler les lacunes et résoudre les problèmes de confidentialité.

Cette intégration permet de créer une base de formation complète qui tient compte des scénarios du monde réel tout en respectant les normes éthiques et de protection de la vie privée.

Le défi de la préparation des données

Le processus de "traitement des données" représente jusqu'à 80 % des efforts requis dans les projets d'intelligence artificielle. Cette phase implique

  • Nettoyage des données: élimination des incohérences, des doublons et des valeurs aberrantes
  • Transformation des données: Conversion en formats adaptés au traitement
  • Intégration de données: Fusion de différentes sources qui utilisent souvent des schémas et des formats incompatibles.
  • Traitement des données manquantes: stratégies telles que l'imputation statistique ou l'utilisation de données de substitution

Comme l'a souligné Hilary Packer, directeur technique d'American Express : "Le moment décisif pour nous, honnêtement, ce sont les données. Vous pouvez faire la meilleure sélection de modèles au monde... mais les données sont la clé. La validation et la précision sont le Saint Graal de l'IA générative".

Architecture du modèle : le bon dimensionnement

Le choix de l'architecture du modèle doit être guidé par la nature spécifique du problème à résoudre, plutôt que par des tendances ou des préférences personnelles. Différents types de problèmes requièrent différentes approches :

  • Modèles linguistiques basés sur des transformateurs pour les tâches nécessitant une compréhension linguistique approfondie
  • Réseaux neuronaux convolutionnels pour la reconnaissance d'images et de formes
  • Réseaux neuronaux graphiques pour l'analyse des relations complexes entre entités
  • Apprentissage par renforcement pour les problèmes d'optimisation et de décision
  • Architectures hybrides combinant plusieurs approches pour des cas d'utilisation complexes

L'optimisation architecturale nécessite une évaluation systématique des différentes configurations, en mettant l'accent sur l'équilibre entre les performances et les exigences informatiques, un aspect qui est devenu encore plus pertinent avec l'avènement de modèles tels que DeepSeek-R1, qui offrent des capacités de raisonnement avancées à des coûts nettement inférieurs.

Méthodologies de formation avancées

Distillation modèle

La distillation est apparue comme un outil particulièrement puissant dans l'écosystème actuel de l'IA. Ce processus permet de créer des modèles plus petits et plus spécifiques qui héritent des capacités de raisonnement de modèles plus grands et plus complexes, tels que DeepSeek-R1.

Comme le montre le cas de DeepSeek, l'entreprise a distillé ses capacités de raisonnement sur plusieurs modèles plus petits, y compris des modèles open-source de la famille Llama de Meta et de la famille Qwen d'Alibaba. Ces petits modèles peuvent ensuite être optimisés pour des tâches spécifiques, ce qui accélère la tendance vers des modèles rapides et spécialisés.

Sam Witteveen, développeur en apprentissage automatique, observe : "Nous commençons à entrer dans un monde où les gens utilisent plusieurs modèles. Ils ne se contentent pas d'utiliser un seul modèle en permanence". Cela inclut les modèles fermés à bas prix tels que Gemini Flash et GPT-4o Mini, qui "fonctionnent très bien pour 80 % des cas d'utilisation".

Apprentissage multitâche

Au lieu de former des modèles distincts pour des compétences connexes, l'apprentissage multitâche permet aux modèles de partager des connaissances entre différentes fonctions :

  • Les modèles optimisent simultanément plusieurs objectifs liés
  • La fonctionnalité de base bénéficie d'une exposition plus large à différentes tâches
  • Les performances s'améliorent dans toutes les tâches, en particulier celles pour lesquelles les données sont limitées.
  • L'efficacité des calculs augmente grâce au partage des composants

Réglage fin supervisé (SFT)

Pour les entreprises opérant dans des domaines très spécifiques, où les informations ne sont pas largement disponibles sur le web ou dans les ouvrages généralement utilisés pour la formation des modèles linguistiques, le réglage fin supervisé (SFT) est une option efficace.

DeepSeek a démontré qu'il est possible d'obtenir de bons résultats avec des "milliers" d'ensembles de questions et de réponses. Par exemple, Chris Hay, ingénieur chez IBM, a montré comment il a mis en place un petit modèle en utilisant ses propres ensembles de données spécifiques aux mathématiques et a obtenu des réponses extrêmement rapides qui ont dépassé les performances du modèle o1 d'OpenAI sur les mêmes tâches.

Apprentissage par renforcement (RL)

Les entreprises qui souhaitent former un modèle en l'alignant davantage sur des préférences spécifiques - par exemple, rendre un chatbot de support client empathique mais concis - voudront mettre en œuvre des techniques d'apprentissage par renforcement (RL). Cette approche est particulièrement utile si une entreprise souhaite que son chatbot adapte son ton et ses recommandations en fonction du retour d'information de l'utilisateur.

Génération améliorée par récupération (RAG)

Pour la plupart des entreprises, la génération améliorée par récupération (RAG) est la voie la plus simple et la plus sûre. Il s'agit d'un processus relativement simple qui permet aux organisations d'ancrer leurs modèles avec des données propriétaires contenues dans leurs bases de données, ce qui garantit que les résultats sont exacts et spécifiques au domaine.

Cette approche permet également de contrer certains des problèmes d'hallucination associés à des modèles tels que DeepSeek, qui hallucinent actuellement dans 14 % des cas, contre 8 % pour le modèle o3 d'OpenAI, selon une étude menée par Vectara.

La combinaison de la distillation de modèles et du RAG est l'élément magique pour la plupart des entreprises, car elle est devenue incroyablement facile à mettre en œuvre, même pour les personnes ayant des compétences limitées en science des données ou en programmation.

Évaluation et perfectionnement : au-delà des mesures de précision

L'efficacité de l'IA ne se mesure pas seulement en termes de précision brute, mais nécessite un cadre d'évaluation complet qui tient compte des éléments suivants

  • Précision fonctionnelle: fréquence à laquelle le modèle produit des résultats corrects
  • Robustesse: constance des performances en cas de variations des données d'entrée et des conditions.
  • Équité: performances constantes pour différents groupes d'utilisateurs et scénarios
  • Étalonnage: alignement entre les indices de confiance et la précision réelle
  • Efficacité: exigences en matière de calcul et de mémoire
  • Explicabilité: transparence des processus de prise de décision, un aspect dans lequel les modèles distillés de DeepSeek excellent, en montrant leur processus de raisonnement.

L'impact de la courbe des coûts

L'impact le plus immédiat de la sortie de DeepSeek est la réduction agressive de son prix. L'industrie technologique s'attendait à ce que les coûts baissent avec le temps, mais peu avaient prévu la rapidité avec laquelle cela se produirait. DeepSeek a démontré que des modèles puissants et ouverts peuvent être à la fois bon marché et efficaces, créant ainsi des possibilités d'expérimentation à grande échelle et de mise en œuvre rentable.

Amr Awadallah, PDG de Vectara, a insisté sur ce point, notant que le véritable point de basculement n'est pas seulement le coût de la formation, mais le coût de l'inférence, qui pour DeepSeek est d'environ 1/30e de celui des modèles o1 ou o3 d'OpenAI par coût d'inférence et par jeton. "Les marges qu'OpenAI, Anthropic et Google Gemini ont pu réaliser devront maintenant être réduites d'au moins 90 % parce qu'ils ne peuvent pas rester compétitifs avec des prix aussi élevés", a déclaré M. Awadallah.

De plus, ces coûts continueront à diminuer. Le PDG d'Anthropic, Dario Amodei, a récemment déclaré que le coût de développement des modèles continue de diminuer à un rythme d'environ quatre fois par an. Par conséquent, le prix facturé par les fournisseurs de LLM pour leur utilisation continuera également à diminuer.

"Je m'attends à ce que le coût soit nul", a déclaré Ashok Srivastava, CDO d'Intuit, une société qui a fortement encouragé l'IA dans ses offres de logiciels fiscaux et comptables tels que TurboTax et Quickbooks. "... et le temps de latence sera réduit à zéro. Ils deviendront simplement des capacités de base que nous pourrons utiliser."

Conclusion : l'avenir de l' IA d'entreprise est ouvert, bon marché et axé sur les données

DeepSeek et Deep Research d'OpenAI sont plus que de nouveaux outils dans l'arsenal de l'IA - ce sont les signes d'un changement profond dans lequel les entreprises déploieront des masses de modèles spécifiques extrêmement rentables, compétents et enracinés dans les données et l'approche de l'entreprise.

Pour les entreprises, le message est clair : les outils permettant de créer de puissantes applications d' IA spécifiques à un domaine sont à portée de main. Vous risquez de prendre du retard si vous ne tirez pas parti de ces outils. Mais le véritable succès viendra de la façon dont vous conservez les données, exploitez des techniques telles que le RAG et la distillation, et innovez au-delà de la phase de pré-entraînement.

Comme l'a dit M. Packer d'AmEx, les entreprises qui gèrent correctement leurs données seront celles qui mèneront la prochaine vague d'innovation dans le domaine de l'IA.

Ressources pour la croissance des entreprises

9 novembre 2025

Guide complet des logiciels de veille stratégique pour les PME

60 % des PME italiennes admettent avoir des lacunes importantes en matière de formation aux données, 29 % n'ont même pas de chiffre dédié - alors que le marché italien de la BI explose de 36,79 milliards de dollars à 69,45 milliards de dollars d'ici 2034 (taux de croissance annuel moyen de 8,56 %). Le problème n'est pas la technologie mais l'approche : les PME se noient dans des données éparpillées entre CRM, ERP, feuilles Excel sans les transformer en décisions. C'est aussi vrai pour celles qui partent de zéro que pour celles qui veulent optimiser. Les critères de choix qui comptent : facilité d'utilisation par glisser-déposer sans des mois de formation, évolutivité qui grandit avec vous, intégration native avec les systèmes existants, coût total de possession (mise en œuvre + formation + maintenance) par rapport au prix de la licence seule. Feuille de route en 4 étapes - objectifs SMART mesurables (réduire le taux de désabonnement de 15 % en 6 mois), cartographie des sources de données propres (garbage in=garbage out), formation de l'équipe à la culture des données, projet pilote avec boucle de rétroaction continue. L'IA change tout : de la BI descriptive (ce qui s'est passé) à l'analyse augmentée qui découvre des modèles cachés, prédictive qui estime la demande future, prescriptive qui suggère des actions concrètes. Electe démocratise ce pouvoir pour les PME.
9 novembre 2025

Système de refroidissement de Google DeepMind AI : comment l'intelligence artificielle révolutionne l'efficacité énergétique des centres de données

Google DeepMind atteint -40% d'énergie de refroidissement dans les centres de données (mais seulement -4% de consommation totale, car le refroidissement représente 10% du total) - une précision de 99,6% avec 0,4% d'erreur sur PUE 1,1 via un apprentissage profond à 5 couches, 50 nœuds, 19 variables d'entrée sur 184 435 échantillons d'entraînement (2 ans de données). Confirmé dans 3 installations : Singapour (premier déploiement en 2016), Eemshaven, Council Bluffs (investissement de 5 milliards de dollars). PUE Google 1,09 contre 1,56-1,58 en moyenne dans l'industrie. Model Predictive Control prédit la température/pression de l'heure suivante en gérant simultanément les charges informatiques, les conditions météorologiques et l'état de l'équipement. Sécurité garantie : vérification à deux niveaux, les opérateurs peuvent toujours désactiver l'IA. Limites critiques : aucune vérification indépendante par des cabinets d'audit ou des laboratoires nationaux, chaque centre de données nécessite un modèle personnalisé (8 ans sans commercialisation). La mise en œuvre, d'une durée de 6 à 18 mois, nécessite une équipe pluridisciplinaire (science des données, chauffage, ventilation et climatisation, gestion des installations). Applicable au-delà des centres de données : installations industrielles, hôpitaux, centres commerciaux, bureaux d'entreprise. 2024-2025 : Google passe au refroidissement liquide direct pour le TPU v5p, indiquant les limites pratiques de l'optimisation de l'IA.
9 novembre 2025

Pourquoi les mathématiques sont difficiles (même si vous êtes une IA)

Les modèles linguistiques ne savent pas comment mémoriser des résultats par multiplication comme nous mémorisons pi, mais cela ne fait pas d'eux des mathématiciens. Le problème est structurel : ils apprennent par similarité statistique, et non par compréhension algorithmique. Même les nouveaux "modèles de raisonnement" tels que o1 échouent sur des tâches triviales : il compte correctement le "r" dans "fraise" après quelques secondes de traitement, mais se trompe lorsqu'il doit écrire un paragraphe dans lequel la deuxième lettre de chaque phrase constitue un mot. La version premium à 200 $/mois prend quatre minutes pour résoudre ce qu'un enfant fait instantanément. DeepSeek et Mistral en 2025 se trompent encore de lettres. La solution émergente ? Une approche hybride : les modèles les plus intelligents ont compris quand appeler une vraie calculatrice au lieu de faire le calcul eux-mêmes. Changement de paradigme : l'IA ne doit pas savoir tout faire, mais orchestrer les bons outils. Paradoxe final : GPT-4 peut vous expliquer brillamment la théorie des limites, mais se trompe dans des multiplications qu'une calculatrice de poche résout toujours correctement. Pour l'enseignement des mathématiques, ils sont excellents - ils expliquent avec une patience infinie, adaptent les exemples, décomposent les raisonnements complexes. Pour des calculs précis ? Faites confiance à la calculatrice, pas à l'intelligence artificielle.