Newsletter

Pourquoi les mathématiques sont difficiles (même si vous êtes une IA)

Les modèles linguistiques ne savent pas comment mémoriser des résultats par multiplication comme nous mémorisons pi, mais cela ne fait pas d'eux des mathématiciens. Le problème est structurel : ils apprennent par similarité statistique, et non par compréhension algorithmique. Même les nouveaux "modèles de raisonnement" tels que o1 échouent sur des tâches triviales : il compte correctement le "r" dans "fraise" après quelques secondes de traitement, mais se trompe lorsqu'il doit écrire un paragraphe dans lequel la deuxième lettre de chaque phrase constitue un mot. La version premium à 200 $/mois prend quatre minutes pour résoudre ce qu'un enfant fait instantanément. DeepSeek et Mistral en 2025 se trompent encore de lettres. La solution émergente ? Une approche hybride : les modèles les plus intelligents ont compris quand appeler une vraie calculatrice au lieu de faire le calcul eux-mêmes. Changement de paradigme : l'IA ne doit pas savoir tout faire, mais orchestrer les bons outils. Paradoxe final : GPT-4 peut vous expliquer brillamment la théorie des limites, mais se trompe dans des multiplications qu'une calculatrice de poche résout toujours correctement. Pour l'enseignement des mathématiques, ils sont excellents - ils expliquent avec une patience infinie, adaptent les exemples, décomposent les raisonnements complexes. Pour des calculs précis ? Faites confiance à la calculatrice, pas à l'intelligence artificielle.

Nombreux sont ceux qui s'appuient sur le LLM pour effectuer des opérations mathématiques. Cette approche ne fonctionne pas.

Le problème est en fait simple : les grands modèles de langage (LLM) ne savent pas vraiment comment multiplier. Ils peuvent parfois obtenir un résultat correct, tout comme je peux connaître la valeur de pi par cœur. Mais cela ne signifie pas que je suis un mathématicien, ni que les LLM savent vraiment faire des mathématiques.

Exemple pratique

Exemple : 49858 *59949 = 298896167242 Ce résultat est toujours le même, il n'y a pas de juste milieu. Il est soit juste, soit faux.

Même avec une formation mathématique massive, les meilleurs modèles ne parviennent à résoudre correctement qu'une partie des opérations. Une simple calculatrice de poche, en revanche, obtient toujours 100 % de résultats corrects. Et plus les chiffres sont importants, plus les performances des LLM sont mauvaises.

Est-il possible de résoudre ce problème ?

Le problème fondamental est que ces modèles apprennent par similitude et non par compréhension. Ils fonctionnent mieux avec des problèmes similaires à ceux sur lesquels ils ont été formés, mais ne parviennent jamais à une véritable compréhension de ce qu'ils disent.

Pour ceux qui souhaitent en savoir plus, je vous propose cet article sur "le fonctionnement d'un LLM".

Une calculatrice, en revanche, utilise un algorithme précis programmé pour effectuer l'opération mathématique.

C'est pourquoi nous ne devrions jamais nous fier entièrement aux LLM pour les calculs mathématiques : même dans les meilleures conditions, avec d'énormes quantités de données d'entraînement spécifiques, ils ne peuvent pas garantir la fiabilité, même pour les opérations les plus élémentaires. Une approche hybride pourrait fonctionner, mais les LLM seuls ne suffisent pas. Cette approche sera peut-être suivie pour résoudre le"problème de la fraise".

Applications des LLM dans l'étude des mathématiques

Dans le contexte éducatif, les LLM peuvent agir comme des tuteurs personnalisés, capables d'adapter les explications au niveau de compréhension de l'étudiant. Par exemple, lorsqu'un étudiant est confronté à un problème de calcul différentiel, le LLM peut décomposer le raisonnement en étapes plus simples, en fournissant des explications détaillées pour chaque étape du processus de résolution. Cette approche permet d'acquérir une solide compréhension des concepts fondamentaux.

Un aspect particulièrement intéressant est la capacité des LLM à générer des exemples pertinents et variés. Si un étudiant essaie de comprendre le concept de limite, le LLM peut présenter différents scénarios mathématiques, en commençant par des cas simples et en progressant vers des situations plus complexes, ce qui permet une compréhension progressive du concept.

Une application prometteuse est l'utilisation du LLM pour la traduction de concepts mathématiques complexes dans un langage naturel plus accessible. Cela facilite la communication des mathématiques à un public plus large et peut aider à surmonter la barrière traditionnelle de l'accès à cette discipline.

Les LLM peuvent également contribuer à la préparation du matériel pédagogique, en générant des exercices de difficulté variable et en fournissant un retour d'information détaillé sur les solutions proposées par les étudiants. Les enseignants peuvent ainsi mieux personnaliser le parcours d'apprentissage de leurs élèves.

Le véritable avantage

Il convient également de prendre en considération, de manière plus générale, l'extrême "patience" dont il faut faire preuve pour aider même l'élève le moins "capable" à apprendre : dans ce cas, l'absence d'émotions est un atout. Malgré cela, même l'ai perd parfois patience. Voir cet exemple "amusant amusant.

Mise à jour 2025 : Modèles de raisonnement et approche hybride

La période 2024-2025 a été marquée par l'arrivée de "modèles de raisonnement" tels que OpenAI o1 et deepseek R1. Ces modèles ont obtenu des résultats impressionnants sur des benchmarks mathématiques : o1 résout correctement 83 % des problèmes de l'Olympiade internationale de mathématiques, contre 13 % pour GPT-4o. Mais attention : ils n'ont pas résolu le problème fondamental décrit ci-dessus.

Le problème de la fraise - compter les "r" dans "fraise" - illustre parfaitement la limitation persistante. o1 le résout correctement après quelques secondes de "raisonnement", mais si vous lui demandez d'écrire un paragraphe où la deuxième lettre de chaque phrase constitue le mot "CODE", il échoue. o1-pro, la version à 200 $/mois, le résout... après 4 minutes de traitement. DeepSeek R1 et d'autres modèles récents se trompent encore dans le décompte de base. En février 2025, Mistral n'a cessé de répondre qu'il n'y avait que deux "r" dans "fraise".

L'astuce qui émerge est l'approche hybride : lorsqu'ils doivent multiplier 49858 par 5994949, les modèles les plus avancés n'essaient plus de "deviner" le résultat en se basant sur les similitudes avec les calculs vus lors de la formation. Au lieu de cela, ils appellent une calculatrice ou exécutent un code Python, exactement comme le ferait un être humain intelligent qui connaît ses limites.

Cette "utilisation d'outils" représente un changement de paradigme : l'intelligence artificielle ne doit pas être capable de tout faire par elle-même, mais doit être capable d'orchestrer les bons outils. Les modèles de raisonnement combinent la capacité linguistique pour comprendre le problème, le raisonnement pas à pas pour planifier la solution et la délégation à des outils spécialisés (calculateurs, interprètes Python, bases de données) pour une exécution précise.

La leçon ? Les LLM de 2025 sont plus utiles en mathématiques non pas parce qu'ils ont "appris" à multiplier - ils ne l'ont pas encore vraiment fait - mais parce que certains d'entre eux ont commencé à comprendre quand déléguer la multiplication à ceux qui peuvent réellement la faire. Le problème de base demeure : ils fonctionnent par similarité statistique, et non par compréhension algorithmique. Une calculatrice à 5 euros reste infiniment plus fiable pour des calculs précis.

Ressources pour la croissance des entreprises

9 novembre 2025

L'illusion du raisonnement : le débat qui secoue le monde de l'IA

Apple publie deux articles dévastateurs - "GSM-Symbolic" (octobre 2024) et "The Illusion of Thinking" (juin 2025) - qui démontrent l'échec du LLM sur de petites variations de problèmes classiques (Tour de Hanoï, traversée d'une rivière) : "les performances diminuent lorsque seules les valeurs numériques sont modifiées". Zéro succès sur le problème complexe de la Tour de Hanoï. Mais Alex Lawsen (Open Philanthropy) réplique avec "The Illusion of Thinking" qui démontre l'échec de la méthodologie : les échecs étaient dus aux limites de sortie des jetons et non à l'effondrement du raisonnement, les scripts automatiques classaient mal les sorties partielles correctes, certains puzzles étaient mathématiquement insolubles. En répétant les tests avec des fonctions récursives au lieu de lister les mouvements, Claude/Gemini/GPT ont résolu la Tour de Hanoi 15 fois. Gary Marcus adhère à la thèse d'Apple sur le "changement de distribution", mais le document sur la synchronisation avant la conférence mondiale sur le développement durable soulève des questions stratégiques. Implications pour les entreprises : dans quelle mesure faire confiance à l'IA pour les tâches critiques ? Solution : approches neurosymboliques réseaux neuronaux pour la reconnaissance des formes et le langage, systèmes symboliques pour la logique formelle. Exemple : L'IA comptable comprend "combien de frais de voyage ?" mais SQL/calculs/contrôles fiscaux = code déterministe.