Nombreux sont ceux qui s'appuient sur le LLM pour effectuer des opérations mathématiques. Cette approche ne fonctionne pas.
Le problème est en fait simple : les grands modèles de langage (LLM) ne savent pas vraiment comment multiplier. Ils peuvent parfois obtenir un résultat correct, tout comme je peux connaître la valeur de pi par cœur. Mais cela ne signifie pas que je suis un mathématicien, ni que les LLM savent vraiment faire des mathématiques.
Exemple pratique
Exemple : 49858 *59949 = 298896167242 Ce résultat est toujours le même, il n'y a pas de juste milieu. Il est soit juste, soit faux.

Même avec une formation mathématique massive, les meilleurs modèles ne parviennent à résoudre correctement qu'une partie des opérations. Une simple calculatrice de poche, en revanche, obtient toujours 100 % de résultats corrects. Et plus les chiffres sont importants, plus les performances des LLM sont mauvaises.

Est-il possible de résoudre ce problème ?
Le problème fondamental est que ces modèles apprennent par similitude et non par compréhension. Ils fonctionnent mieux avec des problèmes similaires à ceux sur lesquels ils ont été formés, mais ne parviennent jamais à une véritable compréhension de ce qu'ils disent.
Pour ceux qui souhaitent en savoir plus, je vous propose cet article sur "le fonctionnement d'un LLM".
Une calculatrice, en revanche, utilise un algorithme précis programmé pour effectuer l'opération mathématique.
C'est pourquoi nous ne devrions jamais nous fier entièrement aux LLM pour les calculs mathématiques : même dans les meilleures conditions, avec d'énormes quantités de données d'entraînement spécifiques, ils ne peuvent pas garantir la fiabilité, même pour les opérations les plus élémentaires. Une approche hybride pourrait fonctionner, mais les LLM seuls ne suffisent pas. Cette approche sera peut-être suivie pour résoudre le"problème de la fraise".
Applications des LLM dans l'étude des mathématiques
Dans le contexte éducatif, les LLM peuvent agir comme des tuteurs personnalisés, capables d'adapter les explications au niveau de compréhension de l'étudiant. Par exemple, lorsqu'un étudiant est confronté à un problème de calcul différentiel, le LLM peut décomposer le raisonnement en étapes plus simples, en fournissant des explications détaillées pour chaque étape du processus de résolution. Cette approche permet d'acquérir une solide compréhension des concepts fondamentaux.
Un aspect particulièrement intéressant est la capacité des LLM à générer des exemples pertinents et variés. Si un étudiant essaie de comprendre le concept de limite, le LLM peut présenter différents scénarios mathématiques, en commençant par des cas simples et en progressant vers des situations plus complexes, ce qui permet une compréhension progressive du concept.
Une application prometteuse est l'utilisation du LLM pour la traduction de concepts mathématiques complexes dans un langage naturel plus accessible. Cela facilite la communication des mathématiques à un public plus large et peut aider à surmonter la barrière traditionnelle de l'accès à cette discipline.
Les LLM peuvent également contribuer à la préparation du matériel pédagogique, en générant des exercices de difficulté variable et en fournissant un retour d'information détaillé sur les solutions proposées par les étudiants. Les enseignants peuvent ainsi mieux personnaliser le parcours d'apprentissage de leurs élèves.
Le véritable avantage
Il convient également de prendre en considération, de manière plus générale, l'extrême "patience" dont il faut faire preuve pour aider même l'élève le moins "capable" à apprendre : dans ce cas, l'absence d'émotions est un atout. Malgré cela, même l'ai perd parfois patience. Voir cet exemple "amusant amusant.

Mise à jour 2025 : Modèles de raisonnement et approche hybride
La période 2024-2025 a été marquée par l'arrivée de "modèles de raisonnement" tels que OpenAI o1 et deepseek R1. Ces modèles ont obtenu des résultats impressionnants sur des benchmarks mathématiques : o1 résout correctement 83 % des problèmes de l'Olympiade internationale de mathématiques, contre 13 % pour GPT-4o. Mais attention : ils n'ont pas résolu le problème fondamental décrit ci-dessus.
Le problème de la fraise - compter les "r" dans "fraise" - illustre parfaitement la limitation persistante. o1 le résout correctement après quelques secondes de "raisonnement", mais si vous lui demandez d'écrire un paragraphe où la deuxième lettre de chaque phrase constitue le mot "CODE", il échoue. o1-pro, la version à 200 $/mois, le résout... après 4 minutes de traitement. DeepSeek R1 et d'autres modèles récents se trompent encore dans le décompte de base. En février 2025, Mistral n'a cessé de répondre qu'il n'y avait que deux "r" dans "fraise".
L'astuce qui émerge est l'approche hybride : lorsqu'ils doivent multiplier 49858 par 5994949, les modèles les plus avancés n'essaient plus de "deviner" le résultat en se basant sur les similitudes avec les calculs vus lors de la formation. Au lieu de cela, ils appellent une calculatrice ou exécutent un code Python, exactement comme le ferait un être humain intelligent qui connaît ses limites.
Cette "utilisation d'outils" représente un changement de paradigme : l'intelligence artificielle ne doit pas être capable de tout faire par elle-même, mais doit être capable d'orchestrer les bons outils. Les modèles de raisonnement combinent la capacité linguistique pour comprendre le problème, le raisonnement pas à pas pour planifier la solution et la délégation à des outils spécialisés (calculateurs, interprètes Python, bases de données) pour une exécution précise.
La leçon ? Les LLM de 2025 sont plus utiles en mathématiques non pas parce qu'ils ont "appris" à multiplier - ils ne l'ont pas encore vraiment fait - mais parce que certains d'entre eux ont commencé à comprendre quand déléguer la multiplication à ceux qui peuvent réellement la faire. Le problème de base demeure : ils fonctionnent par similarité statistique, et non par compréhension algorithmique. Une calculatrice à 5 euros reste infiniment plus fiable pour des calculs précis.