Newsletter

Pourquoi les mathématiques sont difficiles (même si vous êtes une IA)

Les modèles linguistiques ne savent pas comment mémoriser des résultats par multiplication comme nous mémorisons pi, mais cela ne fait pas d'eux des mathématiciens. Le problème est structurel : ils apprennent par similarité statistique, et non par compréhension algorithmique. Même les nouveaux "modèles de raisonnement" tels que o1 échouent sur des tâches triviales : il compte correctement le "r" dans "fraise" après quelques secondes de traitement, mais se trompe lorsqu'il doit écrire un paragraphe dans lequel la deuxième lettre de chaque phrase constitue un mot. La version premium à 200 $/mois prend quatre minutes pour résoudre ce qu'un enfant fait instantanément. DeepSeek et Mistral en 2025 se trompent encore de lettres. La solution émergente ? Une approche hybride : les modèles les plus intelligents ont compris quand appeler une vraie calculatrice au lieu de faire le calcul eux-mêmes. Changement de paradigme : l'IA ne doit pas savoir tout faire, mais orchestrer les bons outils. Paradoxe final : GPT-4 peut vous expliquer brillamment la théorie des limites, mais se trompe dans des multiplications qu'une calculatrice de poche résout toujours correctement. Pour l'enseignement des mathématiques, ils sont excellents - ils expliquent avec une patience infinie, adaptent les exemples, décomposent les raisonnements complexes. Pour des calculs précis ? Faites confiance à la calculatrice, pas à l'intelligence artificielle.

Nombreux sont ceux qui s'appuient sur le LLM pour effectuer des opérations mathématiques. Cette approche ne fonctionne pas.

Le problème est en fait simple : les grands modèles de langage (LLM) ne savent pas vraiment comment multiplier. Ils peuvent parfois obtenir un résultat correct, tout comme je peux connaître la valeur de pi par cœur. Mais cela ne signifie pas que je suis un mathématicien, ni que les LLM savent vraiment faire des mathématiques.

Exemple pratique

Exemple : 49858 *59949 = 298896167242 Ce résultat est toujours le même, il n'y a pas de juste milieu. Il est soit juste, soit faux.

Même avec une formation mathématique massive, les meilleurs modèles ne parviennent à résoudre correctement qu'une partie des opérations. Une simple calculatrice de poche, en revanche, obtient toujours 100 % de résultats corrects. Et plus les chiffres sont importants, plus les performances des LLM sont mauvaises.

Est-il possible de résoudre ce problème ?

Le problème fondamental est que ces modèles apprennent par similitude et non par compréhension. Ils fonctionnent mieux avec des problèmes similaires à ceux sur lesquels ils ont été formés, mais ne parviennent jamais à une véritable compréhension de ce qu'ils disent.

Pour ceux qui souhaitent en savoir plus, je vous propose cet article sur "le fonctionnement d'un LLM".

Une calculatrice, en revanche, utilise un algorithme précis programmé pour effectuer l'opération mathématique.

C'est pourquoi nous ne devrions jamais nous fier entièrement aux LLM pour les calculs mathématiques : même dans les meilleures conditions, avec d'énormes quantités de données d'entraînement spécifiques, ils ne peuvent pas garantir la fiabilité, même pour les opérations les plus élémentaires. Une approche hybride pourrait fonctionner, mais les LLM seuls ne suffisent pas. Cette approche sera peut-être suivie pour résoudre le"problème de la fraise".

Applications des LLM dans l'étude des mathématiques

Dans le contexte éducatif, les LLM peuvent agir comme des tuteurs personnalisés, capables d'adapter les explications au niveau de compréhension de l'étudiant. Par exemple, lorsqu'un étudiant est confronté à un problème de calcul différentiel, le LLM peut décomposer le raisonnement en étapes plus simples, en fournissant des explications détaillées pour chaque étape du processus de résolution. Cette approche permet d'acquérir une solide compréhension des concepts fondamentaux.

Un aspect particulièrement intéressant est la capacité des LLM à générer des exemples pertinents et variés. Si un étudiant essaie de comprendre le concept de limite, le LLM peut présenter différents scénarios mathématiques, en commençant par des cas simples et en progressant vers des situations plus complexes, ce qui permet une compréhension progressive du concept.

Une application prometteuse est l'utilisation du LLM pour la traduction de concepts mathématiques complexes dans un langage naturel plus accessible. Cela facilite la communication des mathématiques à un public plus large et peut aider à surmonter la barrière traditionnelle de l'accès à cette discipline.

Les LLM peuvent également contribuer à la préparation du matériel pédagogique, en générant des exercices de difficulté variable et en fournissant un retour d'information détaillé sur les solutions proposées par les étudiants. Les enseignants peuvent ainsi mieux personnaliser le parcours d'apprentissage de leurs élèves.

Le véritable avantage

Il convient également de prendre en considération, de manière plus générale, l'extrême "patience" dont il faut faire preuve pour aider même l'élève le moins "capable" à apprendre : dans ce cas, l'absence d'émotions est un atout. Malgré cela, même l'ai perd parfois patience. Voir cet exemple "amusant amusant.

Mise à jour 2025 : Modèles de raisonnement et approche hybride

La période 2024-2025 a été marquée par l'arrivée de "modèles de raisonnement" tels que OpenAI o1 et deepseek R1. Ces modèles ont obtenu des résultats impressionnants sur des benchmarks mathématiques : o1 résout correctement 83 % des problèmes de l'Olympiade internationale de mathématiques, contre 13 % pour GPT-4o. Mais attention : ils n'ont pas résolu le problème fondamental décrit ci-dessus.

Le problème de la fraise - compter les "r" dans "fraise" - illustre parfaitement la limitation persistante. o1 le résout correctement après quelques secondes de "raisonnement", mais si vous lui demandez d'écrire un paragraphe où la deuxième lettre de chaque phrase constitue le mot "CODE", il échoue. o1-pro, la version à 200 $/mois, le résout... après 4 minutes de traitement. DeepSeek R1 et d'autres modèles récents se trompent encore dans le décompte de base. En février 2025, Mistral n'a cessé de répondre qu'il n'y avait que deux "r" dans "fraise".

L'astuce qui émerge est l'approche hybride : lorsqu'ils doivent multiplier 49858 par 5994949, les modèles les plus avancés n'essaient plus de "deviner" le résultat en se basant sur les similitudes avec les calculs vus lors de la formation. Au lieu de cela, ils appellent une calculatrice ou exécutent un code Python, exactement comme le ferait un être humain intelligent qui connaît ses limites.

Cette "utilisation d'outils" représente un changement de paradigme : l'intelligence artificielle ne doit pas être capable de tout faire par elle-même, mais doit être capable d'orchestrer les bons outils. Les modèles de raisonnement combinent la capacité linguistique pour comprendre le problème, le raisonnement pas à pas pour planifier la solution et la délégation à des outils spécialisés (calculateurs, interprètes Python, bases de données) pour une exécution précise.

La leçon ? Les LLM de 2025 sont plus utiles en mathématiques non pas parce qu'ils ont "appris" à multiplier - ils ne l'ont pas encore vraiment fait - mais parce que certains d'entre eux ont commencé à comprendre quand déléguer la multiplication à ceux qui peuvent réellement la faire. Le problème de base demeure : ils fonctionnent par similarité statistique, et non par compréhension algorithmique. Une calculatrice à 5 euros reste infiniment plus fiable pour des calculs précis.

Ressources pour la croissance des entreprises

9 novembre 2025

Réglementation de l'IA pour les applications grand public : comment se préparer aux nouvelles réglementations de 2025

2025 marque la fin de l'ère du "Far West" de l'IA : AI Act EU opérationnel à partir d'août 2024 avec des obligations de maîtrise de l'IA à partir du 2 février 2025, gouvernance et GPAI à partir du 2 août. La Californie fait figure de pionnière avec le SB 243 (né après le suicide de Sewell Setzer, une adolescente de 14 ans ayant développé une relation émotionnelle avec un chatbot) qui impose l'interdiction des systèmes de récompense compulsifs, la détection des idées de suicide, un rappel toutes les 3 heures "Je ne suis pas humain", des audits publics indépendants, des pénalités de 1 000 $/violation. Le SB 420 exige des évaluations d'impact pour les "décisions automatisées à haut risque" avec des droits d'appel de révision humaine. Application réelle : Noom a été cité en 2022 pour des robots se faisant passer pour des entraîneurs humains ; règlement de 56 millions de dollars. Tendance nationale : l'Alabama, Hawaï, l'Illinois, le Maine et le Massachusetts considèrent l'absence de notification des robots de conversation comme une violation de l'UDAP. Approche à trois niveaux des systèmes à risque critique (soins de santé/transports/énergie) : certification préalable au déploiement, divulgation transparente au consommateur, enregistrement à des fins générales + tests de sécurité. Patchwork réglementaire sans préemption fédérale : les entreprises présentes dans plusieurs États doivent s'adapter à des exigences variables. UE à partir d'août 2026 : informer les utilisateurs de l'interaction de l'IA à moins qu'elle ne soit évidente, le contenu généré par l'IA doit être étiqueté comme étant lisible par une machine.
9 novembre 2025

Réglementer ce qui n'est pas créé : l'Europe risque-t-elle d'être dépassée sur le plan technologique ?

L'Europe n'attire qu'un dixième des investissements mondiaux dans le domaine de l'intelligence artificielle, mais prétend dicter les règles mondiales. C'est ce qu'on appelle "l'effet Bruxelles" : imposer des règles à l'échelle planétaire grâce à son pouvoir de marché sans stimuler l'innovation. La loi sur l'IA entre en vigueur selon un calendrier échelonné jusqu'en 2027, mais les multinationales de la technologie y répondent par des stratégies d'évasion créatives : elles invoquent le secret commercial pour éviter de révéler les données de formation, produisent des résumés techniquement conformes mais incompréhensibles, utilisent l'auto-évaluation pour déclasser les systèmes de "risque élevé" à "risque minimal", font du "forum shopping" en choisissant des États membres où les contrôles sont moins stricts. Le paradoxe du droit d'auteur extraterritorial : l'UE exige qu'OpenAI se conforme aux lois européennes même pour la formation en dehors de l'Europe - un principe jamais vu auparavant dans le droit international. Le "modèle dual" émerge : versions européennes limitées contre versions mondiales avancées des mêmes produits d'IA. Risque réel : l'Europe devient une "forteresse numérique" isolée de l'innovation mondiale, les citoyens européens ayant accès à des technologies inférieures. La Cour de justice, dans l'affaire de l'évaluation du crédit, a déjà rejeté la défense fondée sur le "secret commercial", mais l'incertitude interprétative reste énorme : que signifie exactement un "résumé suffisamment détaillé" ? Personne ne le sait. Dernière question non résolue : l'UE crée-t-elle une troisième voie éthique entre le capitalisme américain et le contrôle de l'État chinois, ou exporte-t-elle simplement la bureaucratie dans un domaine où elle n'est pas en concurrence ? Pour l'instant : leader mondial dans la réglementation de l'IA, marginal dans son développement. Vaste programme.
9 novembre 2025

Outliers : Quand la science des données rencontre les histoires à succès

La science des données a bouleversé le paradigme : les valeurs aberrantes ne sont plus des "erreurs à éliminer", mais des informations précieuses à comprendre. Une seule valeur aberrante peut complètement fausser un modèle de régression linéaire - faire passer la pente de 2 à 10 - mais l'éliminer pourrait signifier perdre le signal le plus important de l'ensemble de données. L'apprentissage automatique introduit des outils sophistiqués : Isolation Forest isole les valeurs aberrantes en construisant des arbres de décision aléatoires, Local Outlier Factor analyse la densité locale, Autoencoders reconstruit les données normales et signale ce qu'il ne peut pas reproduire. Il existe des valeurs aberrantes globales (température de -10°C sous les tropiques), des valeurs aberrantes contextuelles (dépenser 1 000 euros dans un quartier pauvre), des valeurs aberrantes collectives (pics de trafic synchronisés sur le réseau indiquant une attaque). Parallèle avec Gladwell : la "règle des 10 000 heures" est contestée - Paul McCartney dixit "de nombreux groupes ont fait 10 000 heures à Hambourg sans succès, la théorie n'est pas infaillible". Le succès des mathématiques en Asie n'est pas génétique mais culturel : le système numérique chinois est plus intuitif, la culture du riz nécessite une amélioration constante, alors que l'agriculture occidentale est fondée sur l'expansion territoriale. Applications réelles : les banques britanniques récupèrent 18 % de leurs pertes potentielles grâce à la détection d'anomalies en temps réel, le secteur manufacturier détecte des défauts microscopiques qui échapperaient à une inspection humaine, le secteur de la santé valide les données d'essais cliniques avec une sensibilité de détection d'anomalies de plus de 85 %. Dernière leçon : alors que la science des données passe de l'élimination des valeurs aberrantes à leur compréhension, nous devons considérer les carrières non conventionnelles non pas comme des anomalies à corriger, mais comme des trajectoires précieuses à étudier.