Newsletter

Le problème des fraises

Combien y a-t-il de "r" dans fraise ? - GPT-4o répond "deux", un enfant de six ans sait que c'est trois. Le problème est la tokenisation : le modèle voit [str][aw][berry], pas des lettres. OpenAI n'a pas résolu ce problème avec o1 - il l'a contourné en apprenant au modèle à "réfléchir avant de parler". Résultat : 83 % contre 13 % aux Olympiades de mathématiques, mais 30 secondes au lieu de 3 et un coût trois fois plus élevé. Les modèles de langage sont des outils probabilistes extraordinaires, mais il faut toujours un humain pour compter.

Du problème de la fraise au modèle o1 : comment OpenAI a résolu (en partie) la limite de la tokenisation

Au cours de l'été 2024, un mème Internet viral a mis dans l'embarras les modèles linguistiques les plus avancés du monde : "Combien de "r" y a-t-il dans le mot "fraise" ?" La bonne réponse est trois, mais GPT-4o s'est obstiné à répondre "deux". Une erreur apparemment insignifiante qui a révélé une limite fondamentale des modèles linguistiques : leur incapacité à analyser les lettres individuelles à l'intérieur des mots.

Le 12 septembre 2024, OpenAI a publié o1 - connu sous le nom de code "Strawberry" - le premier modèle d'une nouvelle série de "modèles de raisonnement" conçus spécifiquement pour surmonter ce type de limitation. Et oui, le nom n'est pas un hasard : comme l'a confirmé un chercheur de l'OpenAI, o1 parvient enfin à compter correctement le "r" dans "fraise".

Mais la solution n'est pas celle imaginée dans l'article original. OpenAI n'a pas "appris" au modèle à analyser les mots lettre par lettre. Elle a plutôt développé une approche complètement différente : apprendre au modèle à "raisonner" avant de répondre.

Le problème du comptage : pourquoi les modèles se trompent-ils ?

Le problème reste ancré dans la tokenisation - le processus fondamental par lequel les modèles de langage traitent le texte. Comme l'explique un article technique publié sur arXiv en mai 2025 ("The Strawberry Problem : Emergence of Character-level Understanding in Tokenized Language Models"), les modèles ne considèrent pas les mots comme des séquences de lettres mais comme des "tokens" - des unités de sens converties en nombres.

Lorsque GPT-4 traite le mot "strawberry", son tokenizer le divise en trois parties : [str][aw][berry], chacune ayant un identifiant numérique spécifique (496, 675, 15717). Pour le modèle, "strawberry" n'est pas une séquence de 10 lettres mais une séquence de 3 jetons numériques. C'est comme s'il lisait un livre où chaque mot est remplacé par un code et que quelqu'un lui demandait de compter les lettres d'un code qu'il n'a jamais vu écrit.

Le problème se complique avec les mots composés. Le mot "Timekeeper" est fragmenté en jetons distincts, ce qui empêche le modèle de déterminer la position exacte des lettres sans un processus de raisonnement explicite. La fragmentation affecte non seulement le comptage des lettres, mais aussi la compréhension de la structure interne des mots.

La solution o1 : Raisonner avant de répondre

OpenAI o1 a résolu le problème d'une manière inattendue : au lieu de modifier la tokenisation - ce qui est techniquement difficile et compromettrait l'efficacité du modèle - elle a appris au système à "réfléchir avant de parler" à l'aide d'une technique appelée "raisonnement par chaîne de pensée".

Lorsque vous demandez à o1 combien de "r" il y a dans "fraise", le modèle ne répond pas immédiatement. Il passe plusieurs secondes - parfois même quelques minutes pour les questions complexes - à traiter en interne une "chaîne de raisonnement" cachée à l'utilisateur. Ce processus lui permet de

  1. Reconnaître que la demande nécessite une analyse au niveau du personnage
  2. Développer une stratégie pour décomposer le mot
  3. Tester la réponse par différentes approches
  4. Corriger les erreurs éventuelles avant de donner la réponse finale

Comme l'explique Noam Brown, chercheur à l'OpenAI, dans une série de billets sur X : "o1 est entraîné par apprentissage par renforcement à "penser" avant de répondre via une chaîne de pensée privée. Le modèle reçoit des récompenses pendant la formation pour chaque étape correcte du processus de raisonnement, et pas seulement pour la bonne réponse finale.

Les résultats sont impressionnants mais coûteux. Lors d'un examen de qualification pour les Olympiades internationales de mathématiques, o1 a résolu 83 % des problèmes correctement, contre 13 % pour GPT-4o. Pour les questions de niveau doctoral en sciences, il a atteint 78 % de précision contre 56 % pour le GPT-4o. Mais cette puissance a un prix : o1 prend plus de 30 secondes pour répondre à des questions que GPT-4o résout en 3 secondes, et coûte 15 dollars par million de jetons entrés, contre 5 dollars pour GPT-4o.

Chaîne de pensée : comment ça marche vraiment

La technique n'est pas magique mais méthodique. Lorsqu'il reçoit une invite, o1 génère en interne une longue séquence de "pensées" qui ne sont pas montrées à l'utilisateur. Pour le problème "r" dans "fraise", le processus interne pourrait être le suivant :

"Je dois d'abord comprendre la structure des mots. Fraise pourrait être symbolisé par [str][aw][berry]. Pour compter les "r", je dois reconstruire le mot complet au niveau des caractères. Str contient : s-t-r (1 'r'). Aw contient : a-w (0 'r'). Berry contient : b-e-r-y (2 'r'). Total : 1+0+2 = 3 "r". Je vérifie : fraise = s-t-r-a-w-b-e-r-r-y. Je compte les "r" : position 3, position 8, position 9. Confirmé : 3 'r'."

Ce raisonnement interne est caché par conception. OpenAI interdit explicitement aux utilisateurs de tenter de révéler la chaîne de pensée d'o1, en surveillant les invites et en révoquant potentiellement l'accès à ceux qui enfreignent cette règle. L'entreprise invoque des raisons de sécurité de l'IA et d'avantage concurrentiel, mais la décision a été critiquée comme une perte de transparence par les développeurs travaillant avec des modèles de langage.

Limites persistantes : o1 Pas parfait

Malgré ces progrès, o1 n'a pas complètement résolu le problème. Une recherche publiée dans Language Log en janvier 2025 a testé différents modèles sur un défi plus complexe : "Écrire un paragraphe où la deuxième lettre de chaque phrase forme le mot 'CODE'".

o1 standard (20 $/mois) a échoué en comptant par erreur la première lettre de chaque mot initial comme la "deuxième lettre". o1-pro (200 $/mois) a résolu le problème... après 4 minutes et 10 secondes de "réflexion". DeepSeek R1, le modèle chinois qui a secoué le marché en janvier 2025, a commis la même erreur que o1 standard.

Le problème fondamental demeure : les modèles voient toujours le texte à travers des jetons, et non des lettres. o1 a appris à "contourner" cette limitation par le raisonnement, mais ne l'a pas éliminée. Comme l'a noté un chercheur dans Language Log : "La tokenisation fait partie de l'essence même des modèles de langage ; pour toute mauvaise réponse, l'explication est précisément "eh bien, la tokenisation"".

Recherche universitaire : émergence d'une compréhension au niveau du personnage

Un article important publié dans arXiv en mai 2025 ("The Strawberry Problem : Emergence of Character-level Understanding in Tokenized Language Models") analyse ce phénomène d'un point de vue théorique. Les chercheurs ont créé 19 tâches synthétiques qui isolent le raisonnement au niveau du personnage dans des contextes contrôlés, démontrant que ces capacités émergent soudainement et seulement tard dans la formation.

L'étude propose que l'apprentissage de la composition des personnages ne soit pas fondamentalement différent de l'apprentissage des connaissances de bon sens - il émerge par le biais de processus de "percolation conceptuelle" lorsque le modèle atteint une masse critique d'exemples et de connexions.

Les chercheurs proposent une modification architecturale légère qui améliore considérablement le raisonnement au niveau des caractères tout en préservant les avantages inductifs des modèles basés sur les sous-mots. Toutefois, ces modifications restent expérimentales et n'ont pas été mises en œuvre dans des modèles commerciaux.

Implications pratiques : quand faire confiance et quand ne pas faire confiance

L'affaire des fraises nous enseigne une leçon importante sur la fiabilité des modèles de langage : il s'agit d'outils probabilistes et non de calculatrices déterministes. Comme l'a fait remarquer Mark Liberman dans Language Log : "Il faut être prudent avant de se fier à la réponse d'un système d'IA actuel dans des tâches qui impliquent de compter des choses".

Cela ne signifie pas que les modèles sont inutiles. Comme l'a fait remarquer un commentateur : "Ce n'est pas parce qu'un chat commet l'erreur stupide de se laisser effrayer par un concombre que nous ne devrions pas lui confier la tâche bien plus difficile d'empêcher les rongeurs d'entrer dans le bâtiment". Les modèles de langage ne sont pas l'outil idéal pour compter systématiquement les lettres, mais ils sont excellents pour traiter automatiquement des milliers de transcriptions de podcasts et extraire les noms des invités et des animateurs.

Pour les tâches nécessitant une précision absolue - faire atterrir un vaisseau spatial sur Mars, calculer des dosages pharmaceutiques, vérifier le respect de la législation - les modèles de langage actuels restent inadéquats sans supervision humaine ou vérification externe. Leur nature probabiliste les rend puissants pour la recherche de modèles et la génération créative, mais peu fiables pour les tâches où l'erreur n'est pas acceptable.

L'avenir : vers des modèles qui raisonnent à l'heure

OpenAI a déclaré qu'elle avait l'intention d'expérimenter avec des modèles o1 qui "raisonnent pendant des heures, des jours, voire des semaines" afin d'accroître encore leurs capacités de raisonnement. En décembre 2024, o3 a été annoncé (le nom o2 a été omis pour éviter les conflits de marques avec l'opérateur de téléphonie mobile O2), et en mars 2025, l'API de o1-pro, le modèle d'IA le plus cher d'OpenAI à ce jour, a été publiée au prix de 150 dollars par million de jetons en entrée et de 600 dollars par million en sortie.

L'orientation est claire : au lieu de rendre les modèles de plus en plus grands (mise à l'échelle), OpenAI investit pour les faire "penser" plus longtemps (calcul du temps de test). Cette approche peut s'avérer plus durable sur le plan énergétique et informatique que la formation de modèles de plus en plus massifs.

Mais une question reste en suspens : ces modèles "raisonnent-ils" réellement ou simulent-ils simplement un raisonnement à l'aide de modèles statistiques plus sophistiqués ? Une étude Apple publiée en octobre 2024 indique que des modèles tels que o1 peuvent reproduire des étapes de raisonnement à partir de leurs propres données d'apprentissage. En changeant les nombres et les noms dans les problèmes mathématiques, ou en réexécutant simplement le même problème, les modèles ont obtenu des résultats nettement moins bons. En ajoutant des informations supplémentaires mais logiquement non pertinentes, les performances ont chuté de 65 % pour certains modèles.

Conclusion : des outils puissants avec des limites fondamentales

Le problème de la fraise et la solution o1 révèlent à la fois le potentiel et les limites inhérentes aux modèles linguistiques actuels. L'OpenAI a montré que, grâce à une formation ciblée et à un temps de traitement supplémentaire, les modèles peuvent surmonter certaines limites structurelles de la tokenisation. Mais ils ne l'ont pas éliminée, ils l'ont contournée.

Pour les utilisateurs et les développeurs, la leçon pratique est claire : il est essentiel de comprendre le fonctionnement de ces systèmes - ce qu'ils font bien et où ils échouent - pour les utiliser efficacement. Les modèles de langage sont d'excellents outils pour les tâches probabilistes, la comparaison de modèles, la génération créative et la synthèse d'informations. Mais pour les tâches nécessitant une précision déterministe - calculer, calculer, vérifier des faits spécifiques - ils restent peu fiables sans supervision externe ou outils complémentaires.

Le nom "Strawberry" restera comme un rappel ironique de cette limitation fondamentale : même les systèmes d'IA les plus avancés du monde peuvent trébucher sur des questions qu'un enfant de six ans résoudrait instantanément. Ce n'est pas parce qu'ils sont stupides, mais parce qu'ils "pensent" d'une manière profondément différente de la nôtre - et peut-être devrions-nous cesser d'attendre d'eux qu'ils pensent comme des humains.

Sources :

  • OpenAI - "Learning to Reason with LLMs" (article de blog officiel, septembre 2024)
  • Wikipedia - 'OpenAI o1' (entrée mise à jour en janvier 2025)
  • Cosma, Adrian et al - 'The Strawberry Problem : Emergence of Character-level Understanding in Tokenized Language Models', arXiv:2505.14172 (May 2025)
  • Liberman, Mark - "AI systems still can't count", Language Log (janvier 2025)
  • Yang, Yu - "Why Large Language Models Struggle When Counting Letters in a Word ?", Medium (février 2025)
  • Orland, Kyle - "How does DeepSeek R1 really fare against OpenAI's best reasoning models ?", Ars Technica
  • Brown, Noam (OpenAI) - Série de messages sur X/Twitter (septembre 2024)
  • TechCrunch - "OpenAI dévoile o1, un modèle capable de s'auto-vérifier" (septembre 2024)
  • 16x Prompt - 'Pourquoi ChatGPT ne peut pas compter combien de Rs dans une fraise' (mis à jour en juin 2025)

Ressources pour la croissance des entreprises

9 novembre 2025

Guide complet des logiciels de veille stratégique pour les PME

60 % des PME italiennes admettent avoir des lacunes importantes en matière de formation aux données, 29 % n'ont même pas de chiffre dédié - alors que le marché italien de la BI explose de 36,79 milliards de dollars à 69,45 milliards de dollars d'ici 2034 (taux de croissance annuel moyen de 8,56 %). Le problème n'est pas la technologie mais l'approche : les PME se noient dans des données éparpillées entre CRM, ERP, feuilles Excel sans les transformer en décisions. C'est aussi vrai pour celles qui partent de zéro que pour celles qui veulent optimiser. Les critères de choix qui comptent : facilité d'utilisation par glisser-déposer sans des mois de formation, évolutivité qui grandit avec vous, intégration native avec les systèmes existants, coût total de possession (mise en œuvre + formation + maintenance) par rapport au prix de la licence seule. Feuille de route en 4 étapes - objectifs SMART mesurables (réduire le taux de désabonnement de 15 % en 6 mois), cartographie des sources de données propres (garbage in=garbage out), formation de l'équipe à la culture des données, projet pilote avec boucle de rétroaction continue. L'IA change tout : de la BI descriptive (ce qui s'est passé) à l'analyse augmentée qui découvre des modèles cachés, prédictive qui estime la demande future, prescriptive qui suggère des actions concrètes. Electe démocratise ce pouvoir pour les PME.
9 novembre 2025

Système de refroidissement de Google DeepMind AI : comment l'intelligence artificielle révolutionne l'efficacité énergétique des centres de données

Google DeepMind atteint -40% d'énergie de refroidissement dans les centres de données (mais seulement -4% de consommation totale, car le refroidissement représente 10% du total) - une précision de 99,6% avec 0,4% d'erreur sur PUE 1,1 via un apprentissage profond à 5 couches, 50 nœuds, 19 variables d'entrée sur 184 435 échantillons d'entraînement (2 ans de données). Confirmé dans 3 installations : Singapour (premier déploiement en 2016), Eemshaven, Council Bluffs (investissement de 5 milliards de dollars). PUE Google 1,09 contre 1,56-1,58 en moyenne dans l'industrie. Model Predictive Control prédit la température/pression de l'heure suivante en gérant simultanément les charges informatiques, les conditions météorologiques et l'état de l'équipement. Sécurité garantie : vérification à deux niveaux, les opérateurs peuvent toujours désactiver l'IA. Limites critiques : aucune vérification indépendante par des cabinets d'audit ou des laboratoires nationaux, chaque centre de données nécessite un modèle personnalisé (8 ans sans commercialisation). La mise en œuvre, d'une durée de 6 à 18 mois, nécessite une équipe pluridisciplinaire (science des données, chauffage, ventilation et climatisation, gestion des installations). Applicable au-delà des centres de données : installations industrielles, hôpitaux, centres commerciaux, bureaux d'entreprise. 2024-2025 : Google passe au refroidissement liquide direct pour le TPU v5p, indiquant les limites pratiques de l'optimisation de l'IA.
9 novembre 2025

Pourquoi les mathématiques sont difficiles (même si vous êtes une IA)

Les modèles linguistiques ne savent pas comment mémoriser des résultats par multiplication comme nous mémorisons pi, mais cela ne fait pas d'eux des mathématiciens. Le problème est structurel : ils apprennent par similarité statistique, et non par compréhension algorithmique. Même les nouveaux "modèles de raisonnement" tels que o1 échouent sur des tâches triviales : il compte correctement le "r" dans "fraise" après quelques secondes de traitement, mais se trompe lorsqu'il doit écrire un paragraphe dans lequel la deuxième lettre de chaque phrase constitue un mot. La version premium à 200 $/mois prend quatre minutes pour résoudre ce qu'un enfant fait instantanément. DeepSeek et Mistral en 2025 se trompent encore de lettres. La solution émergente ? Une approche hybride : les modèles les plus intelligents ont compris quand appeler une vraie calculatrice au lieu de faire le calcul eux-mêmes. Changement de paradigme : l'IA ne doit pas savoir tout faire, mais orchestrer les bons outils. Paradoxe final : GPT-4 peut vous expliquer brillamment la théorie des limites, mais se trompe dans des multiplications qu'une calculatrice de poche résout toujours correctement. Pour l'enseignement des mathématiques, ils sont excellents - ils expliquent avec une patience infinie, adaptent les exemples, décomposent les raisonnements complexes. Pour des calculs précis ? Faites confiance à la calculatrice, pas à l'intelligence artificielle.