Newsletter

Le problème des fraises

Combien y a-t-il de "r" dans fraise ? - GPT-4o répond "deux", un enfant de six ans sait que c'est trois. Le problème est la tokenisation : le modèle voit [str][aw][berry], pas des lettres. OpenAI n'a pas résolu ce problème avec o1 - il l'a contourné en apprenant au modèle à "réfléchir avant de parler". Résultat : 83 % contre 13 % aux Olympiades de mathématiques, mais 30 secondes au lieu de 3 et un coût trois fois plus élevé. Les modèles de langage sont des outils probabilistes extraordinaires, mais il faut toujours un humain pour compter.

Du problème de la fraise au modèle o1 : comment OpenAI a résolu (en partie) la limite de la tokenisation

Au cours de l'été 2024, un mème Internet viral a mis dans l'embarras les modèles linguistiques les plus avancés du monde : "Combien de "r" y a-t-il dans le mot "fraise" ?" La bonne réponse est trois, mais GPT-4o s'est obstiné à répondre "deux". Une erreur apparemment insignifiante qui a révélé une limite fondamentale des modèles linguistiques : leur incapacité à analyser les lettres individuelles à l'intérieur des mots.

Le 12 septembre 2024, OpenAI a publié o1 - connu sous le nom de code "Strawberry" - le premier modèle d'une nouvelle série de "modèles de raisonnement" conçus spécifiquement pour surmonter ce type de limitation. Et oui, le nom n'est pas un hasard : comme l'a confirmé un chercheur de l'OpenAI, o1 parvient enfin à compter correctement le "r" dans "fraise".

Mais la solution n'est pas celle imaginée dans l'article original. OpenAI n'a pas "appris" au modèle à analyser les mots lettre par lettre. Elle a plutôt développé une approche complètement différente : apprendre au modèle à "raisonner" avant de répondre.

Le problème du comptage : pourquoi les modèles se trompent-ils ?

Le problème reste ancré dans la tokenisation - le processus fondamental par lequel les modèles de langage traitent le texte. Comme l'explique un article technique publié sur arXiv en mai 2025 ("The Strawberry Problem : Emergence of Character-level Understanding in Tokenized Language Models"), les modèles ne considèrent pas les mots comme des séquences de lettres mais comme des "tokens" - des unités de sens converties en nombres.

Lorsque GPT-4 traite le mot "strawberry", son tokenizer le divise en trois parties : [str][aw][berry], chacune ayant un identifiant numérique spécifique (496, 675, 15717). Pour le modèle, "strawberry" n'est pas une séquence de 10 lettres mais une séquence de 3 jetons numériques. C'est comme s'il lisait un livre où chaque mot est remplacé par un code et que quelqu'un lui demandait de compter les lettres d'un code qu'il n'a jamais vu écrit.

Le problème se complique avec les mots composés. Le mot "Timekeeper" est fragmenté en jetons distincts, ce qui empêche le modèle de déterminer la position exacte des lettres sans un processus de raisonnement explicite. La fragmentation affecte non seulement le comptage des lettres, mais aussi la compréhension de la structure interne des mots.

La solution o1 : Raisonner avant de répondre

OpenAI o1 a résolu le problème d'une manière inattendue : au lieu de modifier la tokenisation - ce qui est techniquement difficile et compromettrait l'efficacité du modèle - elle a appris au système à "réfléchir avant de parler" à l'aide d'une technique appelée "raisonnement par chaîne de pensée".

Lorsque vous demandez à o1 combien de "r" il y a dans "fraise", le modèle ne répond pas immédiatement. Il passe plusieurs secondes - parfois même quelques minutes pour les questions complexes - à traiter en interne une "chaîne de raisonnement" cachée à l'utilisateur. Ce processus lui permet de

  1. Reconnaître que la demande nécessite une analyse au niveau du personnage
  2. Développer une stratégie pour décomposer le mot
  3. Tester la réponse par différentes approches
  4. Corriger les erreurs éventuelles avant de donner la réponse finale

Comme l'explique Noam Brown, chercheur à l'OpenAI, dans une série de billets sur X : "o1 est entraîné par apprentissage par renforcement à "penser" avant de répondre via une chaîne de pensée privée. Le modèle reçoit des récompenses pendant la formation pour chaque étape correcte du processus de raisonnement, et pas seulement pour la bonne réponse finale.

Les résultats sont impressionnants mais coûteux. Lors d'un examen de qualification pour les Olympiades internationales de mathématiques, o1 a résolu 83 % des problèmes correctement, contre 13 % pour GPT-4o. Pour les questions de niveau doctoral en sciences, il a atteint 78 % de précision contre 56 % pour le GPT-4o. Mais cette puissance a un prix : o1 prend plus de 30 secondes pour répondre à des questions que GPT-4o résout en 3 secondes, et coûte 15 dollars par million de jetons entrés, contre 5 dollars pour GPT-4o.

Chaîne de pensée : comment ça marche vraiment

La technique n'est pas magique mais méthodique. Lorsqu'il reçoit une invite, o1 génère en interne une longue séquence de "pensées" qui ne sont pas montrées à l'utilisateur. Pour le problème "r" dans "fraise", le processus interne pourrait être le suivant :

"Je dois d'abord comprendre la structure des mots. Fraise pourrait être symbolisé par [str][aw][berry]. Pour compter les "r", je dois reconstruire le mot complet au niveau des caractères. Str contient : s-t-r (1 'r'). Aw contient : a-w (0 'r'). Berry contient : b-e-r-y (2 'r'). Total : 1+0+2 = 3 "r". Je vérifie : fraise = s-t-r-a-w-b-e-r-r-y. Je compte les "r" : position 3, position 8, position 9. Confirmé : 3 'r'."

Ce raisonnement interne est caché par conception. OpenAI interdit explicitement aux utilisateurs de tenter de révéler la chaîne de pensée d'o1, en surveillant les invites et en révoquant potentiellement l'accès à ceux qui enfreignent cette règle. L'entreprise invoque des raisons de sécurité de l'IA et d'avantage concurrentiel, mais la décision a été critiquée comme une perte de transparence par les développeurs travaillant avec des modèles de langage.

Limites persistantes : o1 Pas parfait

Malgré ces progrès, o1 n'a pas complètement résolu le problème. Une recherche publiée dans Language Log en janvier 2025 a testé différents modèles sur un défi plus complexe : "Écrire un paragraphe où la deuxième lettre de chaque phrase forme le mot 'CODE'".

o1 standard (20 $/mois) a échoué en comptant par erreur la première lettre de chaque mot initial comme la "deuxième lettre". o1-pro (200 $/mois) a résolu le problème... après 4 minutes et 10 secondes de "réflexion". DeepSeek R1, le modèle chinois qui a secoué le marché en janvier 2025, a commis la même erreur que o1 standard.

Le problème fondamental demeure : les modèles voient toujours le texte à travers des jetons, et non des lettres. o1 a appris à "contourner" cette limitation par le raisonnement, mais ne l'a pas éliminée. Comme l'a noté un chercheur dans Language Log : "La tokenisation fait partie de l'essence même des modèles de langage ; pour toute mauvaise réponse, l'explication est précisément "eh bien, la tokenisation"".

Recherche universitaire : émergence d'une compréhension au niveau du personnage

Un article important publié dans arXiv en mai 2025 ("The Strawberry Problem : Emergence of Character-level Understanding in Tokenized Language Models") analyse ce phénomène d'un point de vue théorique. Les chercheurs ont créé 19 tâches synthétiques qui isolent le raisonnement au niveau du personnage dans des contextes contrôlés, démontrant que ces capacités émergent soudainement et seulement tard dans la formation.

L'étude propose que l'apprentissage de la composition des personnages ne soit pas fondamentalement différent de l'apprentissage des connaissances de bon sens - il émerge par le biais de processus de "percolation conceptuelle" lorsque le modèle atteint une masse critique d'exemples et de connexions.

Les chercheurs proposent une modification architecturale légère qui améliore considérablement le raisonnement au niveau des caractères tout en préservant les avantages inductifs des modèles basés sur les sous-mots. Toutefois, ces modifications restent expérimentales et n'ont pas été mises en œuvre dans des modèles commerciaux.

Implications pratiques : quand faire confiance et quand ne pas faire confiance

L'affaire des fraises nous enseigne une leçon importante sur la fiabilité des modèles de langage : il s'agit d'outils probabilistes et non de calculatrices déterministes. Comme l'a fait remarquer Mark Liberman dans Language Log : "Il faut être prudent avant de se fier à la réponse d'un système d'IA actuel dans des tâches qui impliquent de compter des choses".

Cela ne signifie pas que les modèles sont inutiles. Comme l'a fait remarquer un commentateur : "Ce n'est pas parce qu'un chat commet l'erreur stupide de se laisser effrayer par un concombre que nous ne devrions pas lui confier la tâche bien plus difficile d'empêcher les rongeurs d'entrer dans le bâtiment". Les modèles de langage ne sont pas l'outil idéal pour compter systématiquement les lettres, mais ils sont excellents pour traiter automatiquement des milliers de transcriptions de podcasts et extraire les noms des invités et des animateurs.

Pour les tâches nécessitant une précision absolue - faire atterrir un vaisseau spatial sur Mars, calculer des dosages pharmaceutiques, vérifier le respect de la législation - les modèles de langage actuels restent inadéquats sans supervision humaine ou vérification externe. Leur nature probabiliste les rend puissants pour la recherche de modèles et la génération créative, mais peu fiables pour les tâches où l'erreur n'est pas acceptable.

L'avenir : vers des modèles qui raisonnent à l'heure

OpenAI a déclaré qu'elle avait l'intention d'expérimenter avec des modèles o1 qui "raisonnent pendant des heures, des jours, voire des semaines" afin d'accroître encore leurs capacités de raisonnement. En décembre 2024, o3 a été annoncé (le nom o2 a été omis pour éviter les conflits de marques avec l'opérateur de téléphonie mobile O2), et en mars 2025, l'API de o1-pro, le modèle d'IA le plus cher d'OpenAI à ce jour, a été publiée au prix de 150 dollars par million de jetons en entrée et de 600 dollars par million en sortie.

L'orientation est claire : au lieu de rendre les modèles de plus en plus grands (mise à l'échelle), OpenAI investit pour les faire "penser" plus longtemps (calcul du temps de test). Cette approche peut s'avérer plus durable sur le plan énergétique et informatique que la formation de modèles de plus en plus massifs.

Mais une question reste en suspens : ces modèles "raisonnent-ils" réellement ou simulent-ils simplement un raisonnement à l'aide de modèles statistiques plus sophistiqués ? Une étude Apple publiée en octobre 2024 indique que des modèles tels que o1 peuvent reproduire des étapes de raisonnement à partir de leurs propres données d'apprentissage. En changeant les nombres et les noms dans les problèmes mathématiques, ou en réexécutant simplement le même problème, les modèles ont obtenu des résultats nettement moins bons. En ajoutant des informations supplémentaires mais logiquement non pertinentes, les performances ont chuté de 65 % pour certains modèles.

Conclusion : des outils puissants avec des limites fondamentales

Le problème de la fraise et la solution o1 révèlent à la fois le potentiel et les limites inhérentes aux modèles linguistiques actuels. L'OpenAI a montré que, grâce à une formation ciblée et à un temps de traitement supplémentaire, les modèles peuvent surmonter certaines limites structurelles de la tokenisation. Mais ils ne l'ont pas éliminée, ils l'ont contournée.

Pour les utilisateurs et les développeurs, la leçon pratique est claire : il est essentiel de comprendre le fonctionnement de ces systèmes - ce qu'ils font bien et où ils échouent - pour les utiliser efficacement. Les modèles de langage sont d'excellents outils pour les tâches probabilistes, la comparaison de modèles, la génération créative et la synthèse d'informations. Mais pour les tâches nécessitant une précision déterministe - calculer, calculer, vérifier des faits spécifiques - ils restent peu fiables sans supervision externe ou outils complémentaires.

Le nom "Strawberry" restera comme un rappel ironique de cette limitation fondamentale : même les systèmes d'IA les plus avancés du monde peuvent trébucher sur des questions qu'un enfant de six ans résoudrait instantanément. Ce n'est pas parce qu'ils sont stupides, mais parce qu'ils "pensent" d'une manière profondément différente de la nôtre - et peut-être devrions-nous cesser d'attendre d'eux qu'ils pensent comme des humains.

Sources :

  • OpenAI - "Learning to Reason with LLMs" (article de blog officiel, septembre 2024)
  • Wikipedia - 'OpenAI o1' (entrée mise à jour en janvier 2025)
  • Cosma, Adrian et al - 'The Strawberry Problem : Emergence of Character-level Understanding in Tokenized Language Models', arXiv:2505.14172 (May 2025)
  • Liberman, Mark - "AI systems still can't count", Language Log (janvier 2025)
  • Yang, Yu - "Why Large Language Models Struggle When Counting Letters in a Word ?", Medium (février 2025)
  • Orland, Kyle - "How does DeepSeek R1 really fare against OpenAI's best reasoning models ?", Ars Technica
  • Brown, Noam (OpenAI) - Série de messages sur X/Twitter (septembre 2024)
  • TechCrunch - "OpenAI dévoile o1, un modèle capable de s'auto-vérifier" (septembre 2024)
  • 16x Prompt - 'Pourquoi ChatGPT ne peut pas compter combien de Rs dans une fraise' (mis à jour en juin 2025)

Ressources pour la croissance des entreprises

9 novembre 2025

Tendances de l'IA 2025 : 6 solutions stratégiques pour une mise en œuvre harmonieuse de l'intelligence artificielle

87% des entreprises reconnaissent que l'IA est une nécessité concurrentielle, mais beaucoup échouent dans l'intégration - le problème n'est pas la technologie mais l'approche. 73 % des dirigeants citent la transparence (Explainable AI) comme un élément crucial pour l'adhésion des parties prenantes, tandis que les mises en œuvre réussies suivent la stratégie "start small, think big" : des projets pilotes ciblés à forte valeur ajoutée plutôt qu'une transformation totale de l'entreprise. Cas concret : une entreprise manufacturière met en œuvre la maintenance prédictive de l'IA sur une seule ligne de production, obtient -67 % de temps d'arrêt en 60 jours et catalyse l'adoption à l'échelle de l'entreprise. Meilleures pratiques vérifiées : privilégier l'intégration via API/middleware plutôt que le remplacement complet pour réduire les courbes d'apprentissage ; consacrer 30 % des ressources à la gestion du changement avec une formation spécifique aux rôles génère un taux d'adoption de +40 % et une satisfaction des utilisateurs de +65 % ; mise en œuvre parallèle pour valider les résultats de l'IA par rapport aux méthodes existantes ; dégradation progressive avec des systèmes de repli ; cycles de révision hebdomadaires au cours des 90 premiers jours pour contrôler les performances techniques, l'impact sur l'entreprise, les taux d'adoption et le retour sur investissement. Pour réussir, il faut trouver un équilibre entre les facteurs techniques et humains : champions internes de l'IA, concentration sur les avantages pratiques, flexibilité évolutive.
9 novembre 2025

Les développeurs et l'IA dans les sites web : défis, outils et meilleures pratiques : une perspective internationale

L'Italie est bloquée à 8,2 % d'adoption de l'IA (contre 13,5 % en moyenne dans l'UE), alors qu'au niveau mondial, 40 % des entreprises utilisent déjà l'IA de manière opérationnelle - et les chiffres montrent pourquoi l'écart est fatal : le chatbot d'Amtrak génère un retour sur investissement de 800 %, GrandStay économise 2,1 millions de dollars par an en traitant 72 % des demandes de manière autonome, Telenor augmente ses revenus de 15 %. Ce rapport explore la mise en œuvre de l'IA dans les sites web avec des cas pratiques (Lutech Brain pour les appels d'offres, Netflix pour les recommandations, L'Oréal Beauty Gifter avec 27x l'engagement par rapport à l'email) et aborde les défis techniques réels : qualité des données, biais algorithmiques, intégration avec les systèmes existants, traitement en temps réel. Des solutions - informatique de pointe pour réduire la latence, architectures modulaires, stratégies anti-biais - aux questions éthiques (vie privée, bulles de filtres, accessibilité pour les utilisateurs handicapés) en passant par les cas gouvernementaux (Helsinki avec la traduction multilingue de l'IA), découvrez comment les développeurs web passent du statut de codeurs à celui de stratèges de l'expérience utilisateur et pourquoi ceux qui naviguent dans cette évolution aujourd'hui domineront le web de demain.
9 novembre 2025

Systèmes d'aide à la décision par l'IA : la montée en puissance des conseillers dans la direction des entreprises

77 % des entreprises utilisent l'IA mais seulement 1 % ont des implémentations "matures" - le problème n'est pas la technologie mais l'approche : l'automatisation totale par rapport à la collaboration intelligente. Goldman Sachs, avec un conseiller en IA sur 10 000 employés, génère +30% d'efficacité en matière de sensibilisation et +12% de ventes croisées tout en maintenant les décisions humaines ; Kaiser Permanente prévient 500 décès par an en analysant 100 éléments par heure 12 heures à l'avance, mais laisse le diagnostic aux médecins. Le modèle de conseiller résout le manque de confiance (44 % seulement font confiance à l'IA des entreprises) grâce à trois piliers : une IA explicable avec un raisonnement transparent, des scores de confiance calibrés, un retour d'information continu pour l'amélioration. Les chiffres : 22,3 milliards de dollars d'impact d'ici 2030, les employés stratégiques de l'IA verront leur retour sur investissement multiplié par quatre d'ici 2026. Feuille de route pratique en trois étapes - évaluation des compétences et de la gouvernance, pilote avec des mesures de confiance, mise à l'échelle progressive avec une formation continue - applicable à la finance (évaluation supervisée des risques), aux soins de santé (aide au diagnostic), à la fabrication (maintenance prédictive). L'avenir n'est pas à l'IA qui remplace les humains, mais à l'orchestration efficace de la collaboration homme-machine.