Du problème de la fraise au modèle o1 : comment OpenAI a résolu (en partie) la limite de la tokenisation
Au cours de l'été 2024, un mème Internet viral a mis dans l'embarras les modèles linguistiques les plus avancés du monde : "Combien de "r" y a-t-il dans le mot "fraise" ?" La bonne réponse est trois, mais GPT-4o s'est obstiné à répondre "deux". Une erreur apparemment insignifiante qui a révélé une limite fondamentale des modèles linguistiques : leur incapacité à analyser les lettres individuelles à l'intérieur des mots.
Le 12 septembre 2024, OpenAI a publié o1 - connu sous le nom de code "Strawberry" - le premier modèle d'une nouvelle série de "modèles de raisonnement" conçus spécifiquement pour surmonter ce type de limitation. Et oui, le nom n'est pas un hasard : comme l'a confirmé un chercheur de l'OpenAI, o1 parvient enfin à compter correctement le "r" dans "fraise".
Mais la solution n'est pas celle imaginée dans l'article original. OpenAI n'a pas "appris" au modèle à analyser les mots lettre par lettre. Elle a plutôt développé une approche complètement différente : apprendre au modèle à "raisonner" avant de répondre.
Le problème reste ancré dans la tokenisation - le processus fondamental par lequel les modèles de langage traitent le texte. Comme l'explique un article technique publié sur arXiv en mai 2025 ("The Strawberry Problem : Emergence of Character-level Understanding in Tokenized Language Models"), les modèles ne considèrent pas les mots comme des séquences de lettres mais comme des "tokens" - des unités de sens converties en nombres.
Lorsque GPT-4 traite le mot "strawberry", son tokenizer le divise en trois parties : [str][aw][berry], chacune ayant un identifiant numérique spécifique (496, 675, 15717). Pour le modèle, "strawberry" n'est pas une séquence de 10 lettres mais une séquence de 3 jetons numériques. C'est comme s'il lisait un livre où chaque mot est remplacé par un code et que quelqu'un lui demandait de compter les lettres d'un code qu'il n'a jamais vu écrit.
Le problème se complique avec les mots composés. Le mot "Timekeeper" est fragmenté en jetons distincts, ce qui empêche le modèle de déterminer la position exacte des lettres sans un processus de raisonnement explicite. La fragmentation affecte non seulement le comptage des lettres, mais aussi la compréhension de la structure interne des mots.
OpenAI o1 a résolu le problème d'une manière inattendue : au lieu de modifier la tokenisation - ce qui est techniquement difficile et compromettrait l'efficacité du modèle - elle a appris au système à "réfléchir avant de parler" à l'aide d'une technique appelée "raisonnement par chaîne de pensée".
Lorsque vous demandez à o1 combien de "r" il y a dans "fraise", le modèle ne répond pas immédiatement. Il passe plusieurs secondes - parfois même quelques minutes pour les questions complexes - à traiter en interne une "chaîne de raisonnement" cachée à l'utilisateur. Ce processus lui permet de
Comme l'explique Noam Brown, chercheur à l'OpenAI, dans une série de billets sur X : "o1 est entraîné par apprentissage par renforcement à "penser" avant de répondre via une chaîne de pensée privée. Le modèle reçoit des récompenses pendant la formation pour chaque étape correcte du processus de raisonnement, et pas seulement pour la bonne réponse finale.
Les résultats sont impressionnants mais coûteux. Lors d'un examen de qualification pour les Olympiades internationales de mathématiques, o1 a résolu 83 % des problèmes correctement, contre 13 % pour GPT-4o. Pour les questions de niveau doctoral en sciences, il a atteint 78 % de précision contre 56 % pour le GPT-4o. Mais cette puissance a un prix : o1 prend plus de 30 secondes pour répondre à des questions que GPT-4o résout en 3 secondes, et coûte 15 dollars par million de jetons entrés, contre 5 dollars pour GPT-4o.
La technique n'est pas magique mais méthodique. Lorsqu'il reçoit une invite, o1 génère en interne une longue séquence de "pensées" qui ne sont pas montrées à l'utilisateur. Pour le problème "r" dans "fraise", le processus interne pourrait être le suivant :
"Je dois d'abord comprendre la structure des mots. Fraise pourrait être symbolisé par [str][aw][berry]. Pour compter les "r", je dois reconstruire le mot complet au niveau des caractères. Str contient : s-t-r (1 'r'). Aw contient : a-w (0 'r'). Berry contient : b-e-r-y (2 'r'). Total : 1+0+2 = 3 "r". Je vérifie : fraise = s-t-r-a-w-b-e-r-r-y. Je compte les "r" : position 3, position 8, position 9. Confirmé : 3 'r'."
Ce raisonnement interne est caché par conception. OpenAI interdit explicitement aux utilisateurs de tenter de révéler la chaîne de pensée d'o1, en surveillant les invites et en révoquant potentiellement l'accès à ceux qui enfreignent cette règle. L'entreprise invoque des raisons de sécurité de l'IA et d'avantage concurrentiel, mais la décision a été critiquée comme une perte de transparence par les développeurs travaillant avec des modèles de langage.
Malgré ces progrès, o1 n'a pas complètement résolu le problème. Une recherche publiée dans Language Log en janvier 2025 a testé différents modèles sur un défi plus complexe : "Écrire un paragraphe où la deuxième lettre de chaque phrase forme le mot 'CODE'".
o1 standard (20 $/mois) a échoué en comptant par erreur la première lettre de chaque mot initial comme la "deuxième lettre". o1-pro (200 $/mois) a résolu le problème... après 4 minutes et 10 secondes de "réflexion". DeepSeek R1, le modèle chinois qui a secoué le marché en janvier 2025, a commis la même erreur que o1 standard.
Le problème fondamental demeure : les modèles voient toujours le texte à travers des jetons, et non des lettres. o1 a appris à "contourner" cette limitation par le raisonnement, mais ne l'a pas éliminée. Comme l'a noté un chercheur dans Language Log : "La tokenisation fait partie de l'essence même des modèles de langage ; pour toute mauvaise réponse, l'explication est précisément "eh bien, la tokenisation"".
Un article important publié dans arXiv en mai 2025 ("The Strawberry Problem : Emergence of Character-level Understanding in Tokenized Language Models") analyse ce phénomène d'un point de vue théorique. Les chercheurs ont créé 19 tâches synthétiques qui isolent le raisonnement au niveau du personnage dans des contextes contrôlés, démontrant que ces capacités émergent soudainement et seulement tard dans la formation.
L'étude propose que l'apprentissage de la composition des personnages ne soit pas fondamentalement différent de l'apprentissage des connaissances de bon sens - il émerge par le biais de processus de "percolation conceptuelle" lorsque le modèle atteint une masse critique d'exemples et de connexions.
Les chercheurs proposent une modification architecturale légère qui améliore considérablement le raisonnement au niveau des caractères tout en préservant les avantages inductifs des modèles basés sur les sous-mots. Toutefois, ces modifications restent expérimentales et n'ont pas été mises en œuvre dans des modèles commerciaux.
L'affaire des fraises nous enseigne une leçon importante sur la fiabilité des modèles de langage : il s'agit d'outils probabilistes et non de calculatrices déterministes. Comme l'a fait remarquer Mark Liberman dans Language Log : "Il faut être prudent avant de se fier à la réponse d'un système d'IA actuel dans des tâches qui impliquent de compter des choses".
Cela ne signifie pas que les modèles sont inutiles. Comme l'a fait remarquer un commentateur : "Ce n'est pas parce qu'un chat commet l'erreur stupide de se laisser effrayer par un concombre que nous ne devrions pas lui confier la tâche bien plus difficile d'empêcher les rongeurs d'entrer dans le bâtiment". Les modèles de langage ne sont pas l'outil idéal pour compter systématiquement les lettres, mais ils sont excellents pour traiter automatiquement des milliers de transcriptions de podcasts et extraire les noms des invités et des animateurs.
Pour les tâches nécessitant une précision absolue - faire atterrir un vaisseau spatial sur Mars, calculer des dosages pharmaceutiques, vérifier le respect de la législation - les modèles de langage actuels restent inadéquats sans supervision humaine ou vérification externe. Leur nature probabiliste les rend puissants pour la recherche de modèles et la génération créative, mais peu fiables pour les tâches où l'erreur n'est pas acceptable.
OpenAI a déclaré qu'elle avait l'intention d'expérimenter avec des modèles o1 qui "raisonnent pendant des heures, des jours, voire des semaines" afin d'accroître encore leurs capacités de raisonnement. En décembre 2024, o3 a été annoncé (le nom o2 a été omis pour éviter les conflits de marques avec l'opérateur de téléphonie mobile O2), et en mars 2025, l'API de o1-pro, le modèle d'IA le plus cher d'OpenAI à ce jour, a été publiée au prix de 150 dollars par million de jetons en entrée et de 600 dollars par million en sortie.
L'orientation est claire : au lieu de rendre les modèles de plus en plus grands (mise à l'échelle), OpenAI investit pour les faire "penser" plus longtemps (calcul du temps de test). Cette approche peut s'avérer plus durable sur le plan énergétique et informatique que la formation de modèles de plus en plus massifs.
Mais une question reste en suspens : ces modèles "raisonnent-ils" réellement ou simulent-ils simplement un raisonnement à l'aide de modèles statistiques plus sophistiqués ? Une étude Apple publiée en octobre 2024 indique que des modèles tels que o1 peuvent reproduire des étapes de raisonnement à partir de leurs propres données d'apprentissage. En changeant les nombres et les noms dans les problèmes mathématiques, ou en réexécutant simplement le même problème, les modèles ont obtenu des résultats nettement moins bons. En ajoutant des informations supplémentaires mais logiquement non pertinentes, les performances ont chuté de 65 % pour certains modèles.
Le problème de la fraise et la solution o1 révèlent à la fois le potentiel et les limites inhérentes aux modèles linguistiques actuels. L'OpenAI a montré que, grâce à une formation ciblée et à un temps de traitement supplémentaire, les modèles peuvent surmonter certaines limites structurelles de la tokenisation. Mais ils ne l'ont pas éliminée, ils l'ont contournée.
Pour les utilisateurs et les développeurs, la leçon pratique est claire : il est essentiel de comprendre le fonctionnement de ces systèmes - ce qu'ils font bien et où ils échouent - pour les utiliser efficacement. Les modèles de langage sont d'excellents outils pour les tâches probabilistes, la comparaison de modèles, la génération créative et la synthèse d'informations. Mais pour les tâches nécessitant une précision déterministe - calculer, calculer, vérifier des faits spécifiques - ils restent peu fiables sans supervision externe ou outils complémentaires.
Le nom "Strawberry" restera comme un rappel ironique de cette limitation fondamentale : même les systèmes d'IA les plus avancés du monde peuvent trébucher sur des questions qu'un enfant de six ans résoudrait instantanément. Ce n'est pas parce qu'ils sont stupides, mais parce qu'ils "pensent" d'une manière profondément différente de la nôtre - et peut-être devrions-nous cesser d'attendre d'eux qu'ils pensent comme des humains.
Sources :