L'annonce de 'Strawberry"par OpenAI a mis en lumière une limite fondamentale des modèles de langage : leur incapacité à analyser les lettres individuelles à l'intérieur des mots. Cette faiblesse révèle des aspects profonds de leur fonctionnement.
Le problème du comptage
Lorsqu'on demande à ChatGPT de compter les "r" dans le mot "fraise", le modèle se trompe souvent. Cette erreur n'est pas due à un manque d'intelligence, mais à la manière dont les modèles de langage analysent les textes. Pour comprendre pourquoi, il faut connaître le concept de tokenisation.
Le monde vu à travers les jetons
Les modèles linguistiques ne considèrent pas les mots comme des séquences de lettres, mais comme des "jetons", c'est-à-dire des unités de sens converties en nombres. C'est comme lire un livre où chaque mot est remplacé par un code numérique. Le mot "livres scolaires", par exemple, est divisé en deux jetons distincts : "école" et "livres". Cela explique pourquoi le modèle a du mal à compter correctement les "o" de ce mot : il ne le considère pas comme un mot.
Un exemple éclairant
Imaginez que vous appreniez une langue où le mot "école" est toujours représenté par le chiffre "412". Si quelqu'un vous demandait combien de "o" il y a dans "412", nous ne pourrions pas répondre correctement sans avoir jamais vu le mot écrit en entier. Les modèles linguistiques sont dans une situation similaire : ils traitent les significations par le biais de nombres, sans avoir accès à la composition littérale des mots.
Le défi des mots composés
Le problème s'aggrave encore avec les mots composés. Le mot "Timekeeper" est fragmenté en jetons distincts, ce qui complique la tâche du modèle pour déterminer la position exacte des lettres "et". Cette fragmentation affecte non seulement le comptage des lettres, mais aussi la compréhension de la structure interne du mot.
La solution au problème des fraises (peut-être)
Ce futur modèle OpenAI, Strawberry, devrait surmonter cette limitation en introduisant une approche innovante du traitement du texte. Au lieu de s'appuyer uniquement sur la tokenisation traditionnelle, le modèle devrait être capable d'analyser les mots au niveau des lettres individuelles, permettant ainsi des opérations de comptage et d'analyse plus précises.
Implications futures
L'importance de ce problème va au-delà du simple comptage de lettres. Cette capacité d'analyse granulaire pourrait améliorer considérablement la compréhension linguistique des modèles d'IA, leur permettant de s'attaquer à des problèmes qui nécessitent une analyse détaillée du texte au niveau des caractères.
L'intégration prévue de cette technologie constituera une avancée majeure dans la direction de modèles linguistiques plus aptes à "raisonner" sur les détails fondamentaux de la langue, et pas seulement sur des modèles statistiques.