Les IA corrompent 25 % des documents après usage

Illustration d'un document numérique en cours de modification par une intelligence artificielle, avec des signes de corruption de données visibles comme des fragments de texte altérés ou effacés.

Tech Par June 13 mai 2026, 02:14

Même les meilleurs modèles d'IA finissent par altérer un quart du contenu après révision, utile à un collègue qui suit l'adoption des outils intelligents au bureau.

Les IA corrompent 25 % des documents après usage Fil de l’histoire et faits clés

Microsoft a mené une évaluation rigoureuse de 19 modèles d'intelligence artificielle, dont Gemini 3.1 Pro, Claude 4.6 Opus et GPT-5.4, en les soumettant à 52 scénarios professionnels complexes. Chaque environnement de test, représentant entre cinq et dix tâches d'édition, impliquait des cycles d'aller-retour : modification d'un document suivi d'une tentative d'annulation de cette modification. Le protocole prévoyait dix cycles, soit vingt interactions au total, avec un objectif clair : que le document revienne à son état initial. La corruption du contenu était mesurée en tokens, chaque environnement pesant environ 15 000 tokens.

Les résultats montrent que même les modèles les plus avancés échouent à maintenir l'intégrité du document. Après vingt interactions, les meilleurs modèles corrompent en moyenne 25 % du contenu. Cette dégradation ne distingue pas les modèles premium des versions open source moins coûteuses. Bien que les grandes IA retardent l'apparition des erreurs, elles ne les évitent pas. Ce constat remet en question la fiabilité des agents IA dans des environnements professionnels exigeants.

L'étude, dont les données sont publiques sur GitHub et Hugging Face, vise à renforcer la transparence. Pour Microsoft, dont l'outil Copilot accuse un taux d'adoption payante faible (3,3 %), publier ces résultats démontre une volonté d'honnêteté face aux limites actuelles de l'IA. Le test met en lumière un défi fondamental : la perte de cohérence dans les chaînes longues d'interactions, un obstacle majeur pour l'automatisation fiable de tâches professionnelles complexes.

Faits

Microsoft a testé 19 modèles d'IA, dont Gemini 3.1 Pro, Claude 4.6 Opus et GPT-5.4, sur 52 scénarios professionnels complexes.
Chaque test impliquait 10 cycles d'édition et d'annulation (20 interactions) dans des environnements de 15 000 tokens.
Les meilleurs modèles corrompent en moyenne 25 % du contenu du document après 20 interactions.
Les données du test sont publiques sur GitHub et Hugging Face.
Le taux d'adoption payante de Copilot est de 3,3 % selon Microsoft.

Explication visuelle de l’actualité par Canto. Des outils d’IA peuvent aider à la production. Politique éditoriale

Faits

Un tiers du web neuf vient de l'IA

Google teste un agent IA qui agit à votre place

Un agent IA chinois plus rapide que Claude

L’IA booste aussi les cyberattaques

Une IA a rédigé un article scientifique seul