
Même les meilleurs modèles d'IA finissent par altérer un quart du contenu après révision, utile à un collègue qui suit l'adoption des outils intelligents au bureau.

Les IA corrompent 25 % des documents après usage Fil de l’histoire et faits clés
Microsoft a mené une évaluation rigoureuse de 19 modèles d'intelligence artificielle, dont Gemini 3.1 Pro, Claude 4.6 Opus et GPT-5.4, en les soumettant à 52 scénarios professionnels complexes. Chaque environnement de test, représentant entre cinq et dix tâches d'édition, impliquait des cycles d'aller-retour : modification d'un document suivi d'une tentative d'annulation de cette modification. Le protocole prévoyait dix cycles, soit vingt interactions au total, avec un objectif clair : que le document revienne à son état initial. La corruption du contenu était mesurée en tokens, chaque environnement pesant environ 15 000 tokens.
Les résultats montrent que même les modèles les plus avancés échouent à maintenir l'intégrité du document. Après vingt interactions, les meilleurs modèles corrompent en moyenne 25 % du contenu. Cette dégradation ne distingue pas les modèles premium des versions open source moins coûteuses. Bien que les grandes IA retardent l'apparition des erreurs, elles ne les évitent pas. Ce constat remet en question la fiabilité des agents IA dans des environnements professionnels exigeants.
L'étude, dont les données sont publiques sur GitHub et Hugging Face, vise à renforcer la transparence. Pour Microsoft, dont l'outil Copilot accuse un taux d'adoption payante faible (3,3 %), publier ces résultats démontre une volonté d'honnêteté face aux limites actuelles de l'IA. Le test met en lumière un défi fondamental : la perte de cohérence dans les chaînes longues d'interactions, un obstacle majeur pour l'automatisation fiable de tâches professionnelles complexes.
Faits
- Microsoft a testé 19 modèles d'IA, dont Gemini 3.1 Pro, Claude 4.6 Opus et GPT-5.4, sur 52 scénarios professionnels complexes.
- Chaque test impliquait 10 cycles d'édition et d'annulation (20 interactions) dans des environnements de 15 000 tokens.
- Les meilleurs modèles corrompent en moyenne 25 % du contenu du document après 20 interactions.
- Les données du test sont publiques sur GitHub et Hugging Face.
- Le taux d'adoption payante de Copilot est de 3,3 % selon Microsoft.
Explication visuelle de l’actualité par Canto. Des outils d’IA peuvent aider à la production. Politique éditoriale





