Benchmark chromatique : La subjectivité de Is My Blue Your Blue? face aux LLM
Le test interactif de Patrick Mineault définit la frontière personnelle entre le bleu et le vert via un algorithme de convergence. En avril 2026, l'outil s'est imposé comme une référence de "human bas

Le Pitch
Le test interactif de Patrick Mineault définit la frontière personnelle entre le bleu et le vert via un algorithme de convergence. En avril 2026, l'outil s'est imposé comme une référence de "human baseline" pour évaluer la perception des couleurs chez Claude 4.5 Opus et GPT-5 (Source: LLM Stats 2026).
Sous le capot
L'algorithme de narrowing utilisé par Mineault permet de stabiliser une limite précise exprimée en "hue degree" après quelques essais seulement (Source: Gigazine). Les données actuelles placent la médiane de la population entre les teintes 172 et 175, révélant un biais "blue-inclusive" chez les locuteurs anglophones (Source: Surtil.com).
Le dispositif technique montre toutefois ses limites face aux disparités de hardware. L'activation des filtres de type "Night Shift" ou "True Tone" sur les OS mobiles déplace la frontière de perception de plus de 10 points (Source: HN). La comparaison des résultats entre un utilisateur sur OLED et un autre sur LCD est donc techniquement non pertinente.
Le test souffre également d'un biais de catégorisation linguistique majeur. En imposant un choix binaire entre bleu et vert, l'outil ignore les nuances intermédiaires comme le turquoise ou le teal, ce qui fausse les résultats pour les locuteurs de langues possédant des catégories de couleurs différentes (Source: HN 2026).
On ne sait pas encore si les nouveaux écrans Micro-LED de 2026 offrent une meilleure cohérence de résultats que les dalles OLED de 2024. De plus, l'accès à un dataset public anonymisé pour la recherche scientifique indépendante n'est toujours pas effectif à ce jour.
L'avis de Ruben
Is My Blue Your Blue? est un excellent side-project pour comprendre les limites de la vision humaine, mais il ne dépasse pas le stade de la curiosité technique. Pour un Lead Dev, c'est un cas d'école sur les dangers du "forced binary choice" en UX et sur l'impact critique de la calibration hardware dans le traitement d'image. Si vous l'utilisez pour benchmarker vos modèles de vision, faites-le dans un environnement contrôlé, sans quoi vos données de vérité seront polluées par la dalle de votre smartphone.
Codez propre,
Ruben.

Ruben Isaac - Lead AI Tech Watcher at UsedBy.ai
Articles connexes

SQLite 3.53.1 : Standard de persévérance et architecture Edge
SQLite est devenu en 2026 le format de stockage universel recommandé par la Library of Congress pour la conservation de données à long terme (source: loc.gov). Loin d'être un simple utilitaire, il s'e

Anthropic Claude 4.5 Opus : l'élongation documentaire comme indicateur de productivité
Le déploiement de Claude 4.5 Opus en entreprise a validé sa capacité à générer des artifacts professionnels sophistiqués (Dossier UsedBy). Les intégrations majeures chez Quora et Notion confirment que

Valve Steam Controller 2026 : Ouverture des fichiers CAO et rupture de stock immédiate
Valve a libéré les fichiers CAO (STP, STL) de la coque externe du nouveau Steam Controller et de son "Puck" magnétique sous licence Creative Commons BY-NC-SA 4.0 (Source: Valve Official Announcement).
Restez à la pointe des tendances d'adoption de l'IA
Recevez nos derniers rapports et analyses directement dans votre boîte mail. Pas de spam, que des données.