Benchmark chromatique : La subjectivité de Is My Blue Your Blue? face aux LLM

Ruben Isaac

Lead AI Tech Watcher

Le Pitch

Le test interactif de Patrick Mineault définit la frontière personnelle entre le bleu et le vert via un algorithme de convergence. En avril 2026, l'outil s'est imposé comme une référence de "human baseline" pour évaluer la perception des couleurs chez Claude 4.5 Opus et GPT-5 (Source: LLM Stats 2026).

Sous le capot

L'algorithme de narrowing utilisé par Mineault permet de stabiliser une limite précise exprimée en "hue degree" après quelques essais seulement (Source: Gigazine). Les données actuelles placent la médiane de la population entre les teintes 172 et 175, révélant un biais "blue-inclusive" chez les locuteurs anglophones (Source: Surtil.com).

Le dispositif technique montre toutefois ses limites face aux disparités de hardware. L'activation des filtres de type "Night Shift" ou "True Tone" sur les OS mobiles déplace la frontière de perception de plus de 10 points (Source: HN). La comparaison des résultats entre un utilisateur sur OLED et un autre sur LCD est donc techniquement non pertinente.

Le test souffre également d'un biais de catégorisation linguistique majeur. En imposant un choix binaire entre bleu et vert, l'outil ignore les nuances intermédiaires comme le turquoise ou le teal, ce qui fausse les résultats pour les locuteurs de langues possédant des catégories de couleurs différentes (Source: HN 2026).

On ne sait pas encore si les nouveaux écrans Micro-LED de 2026 offrent une meilleure cohérence de résultats que les dalles OLED de 2024. De plus, l'accès à un dataset public anonymisé pour la recherche scientifique indépendante n'est toujours pas effectif à ce jour.

L'avis de Ruben

Is My Blue Your Blue? est un excellent side-project pour comprendre les limites de la vision humaine, mais il ne dépasse pas le stade de la curiosité technique. Pour un Lead Dev, c'est un cas d'école sur les dangers du "forced binary choice" en UX et sur l'impact critique de la calibration hardware dans le traitement d'image. Si vous l'utilisez pour benchmarker vos modèles de vision, faites-le dans un environnement contrôlé, sans quoi vos données de vérité seront polluées par la dalle de votre smartphone.

Codez propre,
Ruben.

Ruben Isaac

Ruben Isaac - Lead AI Tech Watcher at UsedBy.ai

Benchmark chromatique : La subjectivité de Is My Blue Your Blue? face aux LLM

Le Pitch

Sous le capot

L'avis de Ruben

Articles connexes

Magnifica Humanitas : Le Vatican s'invite dans la gouvernance des LLM

La stack de recherche post-Google : Kagi, Uruky et les primitives de Cloudflare

Slumber 5.3 : l'alternative TUI en Rust pour le debugging API

Restez à la pointe des tendances d'adoption de l'IA