← UXDP

Quand l'interface sort de l'écran

Voix, vision, gestes. Prototyper l'IA multimodale avant de la coder.

Le problème

Vous lancez une feature avec voice input, ou reconnaissance visuelle, ou gestes. Ou tout ensemble. Mais vous n'avez jamais conçu pour ça. Les outils standard (Figma, Framer) ne couvrent pas ces modales. Vous faites des wireframes sur papier, c'est flou. Vous allez en dev sans référence. Résultat : l'expérience vocale est mauvaise, ou la vision n'aide pas réellement.

L'approche

On prototyp en 5 jours. Jour 1 : mapping des flows multimodaux (texte → voix → vision → geste). Jour 2-3 : prototypes interactifs avec vraies données voix (TTS, STT) et vision (CV mock). Jour 4 : test en live avec 4-5 utilisateurs représentatifs. Jour 5 : documentation et handoff. Livrable : prototype cliquable + script de voix + guide vision + spéc des transitions. Pas de théorie, 100% testable en production.

Ce que ça change

Votre équipe dev a une référence concrète. Pas de débat sur le timing vocal ou la clarté des instructions. Les utilisateurs trouvent l'interface intuitive parce qu'elle a été pensée multimodale dès le départ. Et vous trouvez les mauvaises décisions UX pendant le proto, pas après 6 mois de développement. Chez Accor : 3 gros pivots détectés avant la V1.

Questions fréquentes

Voix + vision, c'est plus cher qu'un proto classique ?

Oui, comptez 30% de premium. Parce que on intègre des API réelles (OpenAI Whisper, Claude Vision, etc.) et qu'on les teste avec vrais flux. Mais c'est infiniment moins cher qu'un faux démarrage en dev. Comptez 3500-4500€ pour 5 jours multimodal vs 1500€ pour un écran statique.

Et si l'IA vision fait une erreur pendant le proto ?

Parfait. On la documente. On montre à l'équipe dev comment la gérer (fallback, clarification utilisateur, etc.). Les erreurs en proto sont des cas de test à implémenter. C'est ça qui sépare une bonne IA d'une IA frustrante : savoir échouer gracieusement.

Ça marche pour AR/VR ou juste mobile/web ?

Mobile et web d'abord. Pour AR/VR, on peut faire un proto simplifié (vision 2D + gestes simulés). Un vrai proto AR/VR c'est plus cher et plus long (10+ jours). Mais la majorité de nos clients demandent voice-first + vision desktop. Ça, on maîtrise.

Discutons de votre projet

Sprint de cadrage — 30 min, sans engagement.

Réserver un appel stratégique →