Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
Interface utilisateur vocale
Une interface utilisateur vocale ou IUV (ou VUI pour Vocal User Interface en anglais) rend possible l'interaction orale entre les humains et les ordinateurs. Un dispositif de commande vocale (ou VCD pour Voice Command Device) est un appareil doté d'une interface utilisateur vocale. Les ordinateurs équipés d'un tel dispositif utilisent généralement la reconnaissance vocale pour comprendre les mots énoncés par les humains et la synthèse vocale pour en produire.
Des interfaces utilisateur vocales sont intégrées aux objets du quotidien comme les automobiles, la domotique, les systèmes d'exploitation des ordinateurs, les appareils ménagers (machines à laver et les fours à micro-ondes) ou encore les télécommandes des télévisions. Elles constituent le principal moyen d'interaction avec les assistants virtuels sur les smartphones et les enceintes connectées. Les anciens assistants automatiques (qui acheminent les appels téléphoniques vers le bon numéro) et les systèmes de réponse vocale interactive (qui effectuent des transactions plus complexes par téléphone) peuvent répondre à la pression des touches du clavier par des tonalités multifréquence, mais ces systèmes dotés d'une interface utilisateur entièrement vocale permettent aux appelants de formuler des demandes et des réponses sans avoir à appuyer sur aucun bouton.
Les nouveaux dispositifs de commande vocales sont indépendants du locuteur, ils peuvent donc répondre à plusieurs voix, indépendamment de l'accent ou des influences linguistiques. Ils sont également capables de répondre à plusieurs commandes à la fois, de séparer les messages vocaux et de fournir un retour d'information approprié, en imitant avec précision une conversation naturelle.
Aperçu
Une VUI constitue l'interface de toute application vocale. Il y a encore peu de temps, contrôler une machine par la parole relevait de la science-fiction et jusqu'à une période récente, ce domaine était considéré comme l'intelligence artificielle. Cependant, les avancées dans des technologies telles que la synthèse vocale, le traitement du langage naturel (NLP) et les services cloud, en général, ont contribué à l'adoption massive de ces types d'interfaces. Les VUI sont devenues plus courantes, les avantages sont multiples, permettant notamment de libérer les mains et le regard.
La fiabilité de la réponse apportée par les VUI est déterminante pour sa diffusion. Un taux d'erreurs trop important conduit potentiellement au rejet de ces technologies. Concevoir une bonne VUI requiert des talents interdisciplinaires en informatique, en linguistique et en psychologie des facteurs humains, autant de compétences coûteuses et difficiles à acquérir. malgré les outils de développement avancés, la construction d'une VUI nécessite une compréhension approfondie des tâches à effectuer et une connaissance des usagers.
Histoire
Les premières applications de l'interface utilisateur virtuelle comprennent la numérotation vocale des téléphones, soit directement, soit via un casque (généralement Bluetooth) ou un système audio de véhicule.
En 2007, un article de CNN rapporte que des entreprises comme Google et Apple tentent de développer des fonctionnalités de reconnaissance vocale. Depuis, la technologie a considérablement évolué. Google a ainsi créé un moteur de reconnaissance vocale appelé Pico TTS et Apple a mis en place Siri. Les dispositifs de commande vocale sont de plus en plus accessibles et en progrès. Actuellement, Xbox Live autorise de telles fonctionnalités et la nouvelle Apple TV devrait les intégrer.
Ces applications sont supposées rationaliser les flux d'appels, minimiser les invites, éliminer les itérations inutiles et permettre des "dialogues d'initiatives mixtes" élaborés, permettant aux appelants d'entrer plusieurs informations en un seul énoncé et dans n'importe quel ordre ou combinaison. En général, plus les demandes de renseignements et les transactions sont complexes, plus elles sont difficiles à automatiser et donc susceptibles d'échouer. Dans certains scénarios, l'automatisation n'est tout simplement pas applicable, l'assistance d'assistance en direct est donc la seule option. Une hotline de conseil juridique serait très difficile à automatiser, alors que les transactions rapides et routinières, ne nécessitant pas de compétences, sont maîtrisées.
Produits logiciels de commande vocale
Apple et Windows fournissent des fonctionnalités de reconnaissance vocale intégrées à leurs systèmes d'exploitation.
Microsoft windows
Deux systèmes d'exploitation Microsoft, Windows 7 et Windows Vista, offrent des capacités de reconnaissance vocale. Microsoft a intégré des commandes vocales dans ses systèmes d'exploitation s'adressant personnes qui souhaitent limiter leur utilisation de la souris et du clavier sans compromettre leur productivité.
Windows Vista
Avec la commande vocale de Windows Vista, un utilisateur peut dicter des documents et des e-mails dans les applications courantes, démarrer et basculer entre les applications, contrôler le système d'exploitation, formater des documents, enregistrer des documents, modifier des fichiers, corriger efficacement les erreurs et remplir des formulaires sur le Web. Le logiciel de reconnaissance vocale s'enrichit automatiquement à chaque utilisation. Elle est disponible en anglais (États-Unis), anglais (Royaume-Uni), allemand (Allemagne), français (France), espagnol (Espagne), japonais, chinois (traditionnel) et chinois (simplifié). Le logiciel est livré avec un didacticiel interactif, qui peut être utilisé pour former à la fois l'utilisateur et le moteur de reconnaissance vocale.
Windows 7
En plus de toutes les fonctionnalités fournies dans Windows Vista, Windows 7 fournit un assistant pour configurer le microphone et un sur l'utilisation de la fonctionnalité.
Mac Os X
Tous les ordinateurs Mac OS X sont pré-installés avec le logiciel de reconnaissance vocale. Le logiciel est indépendant de l'utilisateur et lui permet de naviguer dans les menus, d'entrer des raccourcis clavier, énoncer les noms des cases à cocher, les noms des boutons radio, les éléments de liste et les noms des boutons, ouvrir, fermer, contrôler et basculer entre les applications. Le site Web d'Apple recommande cependant à l'utilisateur d'acheter en complément un produit commercial appelé Dictate.
Produits commerciaux
Si l'utilisateur n'est pas satisfait du logiciel de reconnaissance vocale intégré ou s'il n'en dispose pas, il est possible de se doter de produits commerciaux tels que Braina Pro ou DragonNaturallySpeaking pour Windows PC, et Dictate pour Mac OS.
Appareils mobiles à commande vocale
Tout appareil mobile exécutant Androïde OS, Microsoft WindowsPhone, iOS 9 ou version ultérieure ou Blackberry OS offre des capacités de commande vocale. En plus du logiciel de reconnaissance vocale intégré pour le système d'exploitation de chaque téléphone mobile, un utilisateur peut télécharger des applications de commande vocale tierces à partir du magasin d'applications de chaque système d'exploitation: Apple App Store, Google Play, Windows Phone Marketplace (initialement Windows Marketplace pour Mobile), ou BlackBerry App World .
Android
Google a développé un système d'exploitation open source appelé Android, qui permet à un utilisateur d'exécuter des commandes vocales pour envoyer un SMS, écouter de la musique, obtenir un itinéraire, appeler des contacts, envoyer un e-mails, consulter des sites Web, rédiger une note et rechercher sur Google. Le logiciel de reconnaissance vocale est disponible pour tous les appareils depuis Android 2.2 "Froyo", mais les paramètres doivent être définis en l'anglais. Google permet à l'utilisateur de changer la langue. L'utilisateur est invité à utiliser la fonction de reconnaissance vocale pour la première fois s'il souhaite que ses données vocales soient jointes à son compte Google. Si un utilisateur décide d'opter pour ce service, il contribue à l'entraînement du logiciel, lui permettant de reconnaître sa voix.
Google a présenté l' Assistant Google avec Android 7.0 "Nougat". Il est beaucoup plus avancé que l'ancienne version. Amazon a Echo, il utilise la version personnalisée d'Amazon sur Android pour fournir une interface vocale.
Microsoft Windows
Sur Windows Phone 7.5, l'application vocale est indépendante de l'utilisateur et peut être utilisée pour appeler quelqu'un de la liste de contacts, appeler n'importe quel numéro de téléphone, recomposer le dernier numéro, envoyer un SMS, appeler votre messagerie vocale, ouvrir une application, lire des rendez-vous, interrogez l'état du téléphone et recherchez sur le Web. En outre, la parole peut également être utilisée pendant un appel téléphonique et les actions suivantes sont possibles pendant un appel téléphonique: appuyez sur un numéro, allumez le haut-parleur ou appelez quelqu'un, ce qui active l'appel en cours tenir.
Windows 10 présente Cortana, un système de commande vocale qui remplace la commande vocale précédemment utilisée sur les téléphones Windows.
iOS
Apple a ajouté le contrôle vocal à sa famille d'appareils iOS en tant que nouvelle fonctionnalité de l'iPhone OS 3 . L'iPhone 4S, l'iPad 3, l'iPad Mini 1G, l'iPad Air, l'iPad Pro 1G, l'iPod Touch 5G et les versions ultérieures sont tous livrées avec un assistant vocal plus avancé appelé Siri. Le contrôle vocal peut toujours être activé via le menu Paramètres des nouveaux appareils. Siri est une fonction de reconnaissance vocale intégrée indépendante de l'utilisateur qui permet à un utilisateur d'émettre des commandes vocales. Avec l'aide de Siri, un utilisateur peut émettre des commandes telles qu'envoyer un SMS, vérifier la météo, définir un rappel, rechercher des informations, planifier des réunions, envoyer un e-mail, rechercher un contact, définir une alarme, obtenir des itinéraires, suivre vos stocks, définir une minuterie et demander des exemples d'exemples de requêtes de commandes vocales. De plus, Siri fonctionne avec Bluetooth et un casque filaire.
Amazon Alexa
En 2014, Amazon présente l'appareil intelligent pour la maison Alexa. Il s'agit d'un haut-parleur intelligent contrôlé par la voix. Il s'est transformé en un appareil ayant la capacité de contrôler l'électroménager par commande vocale. Aujourd'hui, presque tous les appareils connectés sont contrôlables avec Alexa, y compris la lumière et la température. En permettant le contrôle vocal, Alexa peut se connecter à la technologie de la maison intelligente, permettant de verrouiller la maison et d'activer divers appareils (domotique). Cette forme d'intelligence Artificielle (IA) répond par voix enregistrée à une question posée.
Reconnaissance vocale dans les voitures
Au fur et à mesure que la technologie automobile s'améliore, de plus en plus de fonctionnalité s'y ajoutent. Les commandes vocales pour les voitures, selon CNET, devraient permettre au conducteur d'émettre des commandes sans être distrait. Un logiciel analogue à Siri est en cours de développement pour les voitures. La plupart des logiciels de reconnaissance vocale sur le marché en 2011 n'avaient que 50 à 60 commandes vocales, là où Ford Sync en avait 10 000. Cependant, CNET affirme que 10 000 commandes vocales ne sont pas suffisantes compte tenu de la complexité et de la variété des tâches qu'un utilisateur peut souhaiter effectuer. La commande vocale pour les voitures est différente de la commande vocale pour les téléphones portables et les ordinateurs, car un conducteur peut utiliser la fonction pour rechercher des restaurants à proximité, rechercher de l'essence, des itinéraires, des conditions routières et l'emplacement de l'hôtel le plus proche. Actuellement, la technologie permet à un conducteur d'émettre des commandes vocales sur un GPS portable comme un Garmin et un système de navigation de constructeur automobile.
Communication non-verbale
Alors que la plupart des interfaces utilisateur vocales sont conçues pour prendre en charge l'interaction à travers le langage humain oral, il y a également eu des explorations récentes dans la conception d'interfaces prenant des sons humains non verbaux en entrée. Dans ces systèmes, l'utilisateur contrôle l'interface en émettant des sons non vocaux tels que des bourdonnements, des sifflements ou des souffles dans un microphone.
Un tel exemple d'une interface utilisateur vocale non verbale est Blendie, une installation artistique interactive créée par Kelly Dobson. La pièce comprenait un mélangeur classique des années 1950 qui a été adapté pour répondre à l'entrée du microphone. Pour contrôler le mélangeur, l'utilisateur doit imiter les sons mécaniques vrombissants qu'un mélangeur produit généralement: le mélangeur tournera lentement en réponse au grondement grave de l'utilisateur, et augmentera sa vitesse à mesure que l'utilisateur émet des sons vocaux plus élevés.
Un autre exemple est VoiceDraw, un système de recherche qui permet le dessin numérique pour les personnes ayant des capacités motrices limitées. VoiceDraw permet aux utilisateurs de «peindre» des traits sur un canevas numérique en modulant les sons de voyelle, qui sont mappés sur les directions du pinceau. La modulation d'autres caractéristiques para linguistiques (par exemple le volume de leur voix) permet à l'utilisateur de contrôler différentes caractéristiques du dessin, telles que l'épaisseur du coup de pinceau.
D'autres approches incluent l'adoption de sons non verbaux pour augmenter les interfaces tactiles (par exemple sur un téléphone mobile) pour prendre en charge de nouveaux types de gestes qui ne seraient pas possibles avec la seule saisie des doigts.
Défis de conception
Les interfaces vocales posent un nombre important de défis d'utilisation. Contrairement aux interfaces utilisateur graphiques (GUI), de meilleures pratiques pour la conception d'interfaces vocales émergent en permanence.
Accessibilité
Avec une interaction purement audio, les interfaces utilisateur vocales ont tendance à souffrir d'une faible accessibilité. Il est difficile pour les utilisateurs de comprendre l'étendue des capacités d'un système. Pour que le système transmette ce qui est possible sans affichage visuel, il devrait énumérer les options disponibles, qui peuvent devenir fastidieuses ou irréalisables. Une faible accessibilité se traduit souvent par des utilisateurs signalant une confusion sur ce qu'ils sont «autorisés» à dire, ou un décalage dans les attentes concernant l'étendue de la compréhension d'un système.
Transcription
Alors que la technologie de reconnaissance vocale s'est considérablement améliorée ces dernières années, les interfaces utilisateur vocales souffrent toujours d'erreurs d'analyse ou de transcription dans lesquelles la parole d'un utilisateur n'est pas interprétée correctement. Ces erreurs sont particulièrement répandues lorsque le contenu de la parole utilise un vocabulaire technique ou une orthographe non conventionnelles.
Comprendre
La conception d'un système efficace pour maximiser la compréhension conversationnelle reste un domaine de recherche ouvert. Les interfaces utilisateur vocales qui interprètent et gèrent l'état conversationnel sont difficiles à concevoir en raison de la difficulté inhérente à intégrer des tâches complexes de traitement du langage naturel telles que la résolution de la coréférence, la reconnaissance d'entités nommées, la récupération d'informations et la gestion des dialogues. La plupart des assistants vocaux sont aujourd'hui capables d'exécuter très bien des commandes simples mais limités dans leur capacité à gérer le dialogue au-delà d'une tâche étroite ou de quelques virages dans une conversation.
Incidences sur la confidentialité
Les problèmes de confidentialité sont soulevés par l'a mise à disposition des fournisseurs d'interfaces voix-utilisateur non cryptées. Elles peuvent donc être partagées avec des tiers et être traitées au-delà de leur objectif initial. Outre le contenu linguistique de la parole enregistrée, le mode d'expression et les caractéristiques vocales d'un utilisateur peuvent contenir implicitement des informations sur son identité biométrique, ses traits de personnalité, sa forme corporelle, son état de santé physique et mentale, son sexe, son genre, humeurs et émotions, statut socio-économique et origine géographique.
Articles connexes
Références
- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Voice user interface » (voir la liste des auteurs).
- "Commande vocale de machine à laver" . Magazine Appliance .
- Borzo, Jeanette (8 février 2007). "Maintenant tu parles" . CNN Money . Récupéré le 25 avril 2012 .
- "Contrôle vocal, la fin de la télécommande du téléviseur?" . Semaine d'affaires . Récupéré le 1er mai 2012 .
- "Windows Vista construit dans le discours" . Windows Vista . Récupéré le 25 avril 2012
- Journal Le monde
- https://designinteractif.gobelins.fr/tag/vocal-user-interface/
- "Speech Operation On Vista". Microsoft
- "L'installation de Reconnaissance vocale" . Microsoft
- "Compétences physiques et motrices". Apple.
- "DragonNaturallySpeaking PC" . Nuancer.
- "Actions vocales". Google.
- "Google Voice Search pour Android peut maintenant être" formé "à votre voix" . Récupéré le 24 avril 2012.
- "Utilisation de la commande vocale" . Microsoft . Récupéré le 24 avril 2012.
- "Siri, l'iPhone 3GS & 4, iPod 3 & 4, ont la commande vocale comme un Siri express, il joue de la musique, met la musique en pause, suffle, Facetime et appelle les fonctionnalités" . Apple . Récupéré le 27 avril 2012.
- Faq Siri Apple
- "Siri Like Voice". CNET.
- "GPS portable avec voix" . CNET.
- "La manipulation augmentée de Voix | Les actes de la 15ème conférence internationale sur l'interaction Homme-ordinateur avec les appareils et les services mobiles" . dlnext.acm.org. Récupéré le 27-02-2019.
- "Blendie | Actes de la 5ème conférence sur la conception de systèmes interactifs: processus, pratiques, méthodes et techniques" . dlnext.acm.org. Récupéré le 27-02-2019.