Le développement des applications de traitement vocal : un art et une science

Tech - Par Renaud ROSSET - Publié le 24 juin 2010

Le plus important goulot d'étranglement dans le développement du traitement de la parole n'est pas la qualité des moteurs vocaux ni le manque d'applications potentielles. C'est plutôt la pénurie de développeurs d'applications de reconnaissance vocale, spécialisés, qualifiés, et expérimentés, comme l'indique le Communications Solutions Magazine (Février 2000). A bien des

égards, le développement d’applications
vocales aujourd’hui est autant un art qu’une science. Non seulement le développeur
doit savoir utiliser les kits d’un fournisseur de moteur de reconnaissance vocale,
mais aussi comprendre les subtilités du moteur, ses points forts et points faibles.

Les applications de reconnaissance vocale sont bâties sur des produits de base
de reconnaissance vocale appelés moteurs vocaux. On peut faire une analogie avec
la manière dont sont développés les IVR : un développeur d’IVR démarre avec un
produit de base IVR et utilise le kit de ce produit pour écrire un IVR personnalisé
pour un client donné. (Pour plus d’informations sur les moteurs vocaux, voir l’encadré
» Moteurs de reconnaissance vocale « , Pour les kits de personnalisation des IVR,
voir l’encadré » Kits IVR « ). Les moteurs vocaux sont le code de base chargé de
» comprendre » l’entrée vocale. Les développeurs d’applications vocales sélectionnent
leur moteur vocal et utilisent ses kits.

Bien que certains fournisseurs de reconnaissance vocale créent leurs propres applications,
ils s’efforcent souvent d’améliorer l’efficacité de la reconnaissance vocale de
leurs moteurs et de simplifier leurs kits pour que d’autres puissent écrire des
applications plus aisément. On peut citer deux fournisseurs de système de routage
vocal des appels, IBM (http://www.ibm.com) et Philips Voice ReQuest (http://www.purerequest.com).
Le système Philips est un système matériel/logiciel standard prêt à l’emploi que
les clients achètent en principe auprès d’un revendeur à valeur ajoutée (VAR),
lequel se charge de l’installation et de la maintenance des noms et du système.

Certains fournisseurs de moteurs vocaux ne se contentent pas de vendre des kits
pour développeurs. Ils offrent aussi des modules qui exécutent des tâches courantes
d’applications de reconnaissance vocale (voir l’encadré » Modules de dialogue
de reconnaissance vocale « ). Un fournisseur de moteur vocal pourrait, par exemple,
définir un module de dialogue Oui/Non. En effet, contrairement aux apparences,
il n’est pas si simple pour un développeur de créer une application chargée de
réagir à Oui ou Non. Avec une réponse par touche, la réponse à l’invite » Est-ce
correct ? Pressez 1 pour oui ou 2 pour non. » ne souffre pas d’ambiguïté. En revanche,
en reconnaissance vocale, la réponse à la question » Est-ce correct ? » pourrait
être » oui » ou » non « , » correct « , » pas du tout « , » absolument « , » bien
sûr « , » tout à fait « , ou autres variantes de » oui » et » non « . Toutes ces
variantes ont été observées lors d’essais de systèmes vocaux. En proposant un
module pour cette mini-application, le vendeur de moteur vocal dispense les développeurs
d’applications de ce travail complexe.

L’utilisation de ces modules pour créer une application vocale efficace est autant
un art qu’une science. C’est pourquoi, avant de commander une application de reconnaissance
vocale, il faut se renseigner au maximum sur l’expérience et les références du
fournisseur. Plus l’ensemble de modules d’un fournisseur de moteur vocal est complet,
moins il faudra de développement pour l’application, et moins celle-ci coûtera
cher.

Produits de
conversion du texte en parole

Une
poignée de fournisseurs proposent des logiciels texte/parole que l’on peut
incorporer dans des applications et même substituer aux phrases enregistrées
pour les invites. IBM (http://www.ibm.com) et Lernout & Hauspie, ou L&H
(http://www.lhsl.com), ont des produits texte/parole particulièrement sophistiqués,
d’un son réaliste, permettant de sélectionner les caractéristiques vocales
pour la génération de la parole. Le site L&H permet d’entendre une phrase
aussitôt après l’avoir tapée.

R.M.G. et D.N.B.

Téléchargez cette ressource

Les mégatendances cybersécurité et cyber protection 2024

L'évolution du paysage des menaces et les conséquences sur votre infrastructure, vos outils de contrôles de sécurité IT existants. EPP, XDR, EDR, IA, découvrez la synthèse des conseils et recommandations à appliquer dans votre organisation.

Tech - Par Renaud ROSSET - Publié le 24 juin 2010

Les articles les plus consultés