IBM ViaVoice

Sommaire

Chers amis, ceci est mon premier test du logiciel de reconnaissance vocale ViaVoice d'IBM, qui me sert donc, en guise d'expérience, à rédiger cet article. Ce logiciel est un programme commercial (300-400 balles), qui même s'il n'est pas encore tout à fait au point, mérite que nous nous y intéressions. En effet, il permet à tout un chacun, de dicter à son ordinateur une lettre, ou un document quelconque. J'avais découvert ce programme l'année dernière, car il était inclus dans le Pack de la Mandrake 7.2. J'avais réussi à l'installer, à mon grand étonnement, et à lui dicter quelques phrases. Je ne l'avais jamais utilisé depuis. Des systèmes de reconnaissance vocale très avancés technologiquement existent déjà, mais comme ce logiciel, il réside néanmoins quelques imperfections : si je parle en argot ou bien si je prononce mal les mots, il va évidemment écrire n'importe quoi, il fait des fautes d'orthographe. Mais globalement, ça reste tout à fait honorable au niveau des résultats finaux...

Installation et configuration

Pour pouvoir utiliser ce logiciel, il faut donc posséder plusieurs paquetages : ViaVoice_Dictation, ViaVoice_TTS_rtk, ViaVoice_runtime, ViaVoice_runtime_FR_LanPack, ViaVoce_menu_fr, ainsi que le paquetage IBM Java2-JRE. Évidemment vous pouvez dicter dans plusieurs langues différentes (espagnol, anglais...) à condition d'avoir les paquetages correspondants bien sûr.

Ensuite, il faut installer et configurer le programme... Pour cela, soit on utilise le logiciel d'installation KPackage, si l'on dispose de fichiers RPM, soit on lance le script d'installation automatique, avec la commande :./vvsetup, dans le cas d'archives au format TGZ. Il devrait tout installer dans les bons répertoires. Si ça ne marche pas, il faudra lire la documentation pour détecter les éventuelles modifications à apporter. Ensuite, il faut configurer un compte personnel pour chaque utilisateur. Pour cela, on peut lancer avec le Menu K/Multimedia/Son/ViaVoice Configuration, le programme UserGuru, qui permettra "d'étalonner" le programme en fonction de l'empreinte vocale de chacun. On peut aussi lancer à la main le script : ./vvu.sh.

Cet étalonnage se fait en lisant à haute voix, une série de paragraphes, le plus naturellement possible, avec la diction et l'intonation que l'on a dans la vie quotidienne (au début, on a tendance à parler comme un robot...;-)). Ce qui est bien fait, c'est que ces paragraphes nous expliquent le principe de la reconnaissance vocale (notions d'empreinte vocale, de statistiques linguistiques, d'anticipation, etc....). Il y a aussi des paragraphes de lettres commerciales, et autres "document-types" pour l'entreprise. Il y a également des passages de "L'île au trésor" je crois. Il est alors logique de penser, qu'en lisant ces paragraphes le plus correctement possible, le système n'en sera que mieux étalonné et précis pour la dictée vocale. En effet, les données récoltées lors de l'étalonnage vocales sont traitées a posteriori, pour constituer les fichiers personnels de chaque utilisateur.

Démarrage

Normalement, lors de l'installation, le programme de lancement vvstartdictation a été installé dans le répertoire /usr/bin. On peut le vérifier en tapant la commande : type vvstartdictation, qui doit renvoyer le chemin absolu du programme: "vvstartdictation is /usr/bin/vvstartdictation". On lance donc le programme de dictée vocale avec la commande : vvstartdictation. J'ai eu quelques problèmes à ce niveau, car il avait l'air de chercher les librairies IBMJava, qu'il ne trouvait pas bien sûr. J'ai dû éditer le fichier vvstartdication à la main, pour lui indiquer le bon chemin de cette librairie : à la fin du fichier, j'ai remplacé /usr/bin par /opt/IBM. Je refais donc un coup de : vvstartdictation, et ça marche... Là, une fenêtre s'ouvre, avec les options habituelles : NEW, OPEN, SAVE, PRINT... qui sont suffisamment explicites. Une petite icône représentant un micro se situe dans le coin supérieur gauche de l'interface. Elle permet d'activer ou de désactiver le micro. À ce sujet, assurez-vous au d'être équipé d'une carte son correcte, ainsi que d'un microphone, sachant qu'un micro-casque est le plus pratique, car il laisse les mains et la tête libres de tout mouvement lors de la dictée.

À ce stade il suffit de dicter le plus naturellement possible quelques mots et, magie de la technologie, ceux-ci apparaissent à l'écran plus ou moins rapidement, selon la puissance de votre machine. Il est recommandé de ne même pas regarder écran lorsque l'on dicte, et surtout de ne pas attendre que les mots soit affichés pour dicter la suite. En effet comme je l'ai déjà évoqué plus haut, l'ordinateur anticipe et cherche sans cesse quel mot peut venir à la suite de celui qui vient d'être dicté. Ceci se révèle très efficace dans la pratique, car on peut avoir une diction relativement fluide, et donc une certaine rapidité dans l'exécution des tâches. On peut évidemment enregistrer ses documents, ses articles, au format .vps (qui est en fait une archive des fichiers qui composent le document dicté), ou directement au format .rtf ou *.txt, ce qui est assez pratique. Une fonctionnalité très intéressante est la correction de mots. Si le programme interprète mal un mot comme "linux" par exemple, qu'il écrivait "le luxe" auparavant, on surligne le ou les mots à modifier et on clique sur le bouton "Correct", qui nous demande alors de saisir l'orthographe correcte pour cette prononciation. Par la suite quand je prononce "linux", il écrit bien "linux". La manipulation n'est pas très aisée si l'on a beaucoup de mots "spéciaux" à rentrer, mais ça fonctionne.

Vu les performances d'un tel produit, on imagine facilement ce qu'il sera possible de faire demain. La puissance des ordinateurs, alliée à la complexité des algorithmes, nous permettra de réaliser des prouesses : on pourra piloter plusieurs systèmes uniquement en se servant de la voix humaine, l'empreinte vocale étant unique...

Sommaire