IBM
ViaVoice
Chers amis, ceci est mon premier test du logiciel de
reconnaissance vocale ViaVoice d'IBM, qui me sert donc, en guise d'expérience,
à rédiger cet article. Ce logiciel est un programme commercial (300-400
balles), qui même s'il n'est pas encore tout à fait au point, mérite que
nous nous y intéressions. En effet, il permet à tout un chacun, de dicter
à son ordinateur une lettre, ou un document quelconque. J'avais découvert
ce programme l'année dernière, car il était inclus dans le Pack de la
Mandrake 7.2. J'avais réussi à l'installer, à mon grand étonnement, et
à lui dicter quelques phrases. Je ne l'avais jamais utilisé depuis. Des
systèmes de reconnaissance vocale très avancés technologiquement existent
déjà, mais comme ce logiciel, il réside néanmoins quelques imperfections
: si je parle en argot ou bien si je prononce mal les mots, il va évidemment
écrire n'importe quoi, il fait des fautes d'orthographe. Mais globalement,
ça reste tout à fait honorable au niveau des résultats finaux...
Installation et configuration
Pour pouvoir utiliser ce logiciel, il faut donc posséder
plusieurs paquetages : ViaVoice_Dictation, ViaVoice_TTS_rtk,
ViaVoice_runtime, ViaVoice_runtime_FR_LanPack, ViaVoce_menu_fr,
ainsi que le paquetage IBM Java2-JRE. Évidemment
vous pouvez dicter dans plusieurs langues différentes (espagnol, anglais...)
à condition d'avoir les paquetages correspondants bien sûr.
Ensuite, il faut installer et configurer le programme...
Pour cela, soit on utilise le logiciel d'installation KPackage, si l'on
dispose de fichiers RPM, soit on lance le script d'installation automatique,
avec la commande :./vvsetup, dans le cas
d'archives au format TGZ. Il devrait tout installer dans les bons répertoires.
Si ça ne marche pas, il faudra lire la documentation pour détecter les
éventuelles modifications à apporter. Ensuite, il faut configurer un compte
personnel pour chaque utilisateur. Pour cela, on peut lancer avec le Menu
K/Multimedia/Son/ViaVoice Configuration, le programme UserGuru,
qui permettra "d'étalonner" le programme en fonction de l'empreinte vocale
de chacun. On peut aussi lancer à la main le script : ./vvu.sh.
Cet étalonnage se fait en lisant à haute voix, une série
de paragraphes, le plus naturellement possible, avec la diction et l'intonation
que l'on a dans la vie quotidienne (au début, on a tendance à parler comme
un robot...;-)). Ce qui est bien fait, c'est que ces paragraphes nous
expliquent le principe de la reconnaissance vocale (notions d'empreinte
vocale, de statistiques linguistiques, d'anticipation, etc....). Il y
a aussi des paragraphes de lettres commerciales, et autres "document-types"
pour l'entreprise. Il y a également des passages de "L'île
au trésor" je crois. Il est alors logique de penser, qu'en lisant
ces paragraphes le plus correctement possible, le système n'en sera que
mieux étalonné et précis pour la dictée vocale. En effet, les données
récoltées lors de l'étalonnage vocales sont traitées a posteriori, pour
constituer les fichiers personnels de chaque utilisateur.
Démarrage
Normalement, lors de l'installation, le programme de
lancement vvstartdictation a été
installé dans le répertoire /usr/bin. On
peut le vérifier en tapant la commande : type vvstartdictation,
qui doit renvoyer le chemin absolu du programme: "vvstartdictation
is /usr/bin/vvstartdictation". On lance donc le programme de dictée
vocale avec la commande : vvstartdictation.
J'ai eu quelques problèmes à ce niveau, car il avait l'air de chercher
les librairies IBMJava, qu'il ne trouvait pas bien sûr. J'ai dû éditer
le fichier vvstartdication à la main, pour lui indiquer le bon chemin
de cette librairie : à la fin du fichier, j'ai remplacé /usr/bin
par /opt/IBM. Je refais donc un coup
de : vvstartdictation, et ça marche... Là, une fenêtre s'ouvre, avec les
options habituelles : NEW, OPEN, SAVE, PRINT... qui sont suffisamment
explicites. Une petite icône représentant un micro se situe dans le coin
supérieur gauche de l'interface. Elle permet d'activer ou de désactiver
le micro. À ce sujet, assurez-vous au d'être équipé d'une carte son correcte,
ainsi que d'un microphone, sachant qu'un micro-casque est le plus pratique,
car il laisse les mains et la tête libres de tout mouvement lors de la
dictée.
À ce stade il suffit de dicter le plus naturellement
possible quelques mots et, magie de la technologie, ceux-ci apparaissent
à l'écran plus ou moins rapidement, selon la puissance de votre machine.
Il est recommandé de ne même pas regarder écran lorsque l'on dicte, et
surtout de ne pas attendre que les mots soit affichés pour dicter la suite.
En effet comme je l'ai déjà évoqué plus haut, l'ordinateur anticipe et
cherche sans cesse quel mot peut venir à la suite de celui qui vient d'être
dicté. Ceci se révèle très efficace dans la pratique, car on peut avoir
une diction relativement fluide, et donc une certaine rapidité dans l'exécution
des tâches. On peut évidemment enregistrer ses documents, ses articles,
au format *.vps (qui est en fait une archive des fichiers qui composent
le document dicté), ou directement au format *.rtf ou *.txt, ce qui est
assez pratique. Une fonctionnalité très intéressante est la correction
de mots. Si le programme interprète mal un mot comme "linux" par exemple,
qu'il écrivait "le luxe" auparavant, on surligne le ou les mots à
modifier et on clique sur le bouton "Correct", qui nous demande alors
de saisir l'orthographe correcte pour cette prononciation. Par la suite
quand je prononce "linux", il écrit bien "linux". La manipulation n'est
pas très aisée si l'on a beaucoup de mots "spéciaux" à rentrer,
mais ça fonctionne.
Vu les performances d'un tel produit, on imagine facilement
ce qu'il sera possible de faire demain. La puissance des ordinateurs,
alliée à la complexité des algorithmes, nous permettra de réaliser des
prouesses : on pourra piloter plusieurs systèmes uniquement en se servant
de la voix humaine, l'empreinte vocale étant unique...
|