Debian-Accessibility - Logiciels

Synthèse vocale et interfaces de programmation d'application apparentées

Une liste complète est disponible sur la page consacrée à la tâche de synthèse vocale.

EFlite

Serveur vocal pour Emacspeak et yasr (ou d'autres lecteurs d'écran) qui leur permet de se connecter avec Festival Lite, un moteur libre de synthèse vocale à partir d’un texte, développé au Centre pour la parole de l'Université de Carnegie Mellon en tant que ramification de Festival.

À cause de limitations héritées de son filtre de sortie, EFlite ne fournit de prise en charge que pour la langue anglaise pour le moment.

eSpeak

eSpeak/eSpeak-NG est un logiciel de synthèse vocale pour l'anglais et quelques autres langues.

eSpeak produit un anglais de bonne qualité. Il utilise une méthode de synthèse différente des autres moteurs de lecture de texte à code source ouvert (pas de synthèse vocale par concaténation, et donc une empreinte mémoire très faible), et sonne assez différemment. Il n'est peut-être pas aussi naturel ni fluide que d'autres, mais certaines personnes trouvent que l'articulation est plus claire et plus facile à écouter sur de longues périodes.

Il peut également fonctionner en ligne de commande pour énoncer le texte d'un fichier ou provenant de l'entrée standard. Il fonctionne aussi en tant qu'orateur avec le système de lecture de texte de KDE (KTTS), comme alternative à Festival par exemple. Ainsi, il peut énoncer un texte sélectionné dans le presse-papier, directement du navigateur Konqueror ou de l'éditeur Kate.

eSpeak peut aussi être utilisé avec Speech Dispatcher.

Festival Lite

Petit moteur rapide de synthèse vocale instantanée. Il s'agit du dernier ajout à l'ensemble d'outils de synthèse formés de logiciels libres qui comprend le système de synthèse vocale Festival de l'Université d’Édimbourg et le projet Festvox de l'Université de Carnegie Mellon, des outils, des scripts et de la documentation pour construire des voix synthétiques. Quoi qu'il en soit, Flite lui-même n'a besoin d'aucun de ces systèmes pour fonctionner.

Actuellement, il ne gère que la langue anglaise.

Festival

Système de synthèse vocale multilingue universel développé au CSTR (Centre for Speech Technology Research, le Centre pour la recherche en technologie de la parole) de l'Université d’Édimbourg.

Festival propose un système complet de lecture de texte avec diverses interfaces de programmation d'applications, ainsi qu'un environnement pour le développement et la recherche de techniques de synthèse vocale. Il est écrit en C++ avec un interpréteur de commandes basé sur Scheme pour ses commandes générales.

En plus de la recherche en synthèse vocale, Festival peut être utilisé comme programme de synthèse vocale autonome. Il est capable de produire des paroles facilement compréhensibles à partir d'un texte.

Speech Dispatcher

Couche indépendante des périphériques pour la synthèse vocale. Ce projet prend en charge comme moteur divers synthétiseurs vocaux logiciels et matériels et fournit aux applications une couche générique pour la synthèse de la parole ou rejouer des données PCM à l’aide de ces différents moteurs.

Divers concepts évolués, comme la mise en file d'attente par opposition à l'utilisation d'interruptions pour la sortie de la voix ou des configurations particulières d'utilisateur pour des applications, sont mis en œuvre de façon indépendante du périphérique, ce qui évite donc au programmeur d'application de devoir à nouveau réinventer la roue.

Synthèse vocale internationalisée

Toutes les solutions libres disponibles actuellement pour la synthèse vocale basée sur le logiciel semblent partager une déficience commune : elles sont principalement limitées à l'anglais, ne fournissant qu'une gestion très marginale pour les autres langues, ou dans la plupart des cas absolument aucune. Parmi tous les logiciels libres de synthèse vocale pour Linux, seul Festival, de l’Université de Carnegie Mellon, gère plus d'une seule langue naturelle. Festival peut synthétiser en anglais, en espagnol et en gallois. L'allemand, le français et le russe ne sont pas gérés. Alors que la tendance est à l'internationalisation et la régionalisation des logiciels et des services sur la Toile, est-il raisonnable de demander aux personnes aveugles intéressées par Linux d'apprendre l'anglais simplement pour comprendre leur ordinateur et de faire toute leur correspondance dans une langue étrangère ?

Malheureusement, la synthèse vocale n'est pas vraiment le projet maison préféré de Jeannot le Programmeur. La création d'un logiciel de synthèse vocale intelligible nécessite des tâches qui prennent beaucoup de temps. La synthèse vocale par concaténation demande le création soigneuse d'une base de données de phonèmes contenant toutes les combinaisons possibles de sons de la langue visée. Les règles pour déterminer la transformation de la représentation textuelle en phonèmes individuels nécessitent également d'être développées et très bien ajustées, ce qui demande habituellement la segmentation d'un flux de caractères en groupes logiques tels que des phrases, des locutions et des mots. Une telle analyse lexicale nécessite un lexique spécifique à la langue rarement publié sous une licence libre.

L'un des systèmes de synthèse vocale les plus prometteurs est Mbrola, avec une base de données de phonèmes pour plus de douze langues différentes. La synthèse elle-même est un logiciel libre. Malheureusement, les bases de données de phonèmes sont réservées seulement à un usage non militaire et non commercial. Nous manquons de bases de données libres pour une utilisation dans le système d’exploitation Debian.

Sans un logiciel de synthèse vocale largement multilingue, Linux ne peut pas être accepté par les fournisseurs de technologies d'assistance et par les personnes ayant des handicaps visuels. Que pouvons-nous faire pour améliorer cela ?

Il y a en fait deux approches possibles :

  1. Organiser un groupe de personnes souhaitant aider dans ce domaine, et essayer d'améliorer activement la situation. Ce peut être un peu compliqué, car cela nécessite beaucoup de connaissances spécifiques sur la synthèse vocale, ce qui n'est pas si simple pour une approche autodidacte. Quoi qu'il en soit, il ne faut pas vous décourager. Si vous pensez que vous pouvez motiver un groupe de personnes suffisamment grand pour obtenir des améliorations, ça vaut vraiment la peine de le faire ;
  2. Obtenir des fonds et engager un institut qui a déjà le savoir-faire pour créer la base de données de phonèmes nécessaire, les lexiques et les règles de transformation. Cette approche a l'avantage d'avoir une meilleure probabilité de générer des résultats de qualité, et elle devrait également apporter certaines améliorations bien plus vite que la première approche. Bien sûr, la licence sous laquelle tout le travail résultant devrait être publié doit être convenue à l'avance, et elle devrait se conformer aux principes du logiciel libre selon Debian. La solution idéale serait bien sûr de convaincre une université de suivre un tel projet avec ses propres fonds et de donner le résultat à la communauté du logiciel libre.

Enfin, il semble que la plupart des produits actuels de synthèse vocale commerciaux ayant du succès n'utilisent plus la synthèse vocale par concaténation, principalement car les bases de données de sons consomment beaucoup d'espace disque. Cela n'est pas souhaitable pour de petits produits embarqués comme par exemple les téléphones portables. Des logiciels libres récents comme eSpeak semblent essayer cette approche, ils valent très certainement la peine d'être regardés.

Extensions de lecture d'écran pour Emacs

Emacspeak

Système de sortie vocale permettant à quelqu'un qui ne peut pas voir de travailler directement sur un système Unix. Une fois que vous avez démarré Emacs et chargé Emacspeak, vous recevez un retour vocal de tout ce que vous faites. Votre expérience variera en fonction de votre niveau d'utilisation d'Emacs. Il n'y a rien qui ne puisse être fait dans Emacs :-). Ce paquet comprend des serveurs vocaux écrits en Tcl pour prendre en charge les synthétiseurs vocaux DECtalk Express et DECtalk MultiVoice. Pour d'autres synthétiseurs, veuillez rechercher un paquet de serveur vocal séparé tel qu'Emacspeak-ss ou eflite.

Speechd-el

Client Emacs pour les synthétiseurs vocaux, les afficheurs en Braille et les autres interfaces alternatives de sortie. Il fournit un environnement complet de sortie avec synthèse vocale et Braille pour Emacs. Il est principalement destiné aux utilisateurs déficients visuels qui ont besoin de communication non visuelle avec Emacs, mais il peut être utilisé par toute personne nécessitant une synthèse vocale ou tout autre type de sortie alternative avec Emacs.

Lecteurs d'écran en console (mode texte)

Une liste complète est disponible sur la page consacrée à la tâche de lecteurs d’écran en console.

BRLTTY

Démon fournissant un accès à la console Linux pour une personne aveugle utilisant un affichage en braille à cellules souples. Il pilote le terminal en braille et fournit des fonctionnalités complètes de lecture de l'écran.

Les périphériques braille gérés par BRLTTY sont listés dans la documentation sur les périphériques BRLTTY.

BRLTTY fournit également une infrastructure client/serveur pour les applications souhaitant utiliser un afficheur en braille. Le démon écoute les connexions TCP/IP entrantes sur un certain port. Une bibliothèque d'objets partagés pour les clients est fournie dans le paquet libbrlapi. Une bibliothèque statique, les fichiers d'en-têtes et la documentation sont fournis dans le paquet libbrlapi-dev. Cette fonctionnalité est, par exemple, utilisée par Orca pour fournir la prise en charge pour des types d'afficheur qui ne sont pas encore gérés par Gnopernicus directement.

Yasr

Lecteur d'écran en console universel pour GNU/Linux et d'autres systèmes d'exploitation de type Unix. Le nom yasr est un acronyme qui pourrait signifier soit Yet Another Screen Reader, encore un autre lecteur d'écran, soit Your All-purpose Screen Reader, votre lecteur d'écran universel.

Actuellement, yasr essaye de prendre en charge les synthétiseurs matériels Speak-out, DEC-talk, BNS, Apollo et DoubleTalk. Il est également capable de communiquer avec les serveurs vocaux Emacspeak et peut donc être utilisé avec des synthétiseurs indirectement gérés, comme Festival Lite (via eflite) ou FreeTTS.

Yasr fonctionne en ouvrant un pseudo-terminal et en lançant un interpréteur de commandes, il intercepte toute entrée et toute sortie. Il surveille les séquences d'échappement envoyées et entretient une fenêtre virtuelle contenant ce qu'il pense être à l'écran. Il n'utilise donc pas de fonctionnalités spécifiques à Linux et peut être porté vers un autre système d'exploitation de type Unix sans trop de problèmes.

Interface utilisateur graphique

L'accessibilité des interfaces utilisateur graphiques sur les plates-formes Unix n'a reçu que récemment des améliorations significatives importantes avec les différents efforts de développement autour du bureau GNOME, particulièrement le projet d'accessibilité de GNOME.

Accessibilité de GNOME

Une liste complète est disponible sur la page consacrée à la tâche d’accessibilité de Gnome.

Assistive Technology Service Provider Interface

Paquet contenant les composants principaux d'accessibilité de GNOME. Il permet aux fournisseurs de technologie d'assistance comme les lecteurs d'écran de demander à toutes les applications fonctionnant sur le bureau des informations liées à l'accessibilité ainsi que de fournir des mécanismes de relais pour prendre en charge des boîtes à outils autres que GTK.

Les liaisons pour le langage Python sont fournies dans le paquet python-at-spi.

The ATK accessibility toolkit

ATK est une boîte à outils fournissant des interfaces d'accessibilité pour les applications ou d'autres boîtes à outils. En implémentant ces interfaces, ces autres boîtes à outils ou ces applications peuvent être utilisées avec des outils tels que des lecteurs d'écran, des loupes et d'autres périphériques de saisie alternatifs.

Les bibliothèques d'exécution d'ATK, nécessaires au fonctionnement des applications construites avec, sont disponibles dans le paquet libatk1.0-0. Les fichiers de développement pour ATK, nécessaires à la compilation des programmes ou des boîtes à outils qui l'utilisent, sont fournis dans le paquet libatk1.0-dev. Les liaisons pour le langage Ruby sont fournies dans le paquet libatk1-ruby.

gnome-accessibility-themes

Le paquet gnome-accessibility-themes contient quelques grands thèmes d’accessibilité pour l'environnement de bureau Gnome, conçus pour les malvoyants.

Un total de sept thèmes est fourni, permettant des combinaisons de contraste fort, faible ou inversé, ainsi que des textes et des icônes agrandis.

gnome-orca

Orca est un lecteur flexible et extensible qui permet l'accès au bureau graphique par l'intermédiaire de combinaisons personnalisables de la parole, du braille et de l'agrandissement de l'affichage. Développé par le bureau des programmes d'accessibilité de Sun Microsystems Inc. depuis 2004, Orca a été créé dès le départ avec le concours et le suivi des utilisateurs auxquels il est destiné.

Orca peut utiliser Speech Dispatcher pour fournir une sortie vocale aux utilisateurs. BRLTTY est utilisé pour la gestion de l'affichage en braille (ainsi que pour l'intégration transparente de la console et de l'interface utilisateur en braille).

Logiciels d'accessibilité de KDE

Une liste complète est disponible sur la page consacrée à la tâche d’accessibilité de KDE.

kmag

Agrandir une partie de l'écran exactement comme si vous utilisiez une loupe pour agrandir un journal ou une photographie. Cette application est utile pour un grand nombre de personnes : des chercheurs aux artistes, aux concepteurs web et aux personnes avec une vision faible.

Méthodes de saisie inhabituelles

Une liste complète est disponible sur la page consacrée aux méthodes de saisie.

Dasher

Dasher est une interface de saisie de texte productive, pilotée par des gestes naturels de pointage continu. Dasher est un système de saisie de texte concurrentiel à chaque fois qu'un clavier complet ne peut pas être utilisé, par exemple :

La version de suivi du regard de Dasher permet à un utilisateur expérimenté d'écrire du texte aussi rapidement qu'en écrivant à la main normalement, 25 mots par minutes ; en utilisant une souris, un utilisateur expérimenté peut écrire 39 mots par minute.

Dasher utilise un algorithme de prédiction plus avancé que le système T9™ souvent utilisé dans les téléphones mobiles, le rendant sensible au contexte environnant.

Caribou

Caribou est une technologie d’assistance de saisie destinée aux utilisateurs de dispositif de pointage et cliquage. Il fournit sur l’écran un clavier personnalisable avec un mode balayage.