Debian-Accessibility - Logiciels

Synthèse vocale et interfaces de programmation d'application apparentées

EFlite

Serveur vocal pour Emacspeak et yasr (ou d'autres lecteurs d'écran) qui leur permet de se connecter avec Festival Lite, un moteur libre de lecture de texte développé au centre pour la parole de l'université de Carnegie Mellon en tant que ramification de Festival.

À cause de limitations héritées de son filtre de sortie, EFlite ne fournit de support que pour la langue anglaise pour le moment.

eSpeak

eSpeak est un logiciel de synthèse vocale pour l'anglais et quelques autres langues.

eSpeak produit un anglais de bonne qualité. Il utilise une méthode de synthèse différente des autres moteurs de lecture de texte à code source ouvert (pas de synthèse vocale par concaténation, et donc une empreinte mémoire très faible), et sonne assez différemment. Il n'est peut-être pas aussi naturel ni fluide que d'autres, mais certaines personnes trouve que l'articulation est plus claire et plus facile à écouter sur de longues périodes.

Il peut également fonctionner en ligne de commande pour énoncer le texte d'un fichier ou provenant de l'entrée standard. Il fonctionne aussi en tant qu'orateur avec le système de lecture de texte de KDE (KTTS), comme alternative à Festival par exemple. Ainsi, il peut énoncer un texte sélectionné dans le presse-papier, directement du navigateur Konqueror ou de l'éditeur Kate.

eSpeak peut aussi être utilisé avec GNOME-speech et Speech Dispatcher.

Festival Lite

Petit moteur rapide de synthèse vocale instantanée. Il s'agit du dernier ajout à l'ensemble d'outils de synthèse formés de logiciels libres qui comprennent le système de synthèse vocal Festival de l'université d'Édimbourg et le projet Festvox de l'université de Carnegie Mellon, des outils, des scripts et de la documentation pour construire des voix synthétiques. Quoi qu'il en soit, flite lui-même n'a besoin d'aucun de ces systèmes pour fonctionner.

Actuellement, il ne support que la langue anglaise.

Festival

Système de synthèse vocal multilingue universel développé au CSTR (Centre for Speech Technology Research, le centre pour la recherche en technologie de la parole) de l'université d'Édimbourg.

Festival propose un système complet de lecture de texte avec diverses interfaces de programmation d'applications, ainsi qu'un environnement pour le développement et la recherche de techniques de synthèse vocale. Il est écrit en C++ avec un interpréteur de commandes basé sur scheme pour ses commandes générales.

En plus de la recherche en synthèse vocale, festival peut être utilisé comme programme de synthèse vocale seul. Il est capable de produire des paroles facilement compréhensible à partir d'un texte.

recite

Programme pour faire de la synthèse vocale. La qualité du son produit n'est pas très bonne, mais il devrait convenir pour signaler verbalement des messages d'erreur occasionnels.

Étant donné un texte en anglais, recite le convertit en une série de phonèmes, puis convertit ces phonèmes en une séquence de paramètres de l'appareil vocal, et ensuite il synthétise le son qu'un appareil vocal ferait pour dire la phrase. Recite peut réaliser un sous-ensemble de ces opérations, il peut donc être utilisé pour convertir un texte en phonèmes, ou pour produire des paroles basées sur les paramètres d'un appareil vocal calculés par un autre programme.

Speech Dispatcher

Couche indépendante des périphérique pour la synthèse vocale. Ce projet supporte en sortie divers synthétiseurs vocaux logiciels et matériels et fournit une couche générique aux applications pour synthétiser de la parole et rejouer des données PCM via ces différentes sorties.

Divers concepts évolués, comme la mise en file d'attente par opposition à l'utilisation d'interruptions pour la sortie de la voix et les configurations d'utilisateur spécifique aux applications, sont mis en œuvre de façon indépendante du périphérique, ce qui évite donc au programmeur d'application de devoir à nouveau réinventer la roue.

Synthèse vocale internationalisée

Toutes les solutions libres disponibles actuellement pour la synthèse vocale basée sur le logiciel semblent partager une déficience commune : elles sont principalement limitées à l'anglais, ne fournissant qu'un support très marginal pour les autres langues, ou dans la plupart des cas absolument aucun support. Parmi tous les logiciels libres de synthèse vocale pour Linux, seul Festival de l'université de Carnegie Mellon supporte plus d'une seule langue naturelle. Festival peut synthétiser en anglais, en espagnol et en gallois. L'allemand, le français et le russe ne sont pas supportés. Alors que la tendance est à l'internationalisation et la localisation des logiciels et des services sur la Toile, est-il raisonnable de demander aux personnes aveugles intéressées par Linux d'apprendre l'anglais simplement pour comprendre leur ordinateur et de faire toute leur correspondance dans une langue étrangère ?

Malheureusement, la synthèse vocale n'est pas vraiment le projet maison préféré de Jeannot le Programmeur. La création d'un logiciel intelligible de synthèse vocale nécessite des tâches qui prennent beaucoup de temps. La synthèse vocale par concaténation demande le création soigneuse d'une base de données de phonèmes contenant toutes les combinaisons possibles de sons de la langue visée. Les règles pour déterminer la transformation de la représentation textuelle en phonèmes individuels nécessite également d'être développées et très bien ajustées, ce qui demande habituellement la segmentation d'un flux de caractères en groupes logiques tels que des phrases, des locutions et des mots. Une telle analyse lexicale nécessite un lexique spécifique à la langue rarement publié sous une licence libre.

L'un des systèmes de synthèse vocale les plus promettant est Mbrola, avec une base de données de phonèmes pour plus de dix langues différentes. Malheureusement, la licence choisie par ce projet est très restrictive. Mbrola ne peut être distribué que sous la forme d'un binaire préconstruit. De plus, les bases de données de phonèmes ne peuvent être utilisées que pour des application non militaires et non commerciales. Nous avons contacté les développeurs du projet, mais ils ont été incapable de modifier la licence de leur travail à causes de limitations données par les nombreux contributeurs. Malheureusement, étant donnés le modèle de licence restrictive de Mbrola, il ne peut pas être utilisé comme base pour poursuivre le travail dans cette direction, au moins pas dans le contexte du système d'exploitation Debian.

Sans un logiciel de synthèse vocale largement multilingue, Linux ne peut pas être accepté par les fournisseurs de technologies d'assistance et par les personnes ayant des handicaps visuels. Que pouvons-nous faire pour améliorer cela ?

Il y a en fait deux approches possibles :

  1. organiser un groupe de personnes souhaitant aider dans ce domaine, et essayer d'améliorer activement la situation. Ce peut être un peu compliqué, car cela nécessite beaucoup de connaissances spécifiques sur la synthèse vocale, ce qui n'est pas si simple pour une approche autodidacte. Quoi qu'il en soit, il ne faut pas vous décourager. Si vous pensez que vous pouvez motiver un groupe de personnes suffisamment grand pour obtenir des améliorations, ça vaut vraiment la peine de la faire ;
  2. obtenir des fonds et engager un institut qui a déjà le savoir-faire pour créer la base de données de phonèmes nécessaire, les lexiques et les règles de transformation. Cette approche a l'avantage d'avoir une meilleure probabilité de générer des résultats de qualité, et elle devrait également apporter certaines amélioration bien plus vite que la première approche. Bien sûr, la licence sous laquelle tout le travail résultant devrait être publié doit être convenue à l'avance, et elle devrait se conformer aux principes du logiciel libre selon Debian. La solution idéale serait bien sûr de convaincre une université de suivre un tel projet avec ses propres fonds, et donner le résultat à la communauté du logiciel libre.

Enfin, il semble que la plupart des produits actuels de synthèse vocale commerciaux ayant du succès n'utilisent plus la synthèse vocale par concaténation, principalement car les bases de données de son consomment beaucoup d'espace disque. Cela n'est pas souhaitable pour de petits produits embarqués comme par exemple pour les téléphones portables. Des logiciels libres récents comme eSpeak semblent essayer cette approche, ils valent très certainement la peine d'être regardés.

Extensions de lecture d'écran pour Emacs

Emacspeak

Système de sortie vocale permettant à quelqu'un qui ne peut pas voir de travailler directement sur un système Unix. Une fois que vous avez démarré Emacs et chargé Emacspeak, vous recevez un retour vocal de tout ce que vous faites. Votre expérience variera en fonction de votre niveau d'utilisation d'Emacs. Il n'y a rien qui ne puisse être fait dans Emacs :-). Ce paquet comprend des serveurs vocaux écrits en tcl pour supporter les synthétiseurs vocaux DECtalk Express et DECtalk MultiVoice. Pour d'autres synthétiseurs, veuillez rechercher un paquet de serveur vocal séparé tel qu'Emacspeak-ss ou eflite.

speechd-el

Client Emacs pour les synthétiseurs vocaux, les afficheurs en Braille et les autres interfaces alternatives de sortie. Il fournit un environnement complet de sortie avec synthèse vocale et Braille pour Emacs. Il est principalement destiné aux utilisateurs déficients visuels qui ont besoin de communication non visuelle avec Emacs, mais il peut être utilisé par toute personne nécessitant une synthèse vocale ou tout autre type de sortie alternative avec Emacs.

Lecteurs d'écran en console (mode texte)

BRLTTY

Démon fournissant un accès à la console Linux pour une personne aveugle utilisant un affichage en braille à cellules souples. Il pilote le terminal en braille et fournit des fonctionnalités complètes de lecture de l'écran.

Les modèles d'écrans suivants sont actuellement supportés (version 3.4.1-2) :

BRLTTY fournit également une infrastructure client / serveur pour les applications souhaitant utiliser un afficheur en braille. Le démon écoute les connexions TCP/IP entrantes sur un certain port. Une bibliothèques d'objets partagés pour les clients est fournie dans le paquet libbrlapi. Une bibliothèque statique, les fichiers d'en-têtes et la documentation sont fournis dans le paquet libbrlapi-dev. Cette fonctionnalité est pour le moment utilisée par Gnopernicus pour fournir le support pour des types d'afficheurs qui ne sont pas encore supportés par Gnopernicus directement.

Screader

Le programme en arrière-plan screader lit l'écran et passe les informations à un paquet logiciel de lecture de texte (comme festival) ou à un synthétiseur vocal matériel.

Yasr

Lecteur d'écran en console universel pour GNU/Linux et d'autres systèmes d'exploitation de type Unix. Le nom yasr est un acronyme qui pourrait signifier soit Yet Another Screen Reader, encore un autre lecteur d'écran, soit Your All-purpose Screen Reader, votre lecteur d'écran universel.

Actuellement, yasr essaye de supporter les synthétiseurs matériels Speak-out, DEC-talk, BNS, Apollo, et DoubleTalk. Il est également capable de communiquer avec les serveurs vocaux Emacspeak et peut donc être utilisé avec des synthétiseurs indirectement supportés, comme Festival Lite (via eflite) ou FreeTTS.

Yasr fonctionne en ouvrant un pseudo-terminal et en lançant un interpréteur de commandes, il intercepte toute entrée et toute sortie. Il surveille les séquences d'échappement envoyées et entretient une fenêtre virtuelle contenant ce qu'il pense être à l'écran. Il n'utilise donc pas de fonctionnalités spécifiques à Linux et peut être porté vers un autre système d'exploitation de type Unix sans trop de problèmes.

Interface utilisateur graphique

L'accessibilité des interfaces utilisateur graphiques sur les plates-formes Unix n'a reçu que récemment des améliorations significatives importantes avec les différents efforts de développement autour du bureau GNOME Desktop, particulièrement le projet d'accessibilité de GNOME.

Accessibilité de GNOME

Assistive Technology Service Provider Interface

Paquet contenant les composants principaux d'accessibilité de GNOME. Il permet aux fournisseurs de technologie d'assistance comme les lecteurs d'écran de demander à toutes les applications fonctionnant sur le bureau des informations liées à l'accessibilité ainsi que de fournir des mécanismes de relais pour supporter des boîtes à outils autres que GTK.

Les liaisons pour le language Python sont fournies dans le paquet python-at-spi.

The ATK accessibility toolkit

ATK est une boîte à outils fournissant des interfaces d'accessibilité pour les applications ou d'autres boîtes à outils. En implémentant ces interfaces, ces autres boîtes à outils ou ces applications peuvent être utilisées avec des outils tels que des lecteurs d'écran, des loupes, et d'autres périphériques de saisie alternatifs.

Les bibliothèques d'exécution d'ATK, nécessaires au fonctionnement des applications construites avec, est disponibles dans le paquet libatk1.0-0. Les fichiers de développement pour ATK, nécessaires à la compilation des programmes ou des boîtes à outils qui l'utilisent, sont fournis dans le paquet libatk1.0-dev. Les liaisons pour le langage Ruby sont fournies dans le paquet libatk1-ruby.

gnome-accessibility-themes

Le paquet gnome-accessibility-themes contient quelques thème de haute accessibilité pour l'environnement de bureau Gnome, ils sont conçus pour les malvoyants.

Un total de sept thème est fourni, permettant des combinaisons de contraste fort, faible ou inversé, ainsi que des textes et des icones agrandis.

gnome-speech

La bibliothèque vocale de GNOME fournit une interface de programmation d'applications simple mais générale pour que les programmes convertissent du texte en voix, ainsi que pour la saisie vocale.

Plusieurs filtres de sortie sont supportés, mais actuellement seul la sortie par Festival est activée dans ce paquet ; les autres filtres de sortie ont besoin de Java ou de logiciels propriétaires.

Gnopernicus

Gnopernicus est conçu pour permettre aux utilisateurs aveugles ou ayant une vue limitée d'accéder aux applications de GNOME. Il fournit un certain nombre de possibilités, dont l'agrandissement, le suivi des fenêtres actives, la sortie en braille, et d'autres.

gnome-orca

Orca est un lecteur flexible et extensible qui permet l'accès au bureau graphique par l'intermédiaire de combinaisons personnalisables de la parole, du braille et de l'agrandissement de l'affichage. Développé par le bureau des programmes d'accessibilité de Sun Microsystems Inc. depuis 2004, Orca a été créé dès le départ avec le concours et le suivi des utilisateurs auxquels il est destiné.

Orca peut utiliser GNOME-speech (par défaut) et Speech Dispatcher pour fournir une sortie vocale aux utilisateurs. BRLTTY est utilisé pour la gestion de l'affichage en braille (ainsi que pour l'intégration initiale de la console et de l'interface utilisateur en braille).

Logiciels d'accessibilité de KDE

kmag

Agrandit une partie de l'écran exactement comme si vous utilisiez une loupe pour agrandir un journal ou une photographie. Cette application est utile pour un grand nombre de personnes : des chercheurs aux artistes, aux concepteurs web et aux personnes avec une vision faible.

Méthodes de saisie inhabituelles

Dasher

Dasher est une interface de saisie de texte efficace grâce à des informations, piloté par des gestes naturels de toucher continu. Dasher est un système de saisie de texte concurrentiel à chaque fois qu'un clavier complet ne peut pas être utilisé, par exemple :

La version de suivi du regard de Dasher permet à un utilisateur expérimenté d'écrire du texte aussi rapidement qu'en écrivant à la main normalement, 25 mots par minutes ; en utilisant une souris, un utilisateur expérimenté peut écrire 39 mots par minute.

Dasher utilise un algorithme de prédiction plus avancé que le système T9(tm) souvent utilisé dans les téléphones mobiles, le rendant sensible au contexte environnant.

GOK

GOK (« GNOME Onscreen Keyboard », clavier sur l'écran de GNOME) est un clavier dynamique sur l'écran pour les systèmes d'exploitation Unix et de type Unix. Il permet d'utiliser les méthodes d'accès par sélection directe, sélection étendue, examen automatique et examen inversé et réalise le complètement des mots.

GOK comprend un clavier alphanumérique et un clavier de lancement d'applications. Les claviers sont spécifiés en XML en activant des claviers existants qui peuvent être modifiés ou de nouveaux claviers créés sur mesure. Les méthodes d'accès sont également spécifiées en XML ce qui permet de modifier les méthodes d'accès existantes et d'en créer de nouvelles.