Debian accesibilidad - Software

Síntesis de voz y APIs relacionadas

EFlite

Un servidor de voz para «Emacspeak» y «yasr» (u otro lector de pantalla) que les sirve de interfaz con «Festival Lite», un motor libre texto a voz desarrollado en el Centro de Voz de la CMU como una ramificación de «Festival».

Debido a limitaciones inherentes de su programa base, por el momento «EFlite» sólo proporciona soporte para la lengua inglesa.

eSpeak

eSpeak es un sintetizador de voz por software para inglés, y algunos otros idiomas.

eSpeak produce voz en inglés de buena calidad. Utiliza un método de síntesis de voz diferente del de otros motores texto a voz de fuente abierta (síntesis de voz no concatenativa, por lo que también deja una huella muy pequeña), y suena bastante diferente. Quizás no es tan natural o suave, pero algunos encuentran la articulación más clara y fácil de escuchar para largos períodos de tiempo.

Se puede usar como programa de consola para que lea texto de un archivo o de la entrada estándar. También trabaja bien como hablador con el sistema de texto a voz de KDE (KTTS), como alternativa a Festival por ejemplo. Como tal, puede leer texto que se haya seleccionado en el escritorio, o directamente desde el navegador Konqueror o el editor Kate.

eSpeak también se puede usar con GNOME-speech y Speech Dispatcher.

Festival Lite

Un pequeño motor de síntesis de voz rápido en tiempo de ejecución. Es la última incorporación al conjunto de herramientas de síntesis de software libre incluyendo el sistema de síntesis de voz de la Universidad de Edinburgo y el proyecto «FestVox» de la Universidad Carnegie Mellon, herramientas, scripts y documentación para construir voces sintéticas. Sin embargo, «flite» por sí mismo no necesita ninguno de estos sistemas para funcionar.

Actualmente sólo da soporte a la lengua inglesa.

Festival

Un sistema de síntesis de voz plurilingüe desarrollado en el CSTR «[Centre for Speech Technology Research]» (Centro para la investigación de tecnología del habla) de la Universidad de Edinburgo.

Festival ofrece un sistema texto a voz completo con varias APIs, así como un entorno de desarrollo e investigación de técnicas de síntesis de voz. Está escrito en C++ con un intérprete de órdenes basado en Scheme para el control general.

Además de la investigación en la síntesis de voz, «festival» es útil como un programa de síntesis de voz autónomo. Es capaz de producir voz claramente comprensible a partir de texto.

recite

«Recite» es un programa para la síntesis de voz. La calidad del sonido que produce no es terriblemente buena, pero debería ser adecuada para informar verbalmente de mensajes de error ocasionales.

Dado algún texto en inglés, «recite» lo convertirá en una serie de fonemas, una vez hecho esto se convierten los fonemas en una secuencia de parámetros vocales, y entonces la síntesis del sonido vocalmente le haría decir la frase. «Recite» puede desarrollar un subconjunto de estas operaciones, de forma que se puede usar para convertir texto en fonemas, o producir una pronunciación basada en los parámetros vocales calculados por otro programa.

Speech Dispatcher

Proporciona un capa independiente de dispositivos para la síntesis de voz. Da Soporte varios sintetizadores de voz por «software» y «hardware» como base y proporciona una capa genérica para la síntesis de voz y reproducir datos PCM a las aplicaciones a través de aquellos programas base distintos.

Varios conceptos de alto nivel, como encolar frente a interrumpir la voz y configuraciones de usuario de aplicaciones específicas, se implementan en un dispositivo de forma independiente. Esto es por aquello de liberar al programador de la aplicación de tener que reinventar la rueda.

Síntesis de voz internacionalizada

Todas las soluciones libres para «software» basadas en la síntesis de voz disponibles actualmente parecen compartir una deficiencia común: La mayoría están principalmente limitadas al inglés, proporcionando sólo un soporte muy marginal para otras lenguas o ,en lo mayoría de los casos, ninguno. Entre todos los sintetizadores de voz de software libre para Linux, sólo «Festival» de la CMU da soporte a más de una lengua natural. «Festival» de la CMU puede sintetizar inglés, español y galés. No se da soporte al alemán. No se da soporte al francés. No se da soporte al ruso. Cuando la internacionalización y localización son las tendencias en el software y los servicios «web», ¿es razonable pedir a la gente ciega interesada en Linux que aprendan inglés sólo para entender lo que dice su ordenador y llevar toda su correspondencia en una lengua extranjera?

Desafortunadamente, la síntesis de voz no es realmente el proyecto doméstico favorito de Jane Hacker. Crear un «software» sintetizador de voz inteligible conlleva tareas que consumen mucho tiempo. La síntesis de voz concatenativa requiere la cuidadosa creación de una base de datos de fonemas que contengan todas las posibles combinaciones de sonidos de la lengua objetivo. También se necesitan desarrollar con sumo cuidado las reglas que determinan las transformación de la representación en texto a fonemas individuales , y normalmente requiere la división del flujo de caracteres en grupos lógicos, como oraciones, frases y palabras. Tal análisis léxico requiere un léxico específico de la lengua raramente publicable bajo una licencia libre.

Una de las mayores promesas en los sistemas de síntesis de voz es Mbrola, con bases de datos de fonemas para más de diez lenguas. Por desgracia, la licencia elegida para el proyecto es muy restrictiva. Mbrola sólo se puede distribuir como binario precompilado. Además, las bases de datos de fonemas son sólo para uso no militar ni comercial. Contactamos con los desarrolladores del proyecto, pero no eran capaces de cambiar la licencia de su trabajo debido al conjunto de limitaciones que pusieron varios contribuyentes. Desgraciadamente, dado el modelo de licencia restrictiva de Mbrola, no se puede usar como base para un trabajo mayor en esa dirección, al menos no en el contexto del sistema operativo Debian.

Sin un «software» sintetizador de voz ampliamente plurilingüe, Linux no puede ser aceptado por proveedores de tecnología de asistencia y gente con discapacidades visuales. ¿Qué podemos hacer para mejorar esto?

Básicamente hay dos métodos posibles:

  1. Organizar un grupo de gente deseoso de ayudar en este asunto, e intentar activamente mejorar la situación. Esto puede ser un poco complicado, ya que se necesita un montón de conocimiento específico sobre síntesis de voz, lo que no es que sea fácil si se hace de forma autodidacta. Sin embargo, esto no debería descorazonarle. Si piensa que puede motivar un grupo de gente lo suficientemente grande para alcanzar algunas mejoras, valdría la pena hacerlo.
  2. Obtener fondos y contratar a algún instituto que ya tenga el conocimiento de cómo crear las bases de datos de fonemas necesarios, léxico y reglas de transformación. Este método tiene la ventaja de que tiene mayores probabilidades de generar resultados de calidad, y también debería alcanzar algunas mejoras mucho antes que el primer método. Por supuesto, la licencia bajo la que se publicaría todo el trabajo resultante se debería acordar por adelantado, y debería pasar los requerimientos de las DFSG. La solución ideal sería, por supuesto, convencer a alguna universidad para sufragar tal proyecto con sus propios fondos, y contribuir con los resultados a la comunidad del software libre.

Por último pero no menos importante, parece que la mayoría de los productos de síntesis comerciales de éxito actuales ya no usan síntesis de voz concatenativa, principalmente porque la base de datos de sonidos consume un montón de espacio en disco. Esto no es muy deseable para productos pequeños empotrados, como por ejemplo voz en un teléfono móvil. El software libre publicado recientemente como eSpeak parece intentar este enfoque, que puede merecer mucho la pena.

Extensiones de revisión de pantalla de Emacs

Emacspeak

Un sistema de salida por voz que permitirá a cualquiera que no pueda ver trabajar directamente en un sistema UNIX. Una vez inicie Emacs con «Emacspeak» cargado, obtendrá respuesta hablada para todo lo que haga. Su rendimiento variará dependiendo de cómo de bien sepa usar Emacs. No hay nada que no pueda hacer en Emacs :-). Este paquete incluye servidores de voz escritos en tcl para soportar los sintetizadores de voz DECtalk Express y DECtalk MultiVoice. Para otros sintetizadores, busque paquetes separados de servidores de voz como «Emacspeak-ss» o «eflite».

speechd-el

Cliente de Emacs para sintetizadores de voz, dispositivos de Braille y otros interfaces de salida alternativos. Proporciona un entorno con salida completamente hablada o en Braille. Está dirigido principalmente a usuarios con impedimentos visuales que necesitan comunicaciones no visuales con Emacs, pero lo puede usar cualquiera que necesite una salida de voz sofisticada u otro tipo de salida alternativa para Emacs.

Lectores de consola (modo-texto)

BRLTTY

Un demonio que proporciona acceso a la consola de Linux para una persona ciega usando un «software» para dispositivos de Braille. Maneja el terminal Braille y proporciona funcionalidad para la revisión de la pantalla completa.

Actualmente se da soporte a los siguientes modelos de presentación (en la versión 3.4.1-2):

BRLTTY también proporciona una infraestructura basada en cliente/servidor para aplicaciones que deseen utilizar un dispositivo de mostrado en Braille. El demonio escucha conexiones TCP/IP entrantes en un cierto puerto. Se proporciona en el paquete libbrlapi una biblioteca de objetos compartidos para clientes. En el paquete se proporciona una biblioteca estática, archivos de encabezado y documentación. libbrlapi-dev . Esta funcionalidad la usa por ejemplo Gnopernicus para proporcionar soporte a tipos de mostradores que aún no soporta Gnopernicus directamente.

Screader

El programa lector de pantalla en segundo plano lee la pantalla y le pasa la información a un paquete de «software» texto a voz (como ««festival»») o un sintetizador de voz por «hardware».

Yasr

Un lector de pantalla de consola de propósito general para GNU/Linux y otros sistemas operativos tipo Unix. El nombre «yasr» es un acrónimo que se puede interpretar tanto como Yet Another Screen Reader (Otro lector de consola más) o Your All-purpose Screen Reader (Su lector de consola para cualquier propósito).

En la actualidad, «yasr» intenta dar soporte a los sintetizadores por «hardware» Speak-out, DEC-talk, BNS, Apollo y DoubleTalk. También puede comunicarse con servidores de voz Emacspeak y así ser usado con sintetizadores que no soporte directamente, como Festival Lite (a través de «eflite») o FreeTTS.

«Yasr» funciona abriendo un pseudoterminal y lanzando una consola, interceptando todos los datos que entran y salen. Mira las secuencias de escape que se envían y mantiene una ventana virtual que contiene lo que cree que está en la pantalla. De esta manera no usa ninguna característica específica de Linux y se puede migrar a otros sistemas operativos tipo UNIX sin demasiados problemas.

Interfaces gráficas de usuario

La accesibilidad de las interfaces gráficas de usuarios sólo ha recibido un giro significativo recientemente con los variados trabajos de desarrollo en el Escritorio GNOME, especialmente el proyecto de accesibilidad de GNOME.

«Software» de accesibilidad en GNOME

Assistive Technology Service Provider Interface

Este paquete contiene los componentes centrales de accesibilidad de GNOME. Permite a los distribuidores de tecnología de asistencia, como lectores de pantalla, pedir a todas las aplicaciones que se estén ejecutando en el escritorio información relativa a accesibilidad, a la vez que proporciona mecanismos de enlace para soportar otros conjuntos de herramientas distintos de GTK.

Los conectores para el lenguaje Python se proporcionan en el paquete python-at-spi.

The ATK accessibility toolkit

ATK es un conjunto de herramientas que proporcionan interfaces de accesibilidad para aplicaciones u otros conjuntos de herramientas. Implementando estas interfaces, esos otros conjuntos de herramientas o aplicaciones se pueden usar con herramientas como lectores de pantalla, ampliadores, y otros dispositivos de entrada alternativos.

La parte que se ejecuta de ATK, que se necesita para ejecutar aplicaciones construidas con ello, está disponible en el paquete libatk1.0-0. Los archivos de desarrollo de ATK, que se necesita para la compilación de programas o conjuntos de herramientas que que lo usen, se proporcionan en el paquete libatk1.0-dev. Los conectores para el lenguaje Ruby se proporcionan en el paquete libatk1-ruby.

gnome-accessibility-themes

El paquete gnome-accessibility-themes (temas de accesibilidad de gnome) contiene algunos temas de alta accesibilidad para el escritorio GNOME, diseñados para impedidos visuales.

Se proporcionan un total de 7 temas, proporcionando combinaciones de contraste alto, bajo e invertido, así como texto e iconos grandes.

gnome-speech

La biblioteca GNOME Speech proporciona una API general aunque simple para programas para convertir texto en voz, así como entrada de voz.

Se soportan múltiples programas base, pero actualmente sólo el programa base «Festival» está habilitado en este paquete; los otros requieren algún «software» Java o propietario.

Gnopernicus

Gnopernicus está diseñado para permitir a los usuarios con visión limitada o ciegos acceder a aplicaciones GNOME. Proporciona un número de funciones, incluyendo ampliación, seguimiento de enfoque, salida de Braille y más funciones.

gnome-orca

Orca es un lector de consola flexible y extensible que proporciona acceso a escritorios gráficos usando combinaciones de voz, braille y/o magnificador definidos por el usuario. Lo está desarrollando, desde 1994, Sun Microsystems, Inc., a través de la Accessibility Program Office (oficina del programa de accesibilidad), Orca se ha creado con con aportaciones de sus usuarios finales y continuando su compromiso con ellos.

Orca puede usar GNOME-speech (predeterminado) y Speech Dispatcher para la síntesis de voz. BRLTTY se usa por dar soporte a dispositivos braille (y para la integración suave con consola e interfaces gráficos en braille).

Software de accessibilidad de KDE

kmag

Magnifica una parte de la pantalla igual que si usase una lupa para magnificar periódico bien impreso o una fotografía. Esta aplicación es útil para mucha gente: desde investigadores a artistas, diseñadores web o personas con poca visión.

Métodos de entrada de datos no estándar

Dasher

Dasher es un interfaz de entrada de texto eficiente en cuanto a información, manejado por acciones naturales de señalado continuas. Dasher es un sistema de entrada competitivo donde quiera que sea que no se pueda usar un teclado completo, por ejemplo,

La versión de seguimiento del ojo de Dasher permite a un usuario experimentado escribir texto tan rápido como una escritura manual normal, 25 palabras por minuto. Usando un ratón, los usuarios experimentados pueden escribir a 39 palabras por minuto.

Dasher utiliza un algoritmo de predicción de texto más avanzado que el T9(tm) que se usa a veces en los teléfonos móviles, haciéndolo sensible al contexto.

GOK

GOK [GNOME Onscreen Keyboard (Teclado en pantalla de GNOME)] es un teclado en pantalla dinámico para sistemas operativos UNIX y otros tipo UNIX. Ofrece selección directa, selección por detención, métodos de acceso de escaneo automático y escaneo inverso e incluye completado de palabra.

GOK incluye un teclado alfanumérico y un teclado para lanzar aplicaciones. Los teclados están especificados en XML posibilitando que se modifiquen los teclados existentes y se creen teclados nuevos. Los métodos de acceso también se especifican en XML proporcionando la capacidad de modificar los métodos existentes y crear nuevos.