Debian-Accessibility - Software

Sprachsynthese und verwandte APIs

EFlite

Ein Sprachserver für Emacspeak und yasr (oder andere Bildschirmleser), der es Ihnen erlaubt, mit Festival Lite, einer freien Text-Zu-Sprache-Maschine, die im CMU Speech Center als Beiprodukt von Festival entwickelt wurde, zusammenzuarbeiten.

Aufgrund der von seinem Backend übernommenen Einschränkungen bietet EFlite momentan nur Unterstützung für die englische Sprache.

eSpeak

eSpeak ist ein Software Sprachsynthesier für englisch und einige andere Sprachen.

eSpeak erstellt Englische-Sprache in guter Qualität. Es verwendet eine andere Sprachsynthese, als andere Open Source Text-zu-Sprache-Maschinen (TSS) (keine verknüpfte Sprachsynthese, daher hat es geringen Ressourcenbedarf) und klingt recht anders. Es ist wahrscheinlich noch nicht so natürlich oder gleichmäßig aber einige finden die Aussprache sauberer und leichter, um lange Perioden zuzuhören.

Es kann als Kommandozeilenprogramm verwendet werden, um Text aus einer Datei oder Stdin vorzulesen. Es funktioniert auch gut als Talker mit dem KDE-Text-zu-Sprache-System (KTTS), beispielsweise als Alternative zu Festival. In dieser Funktion kann es Text vorlesen, der in die Zwischenablage ausgewählt wurde, oder direkt aus dem Konqueror-Browser oder dem Kate-Editor.

eSpeak kann auch mit GNOME-speech und Speech Dispatcher verwendet werden.

Festival Lite

Eine kleine Laufzeit-Sprachgenerator-Maschine. Es ist die neueste Ergänzung zu der Sammlung von freien Software-Synthese-Werkzeugen und enthält das Sprachgeneratoren-System der Universität Edinburgh und das FestVox-Projekt, Werkzeuge, Skripte und Dokumentation für das Erstellen generierter Stimmen der Carnegie Mellon Universität. Allerdings benötigt flite keines der beiden Systeme, um zu funktionieren.

Es unterstützt derzeit nur die englische Sprache.

Festival

Ein allgemeines, vielsprachiges Sprachgeneratorensystem, das im CSTR [Centre for Speech Technology Research (Zentrum für Sprachtechnikforschung)] an der Universität von Edinburgh entwickelt wurde.

Festival bietet ein volles Text-zu-Sprache-System mit verschiedenen APIs an, sowie eine Umgebung zur Entwicklung und Erforschung von Sprachsynthesetechniken. Es ist in C++ geschrieben und enthält einen Scheme-basierten Befehlsinterpreter für allgemeine Kontrolle.

Neben der Erforschung von Sprachsynthese ist Festival auch als eigenständiges Sprachsynthese-Programm nützlich. Es ist in der Lage, klar verständliche Sprache aus Text zu produzieren.

recite

Recite ist ein Programm zu Sprachgenerierung. Die Qualität des erzeugten Klangs ist nicht besonders gut, sollte aber für den verbalen Bericht der gelegentlichen Fehlermeldung adäquat sein.

Recite konvertiert einen gegebenen englischen Text in eine Serie von Phonemen, dann konvertiert es die Phoneme in eine Sequenz vokaler Trakt-Parameter und generiert dann den Klang, den ein vokaler Trakt erzeugen würde, um den Satz zu sprechen. Recite kann eine Untermenge dieser Operationen ausführen, so kann es dazu verwendet werden, einen Text in Phoneme zu konvertieren oder eine Artikulation basierend auf den vokalen Trakt-Parametern, die von einem anderen Programm berechnet wurden, zu produzieren.

Speech Dispatcher

Stellt eine geräteunabhängige Ebene für Sprachgeneration bereit. Es unterstützt verschiedene Software- und Hardware-Sprachgeneratoren als Backends und bietet eine generische Ebene für Sprachgenerierung und PCM-Wiedergabe über diese verschiedenen Backends an Anwendungen an.

Verschiedene abstrakte Konzepte wie Einreihung kontra Sprachunterbrechung und anwendungsspezifische Benutzerkonfiguration sind in einer geräteunabhängigen Art implementiert und befreien den Anwendungsprogrammierer davon, schon wieder das Rad neu zu erfinden.

Internationalisierte Sprachgeneration

Alle derzeit erhältlichen freien Lösungen für Software-basierte Sprachgeneration scheinen eine gemeinsame Unzulänglichkeit zu teilen: Sie sind größtenteils auf Englisch beschränkt und bieten nur eine sehr begrenzte Unterstützung für andere Sprachen oder in den meisten Fällen überhaupt keine. Unter den freien Software-Sprachgeneratoren für Linux unterstützt nur CMU Festival mehr als eine natürliche Sprache. CMU Festival kann Englisch, Spanisch und Walisisch generieren. Deutsch wird nicht unterstützt. Französisch wird nicht unterstützt. Russisch wird nicht unterstützt. Falls Internationalisierung und Lokalisierung die Trends in Software und Webdiensten sind, ist es dann vernünftig zu erwarten, dass blinde Leute, die an Linux interessiert sind, Englisch lernen, nur um die Ausgabe ihres Computers zu verstehen und alle Korrespondenz in einer fremden Sprache durchzuführen?

Unglücklicherweise ist Sprachgeneration nicht Erna Musterhackers beliebtestes Heimbauprojekt. Einen verständlichen Software-Sprachgenerator zu erzeugen beinhaltet zeitraubende Aufgaben. Aneinander hängende Sprachgeneration benötigt eine sorgfältig erstellte Phonemdatenbank, die alle möglichen Kombinationen von Klängen für die Zielsprache enthält. Die Regeln, die die Umwandlung der Textrepräsentation in individuelle Phoneme bestimmen, müssen auch entwickelt und sauber eingestellt werden, typischerweise wird hierzu die Aufteilung des Zeichenstroms in logische Gruppen wie Sätze, Phrasen und Wörter benötigt. Eine solche lexikalische Analyse benötigt ein sprachspezifisches Lexikon, das selten unter einer freien Lizenz veröffentlicht ist.

Eines der vielversprechendsten Sprachgenerationsprogramme ist Mbrola mit einer Phonem-Datenbank für über 10 verschiedene Sprachen. Unglücklicherweise ist die vom Projekt ausgewählte Lizenz sehr restriktiv. Mbrola kann nur als vorgebautes Binärprogramm vertrieben werden. Zusätzlich sind die Phonem-Datenbanken nur für nicht-militärische und nicht-kommerzielle Verwendung. Wir haben die Entwickler des Projekts kontaktiert, aber sie waren nicht in der Lage, die Lizenzierung ihrer Arbeit aufgrund der Begrenzungen, die ihnen verschiedene Mitwirkende auferlegt hatten, zu ändern. Unglücklicherweise kann aufgrund des restriktiven Lizenzmodells Mbrola nicht als Basis für weitere Arbeit in diese Richtung eingesetzt werden, zumindest nicht im Rahmen des Debian-Betriebssystems.

Ohne einen breiten multi-lingualen Software-Sprachgenerator kann Linux nicht von Anbieter unterstützender Technik und Personen mit visuellen Behinderungen akzeptiert werden. Was können wir tun, um dies zu verbessern?

Es gibt im Prinzip zwei mögliche Herangehensweisen:

  1. Organisieren Sie eine Gruppe von Leuten, die in dieser Hinsicht helfen wollen, und versuchen Sie, aktiv die Situation zu verbessern. Dies kann ein bisschen kompliziert werden, da eine Menge an speziellem Wissen über Sprachgeneration benötigt werden wird, was nicht sehr einfach ist, wenn es über einen autodidaktischen Zugang erfolgt. Dies soll Sie allerdings nicht entmutigen. Falls Sie glauben, Sie können eine Gruppe, die groß genug ist, um einige Verbesserungen zu erreichen, motivieren, dann wäre dies lohnenswert.
  2. Sichern Sie eine Finanzierung und heuern Sie ein Institut an, das bereits das Wissen über die Erzeugung der notwendigen Phonem-Datenbanken, Lexika und Transformationsregeln hat. Dieser Zugang hat den Vorteil, das er eine größere Wahrscheinlichkeit hat, qualitative Ergebnisse zu erzeugen und sollte auch viel früher als der erste Ansatz Verbesserungen erreichen. Natürlich sollte die Lizenz, unter der die entstehende Arbeit veröffentlicht wird, im voraus vereinbart werden und sie sollte alle DFSG-Anforderungen erfüllen. Die ideale Lösung wäre natürlich eine Universität zu überzeugen, ein solches Projekt auf eigene Kosten durchzuziehen und die Ergebnisse der Freien-Software-Gemeinschaft beizusteuern.

Abschließend sei gesagt, dass anscheinend die meisten kommerziell erfolgreichen Sprachsynthese-Produkte heutzutage nicht mehr die verbindende Sprachsynthese verwenden, hauptsächlich da die Klangdatenbanken viel Plattenplatz verwenden. Dies ist für kleine eingebettete Produkte nicht wirklich wünschenswert, wie beispielsweise Sprachausgabe auf Handys. Freie Software, die in jüngerer Zeit veröffentlicht wurde, wie eSpeak scheinen diesen Zugang auszuprobieren, den es sich lohnt, anzuschauen.

Emacs-Erweiterungen für das Auslesen des Bildschirms

Emacspeak

Ein Sprachausgabesystem, das jemanden, der nicht sehen kann, erlaubt, direkt auf dem UNIX-System zu arbeiten. Sobald Sie Emacs mit Emacspeak laden, erhalten Sie eine gesprochene Rückmeldung für alles, was Sie tun. Ihr Erfolg hängt davon ab, wie gut Sie Emacs benutzen können. Es gibt nichts, was Sie nicht in Emacs erledigen können :-). Diese Paket enthält Sprachserver, die in tcl geschrieben sind, um DECtalk Express and DECtalk MultiVoice Sprachgeneratoren zu unterstützen. Für andere Generatoren verwenden Sie Pakete wie Emacspeak-ss oder eflite.

speechd-el

Eine Emacs-Erweiterung für Sprachsynthese, Braillezeilen und andere alternative Ausgabe-Schnittstellen. Es stellt eine komplette Sprach- und Braille-Ausgabe-Umgebung für Emacs bereit. Es zielt primär auf Benutzer mit Sehstörungen ab, die eine nicht-visuelle Kommunikation mit Emacs benötigen, aber es kann von jedem benutzt werden, der fortgeschrittene Sprache oder andere Arten von alternativen Ausgaben von Emacs benötigt.

Konsole (Textmodus) Bildschirm-Vorleseprogramme

BRLTTY

Ein Daemon, der den Zugriff auf die Linux-Konsole für eine blinde Person mit einer Braillezeile erlaubt. Es betreibt das Braille-Terminal und bietet komplette Bildschirm-Auslesefunktionalität.

Die folgenden Braillezeilen werden derzeit (in Version 3.4.1-2) unterstützt:

BRLTTY stellt eine Client-Server-basierte Infrastruktur für Anwendungen, die eine Braillezeile benutzen wollen, bereit. Der Daemon-Prozess wartet auf einkommende TCP/IP-Verbindungen auf einem bestimmten Port. Eine Laufzeitbibliothek im Objektformat für Clients wird in dem Paket libbrlapi bereitgestellt. Eine statische Bibliothek, Header-Dateien und Dokumentation wird in dem Paket libbrlapi-dev bereitgestellt. Diese Funktionalität wird zum Beispiel von Gnopernicus verwendet, um Braillezeilen, die noch nicht von Gnopernicus direkt unterstützt werden, zu unterstützen.

Screader

Das Hintergrundprogramm screader liest den Bildschirm und gibt die Informationen an ein Text-Zu-Sprache Softwarepaket (wie `festival') oder an einen Hardware-Sprachgenerator weiter.

Yasr

Ein Allzweck Konsole-Bildschirm-Leseprogramm für GNU/Linux und andere, Unix-artige Betriebssysteme. Der Name yasr ist ein Akronym, das entweder für Yet Another Screen Reader (noch ein anderer Bildschirmleser) oder für Your All-purpose Screen Reader (Ihr Allzweck Bildschirmleser) stehen kann.

Derzeit versucht yasr Speak-out, DEC-talk, BNS, Apollo und DoubleTalk-Hardwaregeneratoren zu unterstützen. Es ist auch in der Lage, mit Emacspeak-Sprachservern zu kommunizieren, und ist daher in der Lage, mit Generatoren, die es nicht direkt unterstützt, wie beispielsweise Festival Lite (via eflite) oder FreeTTS, zu kommunizieren.

Yasr arbeitet, indem es ein Pseudo-Terminal öffnet und als Shell läuft und dabei alle Ein- und Ausgaben abfängt. Es schaut sich die gesendeten Escape-Sequenzen an und verwaltet ein virtuelles Fenster mit dem Inhalt, den es auf dem Bildschirm glaubt. Es verwendet daher keine speziellen Funktionen von Linux und kann ohne viel Ärger auf andere Unix-artige Betriebssysteme portiert werden.

Graphische Benutzerschnittstellen

Barrierefreiheit von graphischen Benutzerschnittstellen auf der UNIX-Plattform hat erst vor kurzem einen signifikanten Aufschwung durch die verschiedenen Entwicklungen rund um den GNOME Desktop, insbesondere dem GNOME Barrierefreiheit-Projekt, erhalten.

GNOME Barrierefreiheit-Software

Assistive Technology Service Provider Interface

Dieses Paket enthält die Kern-Komponenten von GNOME-Barrierefreiheit. Es erlaubt Anbietern von unterstützender Technik, wie Bildschirmvorlesern, alle Anwendungen, die auf dem Desktop laufen, in Bezug auf Informationen zu Barrierefreiheit abzufragen sowie einen Brückenmechanismus bereitzustellen, um andere Toolkits neben GTK zu unterstützen.

Anbindungen für die Sprache Python werden in dem Paket python-at-spi bereitgestellt.

The ATK accessibility toolkit

ATK ist ein Toolkit, das barrierefreie Schnittstellen für Anwendungen oder andere Toolkits bereitstellt. Indem diese Schnittstellen implementiert werden, können diese anderen Toolkits oder Anwendungen mit Werkzeugen wie Bildschirm-Vorlesern, Vergrößerungslupen und anderen alternativen Eingabemethoden verwendet werden.

Der Laufzeitteil von ATK, der zum Ausführen von damit gebauten Anwendungen benötigt wird, ist in dem Paket libatk1.0-0 erhältlich. Entwicklungsdateien für ATK, benötigt für das Übersetzen von Programmen oder Toolkits, die es verwenden, werden von dem Paket libatk1.0-dev bereitgestellt. Ruby Sprach-Anbindungen werden durch das Paket libatk1-ruby bereitgestellt.

gnome-accessibility-themes

Das Paket gnome-accessibility-themes enthält einige Themata mit hoher Barrierefreiheit für die GNOME Desktop-Umgebung, die für Benutzer mit Seh-Einschränkungen entwickelt wurden.

Insgesamt werden sieben Themata bereitgestellt, die Kombinationen von hohem, niedrigem und invertiertem Kontrakt sowie vergrößerten Text und vergrößerte Icons bereitstellen.

gnome-speech

Die GNOME-Sprachbibliothek stellt ein einfaches aber dennoch allgemeines API für Programme bereit, um Text in Sprache zu verwandeln, sowie für Spracheingabe.

Mehrere Backends werden unterstützt, aber derzeit ist nur das Festival-Backend im Paket aktiviert; andere Backends benötigen Java oder proprietäre Software.

Gnopernicus

Gnopernicus ist dafür konstruiert, Benutzern mit begrenzter oder überhaupt keiner Sehkraft zu erlauben, auf GNOME-Anwendungen zuzugreifen. Es stellt eine Reihe von Funktionen, darunter Vergrößerung, Fokusverfolgung, Braille-Ausgabe und weitere, zur Verfügung.

gnome-orca

Orca ist ein flexibler und erweiterbarer Bildschirmleser, der Zugriff auf den grafischen Desktop mittels benutzeranpassbaren Kombinationen von Sprach-, Braille- und/oder Vergrößerung bietet. Unter Entwicklung von Sun Microsystems, Inc., Accessibility Program Office seit 2004, wurde Orca von Anfang an mit Eingaben von und fortgesetztem Engagement mit seinen Endbenutzern erzeugt.

Orca kann als Sprachausgabe GNOME-speech (der Standard) und Speech Dispatcher verwenden. BRLTTY wird für Braille-Darstellungsunterstützung (und für nahtlose Konsolen- und GUI-Braille-Review-Integration) verwendet.

KDE-Barrierefreiheit-Software

kmag

Vergrößeren Sie eine Teil des Bildschirms als ob Sie eine Linse zum Vergrößern des Kleingedruckten einer Zeitung oder eines Photos verwenden würden. Diese Anwendung hilft einer vielzahl von Personen: von Wissenschaftlern bis zu Künstlern bis zu Web-Designern bis zu Personen mit geringem Sehvermögen.

Nicht-Standard-Eingabemethoden

Dasher

Dasher ist eine informationseffiziente Texteingabeschnittstelle, die von natürlichen, kontinuierlich zeigenden Gesten angetrieben wird. Dasher ist ein konkurrenzfähiges Texteingabesystem wo auch immer keine Tastatur in voller Größe verwendet werden kann, beispielsweise

Die Version von Dasher mit der Verfolgung der Augenbewegung erlaubt es erfahrenen Benutzern einen Text in normaler Handschriftgeschwindigkeit zu schreiben – 25 Worte pro Minute; unter Verwendung einer Maus können erfahrene Benutzer 39 Worte pro Minute schreiben.

Dasher verwendet einen fortschrittlicheren Vorhersagealgorithmus als das T9(tm)-System, das oft in Handys verwendet wird, was es abhängig vom umgebenen Zusammenhang macht.

GOK

GOK [GNOME Onscreen Keyboard (GNOME Bildschirmtastatur)] ist eine dynamische Bildschirmtastatur für UNIX und UNIX-artige Betriebssysteme. Es enthält Direkte Auswahl, Halteauswahl, Automatische Abtastung und Invertierte Abtastungsmethoden und enthält Wortvervollständigung.

GOK enthält eine alphanumerische Tastatur und eine Tastatur, um Anwendungen zu starten. Tastaturen werden in XML spezifiziert, was es erlaubt, dass existierende Tastaturen verändert und neue Tastaturen erstellt werden können. Die Zugriffsmethoden werden auch in XML spezifiziert, was die Möglichkeit bietet, existierende Zugriffsmethoden zu verändern und neue zu erstellen.