Toegankelijk Debian - Software
Spraaksynthese en daarmee verband houdende API's
Een uitgebreide lijst is beschikbaar op de taakpagina voor spraaksynthese
EFlite
Een spraakserver voor Emacspeak en yasr (of andere schermlezers) waarmee deze kunnen communiceren met Festival Lite, een gratis tekst-naar-spraak-mechanisme, ontwikkeld in het CMU Speech Center als een afgeleide van Festival.
Vanwege beperkingen die het overkrijgt van zijn backend, biedt EFlite momenteel alleen ondersteuning voor de Engelse taal.
eSpeak
eSpeak/eSpeak-NG is een op software gebaseerde spraaksynthesizer voor Engels en enkele andere talen.
eSpeak produceert Engelse spraak van goede kwaliteit. Het gebruikt een andere
synthesemethode dan andere openbron tekst-naar-spraak-mechanismes (TTS) (geen
spraaksynthese door concatenatie, waardoor het ook een zeer kleine voetafdruk
heeft), en klinkt heel anders. Het is misschien niet zo natuurlijk of
vloeiend
, maar sommigen vinden de articulatie helderder en gemakkelijker
om er langere tijd naar te luisteren.
Het kan worden uitgevoerd als een programma aan de opdrachtregel om tekst uit
een bestand of uit stdin voor te lezen. Het werkt ook goed als een
Spreker
met het KDE tekst-naar-spraak systeem (KTTS), bijvoorbeeld als
een alternatief voor Festival. Als zodanig kan het
tekst voorlezen die is geselecteerd in het klembord, of rechtstreeks vanuit de
Konqueror-browser of de Kate-editor.
- Bevat verschillende stemmen waarvan de kenmerken kunnen worden aangepast.
- Kan spraakuitvoer als een WAV-bestand produceren.
- Kan tekst omzetten naar foneemcodes, zodat het kan worden omgebouwd tot frontend voor een ander spraaksynthesemechanisme.
- Potentieel voor andere talen. Rudimentaire (en waarschijnlijk humoristisch bedoelde) pogingen tot Duits en Esperanto zijn inbegrepen.
- Compacte omvang. Het programma en zijn data zijn samen ongeveer 350 kbytes groot.
- Geschreven in C++.
eSpeak kan ook gebruikt worden met Speech Dispatcher.
Festival Lite
Een klein snel runtime spraaksynthesemachanisme. Het is de recentste toevoeging aan de suite van vrije op software gebaseerde synthesegereedschappen, waaronder het spraaksynthesesysteem Festival van de Universiteit van Edinburgh en het FestVox-project van de Carnegie Mellon-universiteit, dat gereedschappen, scripts en documentatie voor het bouwen van synthetische stemmen bevat. Nochtans heeft flite zelf geen van beide systemen nodig om te functioneren.
Het ondersteunt momenteel enkel de Engelse taal.
Festival
Een algemeen meertalig spraaksynthesesysteem, ontwikkeld aan het CSTR [Centrum voor Sraak-Technologie-Research] van de Universiteit van Edinburgh.
Festival biedt een volledig tekst-naar-spraaksysteem met diverse API's, alsmede een omgeving voor ontwikkeling en onderzoek van spraaksynthesetechnieken. Het is geschreven in C++ met een op Scheme gebaseerde commando-interpreter voor algemeen beheer.
Naast voor onderzoek naar spraaksynthese is festival ook bruikbaar als op zichzelf staand programma voor spraaksynthese. Het is in staat om duidelijk verstaanbare spraak uit tekst te produceren.
Speech Dispatcher
Biedt een apparaatonafhankelijke laag voor spraaksynthese. Het ondersteunt verschillende software- en hardware-spraaksynthesizers als backend en biedt een generieke laag voor het synthetiseren van spraak en het afspelen van PCM-gegevens via die verschillende backends naar toepassingen.
Verschillende concepten van hogere orde, zoals buffering versus onderbrekingen in de spraak en toepassingsspecifieke gebruikersconfiguraties worden apparaatonafhankelijk geïmplementeerd, waardoor de programmeur van de toepassing niet opnieuw het wiel hoeft uit te vinden.
Geïnternationaliseerde spraaksynthese
Alle momenteel beschikbare vrije oplossingen voor op software gebaseerde spraaksynthese lijken één gemeenschappelijke tekortkoming te hebben: ze zijn meestal beperkt tot het Engels en bieden slechts zeer marginale ondersteuning voor andere talen, of in de meeste gevallen helemaal geen. Van alle vrije op software gebaseerde spraaksynthesizers voor Linux ondersteunt alleen CMU Festival meer dan één natuurlijke taal. CMU Festival kan Engels, Spaans en Welsh synthetiseren. Duits wordt niet ondersteund. Frans wordt niet ondersteund. Russisch wordt niet ondersteund. Als internationalisering en lokalisering de trends zijn in software en webdiensten, is het dan redelijk om van blinden die geïnteresseerd zijn in Linux te eisen dat zij Engels leren, alleen maar om de output van hun computer te begrijpen, en al hun correspondentie in een vreemde taal te voeren?
Helaas is spraaksynthese niet echt het favoriete persoonlijke project van ontwikkelaar Jan Modaal. Het maken van een begrijpelijke op software gebaseerde spraaksynthesizer brengt tijdrovende taken met zich mee. Concatenatieve spraaksynthese vereist de zorgvuldige aanleg van een foneemdatabase die alle mogelijke combinaties van klanken voor de doeltaal bevat. Regels die de omzetting van de tekstrepresentatie in afzonderlijke fonemen bepalen, moeten ook worden ontwikkeld en verfijnd, waarbij meestal de opdeling van de stroom tekens in logische groepen zoals zinnen, zinsdelen en woorden nodig is. Een dergelijke lexicale analyse vereist een taalspecifiek lexicon dat zelden onder een vrije licentie wordt vrijgegeven.
Een van de meest veelbelovende spraaksynthesesystemen is Mbrola, met foneemdatabases voor meer dan enkele tientallen verschillende talen. De synthese zelf is vrije software. Helaas zijn de foneemdatabases alleen voor niet-militair en niet-commercieel gebruik. Het ontbreekt ons aan vrije foneem-databases voor gebruik in het Debian besturingssysteem.
Zonder een algemene meertalige op software gebaseerde spraaksynthesizer kan Linux niet worden aanvaard door aanbieders van ondersteunende technologie en mensen met een visuele handicap. Wat kunnen we doen om dit te verbeteren?
Er zijn in principe twee benaderingen mogelijk:
- Een groep mensen optrommelen die hierbij willen helpen, en proberen de situatie actief te verbeteren. Dit kan een beetje ingewikkeld worden, aangezien er veel specifieke kennis over spraaksynthese nodig is, wat niet zo gemakkelijk is als het via een autodidactische aanpak gebeurt. Dit zou u evenwel niet moeten ontmoedigen. Als u denkt dat u een groep mensen kunt motiveren die groot genoeg is om enkele verbeteringen te bereiken, zou het de moeite waard zijn om dat te doen.
- Financiering vinden en een instituut inhuren dat al over de knowhow beschikt om de nodige foneemdatabases, lexica en transformatieregels te creëren. Deze aanpak heeft het voordeel dat de kans groter is dat hij kwaliteitsvolle resultaten oplevert, en hij zou ook veel eerder dan de eerste aanpak tot verbeteringen moeten leiden. Uiteraard moet de licentie waaronder al het resulterende werk wordt vrijgegeven vooraf worden overeengekomen, en moet deze voldoen aan de DFSG-vereisten. De ideale oplossing zou natuurlijk zijn om een universiteit te overtuigen om op eigen kosten zo'n project te ondernemen en de resultaten ervan als bijdrage te leveren aan de Vrije Softwaregemeenschap.
Ook niet onbelangrijk is dat de meeste commercieel succesvolle spraaksyntheseproducten tegenwoordig geen gebruik meer lijken te maken van concatenatieve spraaksynthese, voornamelijk omdat de geluidsdatabases veel schijfruimte in beslag nemen. Dit is niet echt wenselijk voor kleine ingebedde producten, zoals bijvoorbeeld spraak op een mobiele telefoon. Recent uitgebrachte vrije software zoals eSpeak lijken deze benadering te willen proberen, welke zeer de moeite waard kan zijn om te bekijken.
Schermweergave-uitbreidingen voor Emacs
Emacspeak
Een systeem voor spraakuitvoer waarmee iemand die niet kan zien, rechtstreeks op een UNIX-systeem kan werken. Eens u Emacs met Emacspeak daarin geladen opstart, krijgt u gesproken feedback over alles wat u doet. Hoever u daarmee komt zal afhangen van hoe goed u Emacs kunt gebruiken. Er is niets dat u niet binnen Emacs kunt doen :-). Dit pakket bevat spraakservers geschreven in tcl ter ondersteuning van de spraaksynthesizers DECtalk Express en DECtalk MultiVoice. Kijk voor andere synthesizers uit naar aparte spraakserverpakketten zoals Emacspeak-ss of eflite.
speechd-el
Emacs-client voor spraaksynthesizers, brailleleesregels en andere alternatieve uitvoerinterfaces. Het biedt een volledige spraak- en braille-uitvoeromgeving voor Emacs. Het is vooral bedoeld voor gebruikers met een visuele beperking die niet-visuele communicatie met Emacs nodig hebben, maar het kan gebruikt worden door iedereen die behoefte heeft aan geavanceerde spraak- of een ander soort alternatieve uitvoer van Emacs.
Consoleschermlezers (tekstmodus)
Een uitgebreide lijst is beschikbaar op de taakpagina voor consoleschermlezers
BRLTTY
Een achtergronddienst die een blinde persoon toegang geeft tot de Linux-console met behulp van een zachte brailleleesregel. Hij stuurt de braille-terminal aan en biedt volledige functionaliteit voor schermweergave.
De brailleapparaten die door BRLTTY worden ondersteund, staan vermeld in de apparaatdocumentatie van BRLTTY-
BRLTTY biedt ook een client/server-infrastructuur voor toepassingen die gebruik willen maken van een brailleleesregel. Het achtergronddienstproces luistert naar inkomende TCP/IP-verbindingen op een bepaalde poort. Een gedeelde objectbibliotheek voor clients is beschikbaar in het pakket libbrlapi. Een statische bibliotheek, header-bestanden en documentatie zijn beschikbaar in het pakket libbrlapi-dev. Deze functionaliteit wordt bijvoorbeeld gebruikt door Orca om ondersteuning te bieden voor schermtypes die nog niet rechtstreeks ondersteund worden door Gnopernicus.
Yasr
Een universele consoleschermlezer voor GNU/Linux en andere UNIX-achtige
besturingssystemen. De naam yasr
is een afkorting die kan staan voor
zowel Yet Another Screen Reader
(nog een andere schermlezer) als voor
Your All-purpose Screen Reader
(uw universele schermlezer).
Momenteel tracht yasr de hardware-synthesizers Speak-out, DEC-talk, BNS, Apollo, en DoubleTalk te ondersteunen. Het kan ook communiceren met Emacspeak spraakservers en kan dus gebruikt worden met niet rechtstreeks ondersteunde synthesizers, zoals Festival Lite (via eflite) of FreeTTS.
Yasr werkt door een pseudo-terminal te openen en een shell uit te voeren,
waarbij alle invoer en uitvoer wordt onderschept. Het kijkt naar de
escape-sequenties die worden verzonden en houdt een virtueel venster
bij met wat het denkt dat op het scherm staat. Het maakt dus geen gebruik van
kenmerken die specifiek zijn voor Linux en kan zonder al te veel moeite
worden overgezet naar andere UNIX-achtige besturingssystemen.
Grafische gebruikersinterfaces
Toegankelijkheid op het gebied van grafische gebruikersinterfaces op UNIX-platformen heeft pas onlangs een belangrijke impuls gekregen door de verschillende ontwikkelingsinspanningen rond de GNOME grafische werkomgeving, met name het GNOME toegankelijkheidsproject.
GNOME toegankelijkheidssoftware
Een uitgebreide lijst is beschikbaar op de taakpagina over Toegankelijk Gnome
Assistive Technology Service Provider Interface
Dit pakket bevat de kernonderdelen van Toegankelijk Gnome. Het stelt aanbieders van ondersteunende technologie, zoals schermlezers, in staat om alle toepassingen die in de grafische omgeving actief zijn te doorzoeken op toegankelijkheidsgerelateerde informatie, en biedt overbruggingsmechanismen om andere gereedschappen dan GTK te ondersteunen.
Koppelingen met de Python-taal worden geleverd in het pakket python-at-spi.
ATK accessibility toolkit
ATK is gereedschap dat toegankelijkheidsinterfaces biedt voor toepassingen of andere gereedschappen. Door deze interfaces te implementeren, kunnen die andere gereedschappen of toepassingen worden gebruikt met hulpmiddelen zoals schermlezers, vergrootglazen en andere alternatieve invoerapparatuur.
Het runtime-gedeelte van ATK, dat nodig is om toepassingen te gebruiken die ermee gebouwd werden, is te vinden in het pakket libatk1.0-0. Ontwikkelingsbestanden voor ATK, nodig voor de compilatie van programma's of gereedschappen die het gebruiken, worden geleverd door het pakket libatk1.0-dev. Koppelingen met de Ruby-taal worden geleverd in het pakket ruby-atk.
gnome-accessibility-themes
Het pakket gnome-accessibility-themes bevat enkele zeer toegankelijke thema's voor de GNOME-desktopomgeving, ontworpen voor slechtzienden.
Er zijn in totaal 7 thema's, met combinaties van hoog, laag of omgekeerd contrast en vergrote tekst en pictogrammen.
gnome-orca
Orca is een flexibele en uitbreidbare schermlezer die toegang biedt tot de grafische werkomgeving via door de gebruiker aanpasbare combinaties van spraak, braille en/of vergroting. Orca wordt sinds 2004 ontwikkeld door het Accessibility Program Office van Sun Microsystems, Inc. en is tot stand gekomen met vroege input van en voortdurende inschakeling van eindgebruikers.
Orca kan Speech Dispatcher gebruiken om spraakuitvoer te leveren aan de gebruiker. BRLTTY wordt gebruikt voor ondersteuning van brailleleesregels (en voor naadloze integratie van console- en GUI-brailleleesregels).
KDE toegankelijkheidssoftware
Een uitgebreide lijst is beschikbaar op de taakpagina over toegankelijkheid in KDE
kmag
Een deel van het scherm vergroten, net zoals u een lens zou gebruiken om de kleine lettertjes in een krant te lezen of een foto te vergroten. Deze toepassing is nuttig voor verschillende mensen: van onderzoekers tot kunstenaars, web-ontwerpers en mensen met slechtziendheid.
Niet-standaard invoermethoden
Een uitgebreide lijst is beschikbaar op de taakpagina over invoermethodes
Dasher
Dasher is een informatie-efficiënte tekstinvoerinterface, aangedreven door natuurlijke continue aanwijsbewegingen. Dasher is een concurrentieel tekstinvoersysteem wanneer een toetsenbord van volledige grootte niet kan worden gebruikt - bijvoorbeeld
- op een palmtopcomputer
- op draagbare accessoires
- bij het bedienen van een computer met één hand, met een joystick, touchscreen, trackball of muis
- bij het bedienen van een computer zonder handen (d.w.z. met hoofd-muis of met oogbesturing).
Met de oogbesturingsversie van Dasher kan een ervaren gebruiker even snel tekst schrijven als met normaal handschrift - 25 woorden per minuut; met een muis kunnen ervaren gebruikers 39 woorden per minuut schrijven.
Dasher gebruikt een meer geavanceerd voorspellingsalgoritme dan het T9(tm)-systeem dat vaak in mobiele telefoons wordt gebruikt, waardoor het gevoelig is voor de omringende context.
Caribou
Caribou is een invoerondersteunende technologie bedoeld voor gebruikers van schakelaars en aanwijzers. Het biedt een configureerbaar schermtoetsenbord met scanmodus.