Optical Braille Reader

Im Rahmen des Fokusprojektes Optical Braille Reader - OBR wurde ein kamerabasiertes System zur Umwandlung von Braille Zeichen (taktiler Blindenschrift) in Text (Schwarzschrift) entwickelt, mit Hilfe dessen Einzelblätter, Manuskripte oder ganze Bücher von deutscher Braille Schrift in ASCII-Zeichen übersetzt werden können. Aus Ausgangspunkt dient lediglich ein Foto der Brailleschrift, auf dem der Schattenwurf der geprägten Braillepunkte durch den Computer erkannt wird. Dadurch können die Inhalte dieser Bücher, Manuskripte und Blätter mit weniger Aufwand vervielfäligt werden, indem die Ergebnisse erneut auf Braille Druckern ausgegeben werden. 

Dieses WBT Fokusprojekt wurde im Auftrag des Österreichischen Bundes-Blindeninstitutes in Zusammenarbeit mit Erich Schmidt (Vizepräsident des Österreichischen Behindertenrates) umgesetzt. Zu Beginn wurden vorhandene Technologien durch die TeilnehmerInnen des WBT-Hackathon evaluiert (April 2022). Hier wurde die Open Source Software "Angelina Reader" als vielversprechende Möglichkeit identifiziert, um die gewünschten Funktionalitäten mit möglichst geringem Aufwand herstellen zu können. Angelina Reader basiert auf maschinellem Lernen ("künstlicher Intelligenz") von Braille Zeichen und greift dabei auf ein Modell von Trainingsdaten zurück, das Kamerabilder einer großen Anzahl von Braille-Texten mit den korrekt erkannten Zeichen in Beziehung setzt. Die Umwandlung neuer Fotos von Braille-Seiten in Text ist als Online- oder Offline-Service nutzbar, wobei die Offline-Version auf einem lokalen Computersystem als Python Script läuft. (Für eine effiziente Verarbeitung der Bilddaten wird eine Grafikkarte mit CUDA-Unterstützung benötigt - z.B. eine NVIDIA GeForce GTX1050 oder neuer). 

In den folgenden Schritten des Fokusprojektes wurde die Software des AngelinaReader Projektes schrittweise erweitert und für die Anwendungszwecke des BBI angepasst. So wurde unter anderem ein sprachgeführtes Menu zur Auswahl der Funktionen hinzugefügt, und die Features des Programmes wurden angepasst, sodass auch Doppelseiten verarbeitet werden können. Weiters wurde mit der Positionierung der Lichtquellen, der Art der Kamera (WebCam vs. Digitale Fotokamera vs. Smartphone-Kamera) und der Positionierung bzw. Befestigung der Kamera experimentiert. Zum Abschluss des Fokusprojektes (Sept. 2023) steht nun ein funktionstüchtiges System zur Verfügung, das beim BBI installiert werden soll - die weiteren Schritte zur Installation und Evaluierung werden nun zusammen mit Studierenden der FH Technikum Wien im Rahmen des MA23-Projektes Inclusion International durchgeführt.

Sprachgeführtes Menü

Das Github Repository des Angelina Reader Projektes wurde aus Ausgangspunkt für die Implementierung verwendet (es wurde ein sog. "Fork" durchgeführt). Danach wurden verschiedene Verbesserungen und zusätzliche Feautures in das Python-Script eingebaut. Insbesondere wurde damit ein sprachgeführtes Interaktionskonzept ermöglicht, das die Funktionen des Programms über Tastaturkürzel (Hotkeys) zugänglich macht. Die jeweils verfügbaren Funktionen werden durch eine Sprachausgabe angesagt, sodass auch blinde und sehbehinderte Menschen das Programm nutzen können. Folgende Funktionen stehen zur Verfügung:

Hotkeys im Hauptmenü:

h: Sprechen des Hilfetextes (inkl. Hotkey-Informationen)
k: Aktivieren der Live-Kamera / Wechsel zwischen gespeicherten Bildern und Live-Kamera
<SPACE>: Starten der Bildverarbeitung für die aktuelle Seite
<ENTER>: Umschalten in den Lese-/Bearbeitungsmodus (Lesen und Bearbeiten des übersetzten Textes für die aktuelle Seite)
<PageUp>: Auswahl der vorherigen Seite
<PageDown>: Auswahl der nächsten Seite
+: Erhöhen der Geschwindigkeit der Sprachausgabe
-: Verringern der Geschwindigkeit der Sprachausgabe
l: Löschen aller gespeicherten Bild- und Textdateien
Escape: Beenden des Programms (Datei results.txt wird beim Beenden des Programms erstellt)


Hotkeys im Lese-/Bearbeitungsmodus:

<CursorUp>: vorherige Zeile der aktuellen Seite auslesen/aussprechen
<CursorDown>: nächste Zeile der aktuellen Seite auslesen/aussprechen
<CursorRight>: nächstes Zeichen der aktuellen Zeile auslesen/aussprechen
<CursorLeft>: vorheriges Zeichen der aktuellen Zeile auslesen/aussprechen
<Delete>: aktuelles Zeichen ersetzen (neues Zeichen wird von der Tastatur übernommen)
<Insert>: ein Zeichen oder eine Zeile einfügen
<Backspace>: ein Zeichen oder eine Zeile entfernen
z: Auslesen der Zeilennummer ein-/ausschalten
p: laufende Sprachausgabe anhalten/fortsetzen
Escape: Beenden des Lesemodus (Änderungen der aktuellen Seitentextdatei können gespeichert oder verworfen werden)

 

Diese Implementierung ist nun im GitHub Repository AsTeRICS/AngelinaReader verfügbar.

Kommentare

Keine Kommentare