Firmenlink

ESET

 

Mozilla stellt öffentliche Datenbank mit 18 Sprachen bereit

Das aktuelle Release umfasst über 1300 Stunden aufgezeichneter Sprachdaten von mehr als 42'000 Mitwirkenden.

von Stefan Bordel 01.03.2019

Seit Juli 2017 sammelt Mozilla Sprach-Samples von freiwilligen Teilnehmern für sein Open-Source-Projekt «Common Voice» zum Aufbau einer frei verfügbaren Sprachdatenbank. Jetzt haben die Entwickler «Common Voice» um weitere Datensätze ausgebaut. Damit umfasst das Projekt nunmehr 1361 Stunden aufgezeichneter Samples aus 18 verschiedenen Sprachen, die von mehr als 42'000 Mitwirkenden beigetragen wurden. Laut eigenen Angaben ist Common Voice damit der grösste frei verfügbare Datensatz menschlicher Stimmen.

Allein die deutschen Samples umfassen 146 Stunden an Material, das von 2249 Teilnehmern beigetragen wurde. Hier können Sie sich beteiligen. Sämtliche Sprach-Samples stehen auf der Projektwebseite zum kostenlosen Download bereit.

Auf der Common-Voice-Webseite können Freiwillige zum Projekt beitragen Auf der Common-Voice-Webseite können Freiwillige zum Projekt beitragen Zoom Das Ziel von Common Voice liegt bei der Demokratisierung von sprachbasierten Technologien. Bislang wird diese Technik vorrangig von wenigen Tech-Grosskonzernen wie Amazon, Apple, Google und Co. genutzt. Das erschwert unabhängigen Entwicklern jedoch das Arbeiten mit der Technologie, da schlichtweg die Datenbasis nicht erreichbar ist. Hier setzt Common Voice an, um innovative Lösungen wie Echtzeitübersetzer oder alternative Sprachassistenten fernab der Mainstream-Hersteller zu ermöglichen. Für eine bessere Zugänglichkeit sprachbasierter Technologien betreibt Mozilla ausserdem die freie Spracherkennungs-Engine DeepSpeech.

Bessere Webseite soll mehr Daten generieren

Um neue Freiwillige für eine Beteiligung bei Common Voice zu begeistern, hat Mozilla die Internetseite des Projekts sukzessive weiterentwickelt. Dort stellt der Firefox-Entwickler auch die Tools zur Aufzeichnung der Sprach-Samples bereit. Teilnehmer am Programm können in der aktuellen Version etwa detailliert nachvollziehen, wie sich die Aufnahme und die Validierung jeder einzelnen Sprache entwickeln. Ausserdem ist es nun möglich, ein Konto für das Projekt anzulegen, um Fortschritte und Metriken in mehreren Sprachen zu verfolgen. Im Account lassen sich auch demografische Profilinformationen hinterlegen, wodurch der freie Datensatz um wertvolle Meta-Informationen ergänzt wird.

Trotz der Vielzahl an bereits gewonnenen Daten und Erkenntnissen befinden sich sowohl Common Voice als auch DeepSpeech noch in der Entwicklungsphase. Dennoch geht Mozilla davon aus, dass die Programme in naher Zukunft in konkrete Lösungen einfliessen werden. Bereits jetzt wird etwa die DeepSpeech-Engine von den Open-Source-Sprachassistenten Mycroft und Leon genutzt.

Zukünftig soll DeepSpeech aber auch in kleineren Geräten wie Smartphones und In-Car-Systemen eingesetzt werden und so Produktinnovationen innerhalb und ausserhalb von Mozilla vorantreiben.


    Kommentare

    Keine Kommentare

    Sie müssen eingeloggt sein, um Kommentare zu verfassen.