Audiocodec Lyra Google legt extrem effizienten Sprachcodec offen

25 März 2014
5.443
3.698
Mit Lyra soll sich Sprache bei nur 3 kbit/s kodieren lassen. Die Technik dazu von Google ist nun Open Source.
Google hat den auf KI-Technik und Machine-Learning aufbauenden Sprachcodec Lyra als Open Source veröffentlicht. Den Lyra-Codec selbst hatte das Unternehmen bereits im Februar dieses Jahres vorgestellt und diesen als "revolutionären neuen Audio-Codec" beschrieben, mit dem sich qualitativ hochwertige Anrufe umsetzen lassen sollen. Tatsächlich ermöglicht Lyra eine Kodierung von Sprache noch mit 3 kbit/s.
Der als Open-Source-Software verfügbare Code zur Nutzung enthält die notwendigen Werkzeuge, um selbst Sprache mit Lyra zu kodieren sowie zu dekodieren. Der Code ist dabei für 64-Bit-ARM-Plattformen optimiert, also etwa Smartphones. Außerdem wird zur Entwicklung Linux genutzt. Das Team von Lyra hofft aber auch, den Codec künftig plattformübergreifend umsetzen zu können.

Der Code ist in C++ geschrieben und nutzt sowohl Googles Build-Tool Bazel als auch die eigene C++-Bibliothek Abseil. Die Kern-API ermöglicht das En- und Decoding ganzer Dateien oder als Pakete. Darüber hinaus bietet Google auch Filter und diverse Transformationsfunktionen zur Signalverarbeitung.

Es gibt auch eine Beispiel-App, die die Nutzung zusammen mit dem Android-NDK demonstriert. Das Team weist außerdem darauf hin, dass ein kleiner Teil des Codes für mathematische Funktionen derzeit noch nicht frei verfügbar ist. Diese Bibliothek soll ebenfalls als Open Source nachgeliefert werden. Der restliche Open-Source-Code findet sich auf Github.

Lyra ist ein KI-Codec​

Lyra basiert auf der Idee klassischer Vocoder. Das heißt, die zu übertragende Sprachaufnahme wird nicht als Wellenform komprimiert wie etwa in Opus. Stattdessen wird die Sprache in kleinere Segmente aufgeteilt und wichtige Parameter werden extrahiert, aus denen wiederum am anderen Ende der Verbindung Sprache erzeugt wird.

Bei der Verarbeitung setzt Lyra auf Spektrogramme, die das natürliche Hörempfinden von Menschen berücksichtigen. Bei der Erzeugung nutzt Lyra ein KI-Modell, das eine leicht abgewandelte Form von Deepminds Wavenet ist und auch in vertretbarer Geschwindigkeit auf Smartphones laufen soll.

Generell eine sehr Positive Entwicklung. Hoffentlich kommen wir bald in den Genuss des Codecs um die Sprachqualität zu steigern.
 
22 März 2014
591
240
KI-Codec? Wird das dann so wie bei den XenonXerox-Business-Kopiererscanner vor ein paar Jahren, die einzelne Zeichen und Zahlen willkürlich vertauschten, weil sie sich ähnelten?

Please note that there is a closed-source kernel used for math operations that is linked via a shared object called libsparse_inference.so. We provide the libsparse_inference.so library to be linked, but are unable to provide source for it. This is the reason that a specific toolchain/compiler is required.
Aja. Dann doch lieber "Codec 2".
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: hiesi92

Aktuelle Themen