Das französische KI-Labor Kyutai hat in Paris seinen KI-Assistenten Moshi vorgestellt, der natürliche Gespräche mit Nutzern führen kann. Die Technologie soll als Open Source veröffentlicht werden.
Highlights:
- Moshi kann in Echtzeit sprechen und zuhören, mit einer Latenz von nur 200-240 Millisekunden.
- Die Architektur basiert auf einem neuartigen “Audio Language Model”, das direkt mit komprimierten Audiodaten arbeitet.
- Das zugrunde liegende Sprachmodell hat 7 Milliarden Parameter.
- Für das Training wurden verschiedene Datenquellen genutzt, einschließlich YouTube-Videos und synthetischer Dialoge.
- Eine Sprecherin namens Alice half dabei, Moshi eine konsistente Stimme zu geben.
Kyutai sieht großes Potenzial für Moshi, insbesondere im Bereich der Barrierefreiheit. Eine Demo ist bereits verfügbar, und die Open-Source-Veröffentlichung soll folgen.
Diese Entwicklung könnte die Art und Weise, wie wir mit Maschinen kommunizieren, grundlegend verändern.
Entdecke regelmäßig frische Inspirationen für deine kreative Arbeit!
Abonniere jetzt den otticcreative signals Newsletter für News, Ideen und digitale Tools.