Das KI-Startup ElevenLabs hat am Dienstag, den 3. Dezember, seine neue Kommunikations-KI-Plattform vorgestellt, die es ermöglicht, interaktive und anpassbare Sprachagenten zu erstellen.
Auf der Produktseite schreibt das Unternehmen: „Geben Sie Ihren Agenten auf Web-, Mobil- oder Telefonplattformen in wenigen Minuten eine Stimme…“ Beispiele für Anwendungsfälle sind unter anderem Support-Agenten, Trainer und Concierge-Dienste.
ElevenLabs neue KI nutzt ein Echtzeitmodell, um vorherzusagen, wann ein Sprecher fertig ist, und unterstützt so die Handhabung von Gesprächsübergängen und Unterbrechungen. Dies könnte die Plattform besonders im Unternehmensumfeld interessant machen.
Die Agenten können in 31 verschiedenen Sprachen erstellt werden, mit dem Ziel, Kunden in ihrer Muttersprache anzusprechen.
Laut der Produktseite zählt „Kundensupport“ zu den wichtigsten Anwendungsbereichen.
Laut ElevenLabs kann das Tool „eine Vielzahl von Kundenanfragen rund um die Uhr bearbeiten, Wartezeiten reduzieren und die Kundenzufriedenheit verbessern. Die Agenten können Probleme beheben, Rückgaben abwickeln und sogar Produkte zusätzlich verkaufen – und das alles in einer konsistenten Markenstimme.“
Das Unternehmen hebt hervor, dass die Kommunikations-KI-Plattform für zahlreiche Einsatzmöglichkeiten geeignet ist, darunter Outbound-Sales-Dialer, Terminplaner, interaktive Spielcharaktere, Tutoren und mehr.
Die Plattform bietet Funktionen, die die Erstellung interaktiver Agenten erleichtern, darunter: “Native Twilio-Integration für die Anrufabwicklung. Server- und clientseitige Tools für mehr Flexibilität. Dynamische Prompts, um personalisierte Gespräche zu gestalten.”
„Gesprächsführung und Unterbrechungshandhabung sind die größte Herausforderung“
Die Plattform kann mit einem beliebigen großen Sprachmodell (LLM) verbunden werden, darunter Claude, GPT, Gemini oder ein eigenes LLM mit Serverintegration.
Der leitende Entwickler des Projekts, Jozef Marko, erklärte auf X, warum die Plattform entwickelt wurde:
„Wir haben Kommunikations-KI entwickelt, weil unsere Kunden unsere Text-to-Speech-API nutzen wollten, um interaktive Agenten zu erstellen. Sie hatten jedoch Schwierigkeiten, Speech-to-Text, ein LLM und Text-to-Speech zu verbinden – insbesondere, um die Handhabung von Unterbrechungen und Gesprächsübergängen natürlich wirken zu lassen.“
We created Conversational AI because our customers wanted to use our Text to Speech API to create interactive agents but found it was challenging to connect Speech to Text, an LLM, and Text to Speech, and even harder to get the interruption handling and turn taking to feel…
— Jozef Marko (@Marko_Jozef) December 3, 2024
In seinem Tweet ging Marko auf die Herausforderungen ein:
„Die größte Schwierigkeit war, ein Echtzeitmodell zu entwickeln, das zu jedem Zeitpunkt die Wahrscheinlichkeit berechnet, dass jemand aufgehört hat zu sprechen.
Wenn unser Agent beginnt zu sprechen und der Anrufer ihn unterbricht, muss dies elegant gelöst werden.“
Bildnachweis: ElevenLabs blog