Mit unserer Interview-Reihe möchten wir Ihnen nach und nach die Akteure des Munich Network näher vorstellen und Ihnen Experten-Einblicke in verschiedene Branchen, die jeweiligen Zukunftsthemen sowie in die Kollaboration von Startups und etablierten Technologie-Industrie-Unternehmen geben.

Unsere heutige Interview-Partnerin ist Bettina Stearn, Managing Director bei LumenVox.

Find the English version below


Frau Stearn, wenige sind so lange und so tief mit ‚Voice Recognition‘ befasst wie Sie. Bitte erläutern Sie uns in kurzen Zügen
die Meilensteine der bisherigen Entwicklung in der Spracherkennung.

Die Entwicklungen im Bereich der Stimmerkennung und die Fortschritte bei der automatischen Spracherkennung sind so etwas wie ein technologisches Wunder. Diese Analyseprogramme, die sich auf Rechenleistung und künstliche Intelligenz stützen, identifizieren und authentifizieren eine bestimmte Person anhand des Klangs ihrer Stimme,
indem sie die Sprache außer Acht lassen und sich auf die einzigartigen biologischen Faktoren konzentrieren, die die Vokalisierung hervorbringen. Da die Stimme ein recht bequemes biometrisches Merkmal ist, wird die Sprecherverifizierung zunehmend zur Identitätsfeststellung eingesetzt. Man sagt, dass die Spracherkennung mit den riesigen Mengen an Sprachdaten, die wir sammeln können, in Verbindung mit einer schnelleren Verarbeitung einen Wendepunkt erreicht hat, an dem ihre Fähigkeiten in etwa mit denen des Menschen vergleichbar sind. Sie macht neue, wirklich anspruchsvolle Anwendungen populär, die uns in neue Bereiche des täglichen Lebens und in eine neue Ära der kommerziellen Anwendbarkeit und Rentabilität in einem breiten Spektrum von Bereichen wie kontaktlose Sicherheit, Kundenidentifizierung, Betrugsprävention und Identitätssicherung führen werden. Die Kombination von Sprach- und Stimmerkennung ermöglicht die gleichzeitige Authentifizierung und eine freihändige Schnittstelle. Dieses Leistungsspektrum umfasst neue ASR-Technologien für die Umwandlung von gesprochener Sprache in Text, die virtuelle Assistenten, Untertitel und Freisprecheinrichtungen unterstützen, sowie erstaunliche neue ASR-Engines, die moderne Tools wie Stimmbiometrie, Analyse des Anrufverlaufs und Spracherkenner bieten. All dies trägt dazu bei, das Sprachmodell drastisch zu erweitern, um eine immer vielfältigere und wachsende Basis von Nutzern zu bedienen.

Das Innovationstempo ist verblüffend und basiert auf einer sich weiterentwickelnden Grundlage aus künstlicher Intelligenz und maschinellem Lernen. Immer mehr Unternehmen in diesem Bereich bieten ein neues und deutlich höheres Maß an Genauigkeit und Intelligenz, das erforderlich ist, um die Absichten von Nutzern und Kunden besser zu erfassen, zu erkennen und darauf zu reagieren, und definieren damit, was mit Sprach- und Sprecherkennungssoftware möglich ist.

Welches sind die aktuellsten technologischen Errungenschaften der ‚Voice Recognition‘?

Dramatische Verbesserungen in der Sprachtechnologie haben die Anwendungen für Kunden und Mitarbeiter verändert. Die Spracherkennung hat ein noch nie dagewesenes Maß an Genauigkeit erreicht und wird es auch weiterhin tun. Durch den Einsatz von Deep Neural Networks (DNN) und den Prinzipien des maschinellen Lernens haben wir wesentliche Auswirkungen auf die Fähigkeit von Spracherkennungs-Engines, ein breites Spektrum an Anwendungen sowie eine immer vielfältigere Basis von Sprachen, Dialekten und Benutzern zu bedienen.

Bei LumenVox haben wir uns zwei Jahrzehnte lang darauf konzentriert, unseren Partnern eine hochgradig anpassbare, innovative Spracherkennungs-Engine zu bieten. Mit unserer neuesten ASR-Engine mit Transkription haben wir unsere Konkurrenten überflügelt, indem wir branchenführende Genauigkeit, Flexibilität und die niedrigsten Gesamtbetriebskosten bieten.

Zu unseren Mitgliedern zählen wir etablierte Tech-Unternehmen ebenso wie Startups aus unterschiedlichen Industrie- und Dienstleistungssparten. Welches sind die drei bis fünf spannendsten Anwendungen, die sich aus den aktuellsten technologischen Entwicklungen ableiten lassen?

Ich würde sagen, die drei spannendsten Anwendungen drehen sich um ASR und Transkription, einschließlich Chatbots/Voicebots, die Möglichkeit, Audio-Mining zu nutzen, und Stimmbiometrie im Contact Center.

Während viele den Aufstieg textbasierter Chatbots als moderne Ergänzung des Kundendienstmodells kennen, wenden sich Unternehmen auch sprachgesteuerten Chatbots als weitere Möglichkeit zu, Kunden zu helfen. Diese “Voicebots” verwenden voraufgezeichnete Antworten und Text-to-Speech, um Anfragen zu beantworten, und können auch eine dialogorientierte Benutzeroberfläche oder Benutzerschnittstellen, die auf menschlicher Sprache basieren, sehr flüssig nutzen. Diese Art von Software wird durch künstliche Intelligenz unterstützt und ermöglicht es einem Anrufer, ein interaktives Sprachdialogsystem mit seiner Stimme zu steuern, in der Regel unter Verwendung natürlicher Sprache, so dass der Anrufer keine Menüs anhören und keine entsprechenden Nummern auf seiner Tastatur drücken muss.

Verbraucheranwendungsfälle wie Einzelhandel, Audiomining, Gastgewerbe, Reise- und Tourismusdienste können ihre Anwendungen per Sprache aktivieren, da das Spektrum an Sprachen und Dialekten viel einfacher zu implementieren und zu verwalten ist.

Es gibt eine Vielzahl von Anwendungen für die Stimmbiometrie, bei der die Stimme einer Person als eindeutiges biologisches Merkmal zur Authentifizierung verwendet wird. Die Spracherkennung kann auch für die Stimmauthentifizierung verwendet werden, um Prozesse zu ersetzen, bei denen ein Benutzer persönliche Informationen angeben muss, um sich zu authentifizieren. Die Stimmbiometrie verbessert das allgemeine Kundenerlebnis, da sie die Frustration der Kunden aufgrund umständlicher Anmeldeverfahren sowie verlorener und gestohlener Anmeldedaten beseitigt.

In Zukunft wird sich die Spracherkennung noch stärker in die moderne digitale Benutzererfahrung einfügen. Während das Geschäftstempo immer schneller zu werden scheint, erwarten Kunden und Mitarbeiter immer noch, dass sich Unternehmen die Zeit nehmen, ein wirklich persönliches Erlebnis zu bieten. Die Sprachtechnologie ist eine Möglichkeit, diese Lücke zu schließen, indem sie hilft, die Effizienz zu verbessern und Aufgaben zu beschleunigen, während sie gleichzeitig ein einzigartiges, personalisiertes Nutzungserlebnis bietet, das sich nicht erzwungen oder überstürzt anfühlt.

Wir wenden den Blick auf KI, Quantum Computing, generell auf die digitalen Innovationstrends. Welche ‚Voice Recognition‘-Entwicklungen bzw. -Sprünge und welche neuen Anwendungsfelder können Sie aus dieser Perspektive erkennen?

Künstliche Intelligenz war schon immer Teil unserer Plattform, aber in den letzten Jahren haben tiefe neuronale Netze und maschinelles Lernen den gesamten Technologie-Stack des Unternehmens weiterentwickelt, der die Analyse des Gesprächsverlaufs, unsere ASR-Engine mit Transkription, Text-to-Speech-Funktionen und Sprachbiometrie umfasst. Wir haben uns immer darauf konzentriert, ein Softwareunternehmen zu sein, das seinen Partnern die Nutzung von Werkzeugen und Fähigkeiten ermöglicht, um Lösungen zu schaffen, die einen Markt ermöglichen. Unser Blick ist ständig auf die Zukunft gerichtet.

In diesem Stadium verlangen unsere Kunden ein hohes Maß an Qualität und Komplexität. Zusammen mit unseren Partnern, die immer komplexere sprachgesteuerte Anwendungen entwickeln, sind wir seit über 20 Jahren in der Lage, mit den sich entwickelnden Anforderungen unserer Kunden Schritt zu halten. Letztendlich ist es unser laserscharfer Fokus, der uns flexibel macht. Wir machen nur eine Sache, nämlich Sprache, und das können wir sehr gut.

Derzeit konzentrieren wir uns darauf, alle unsere Programme in eine einzige cloud-fähige API zu überführen. Unabhängig davon, ob Ihr Unternehmen vor Ort, in einer privaten Cloud oder in vielen verschiedenen Clouds arbeitet, streben wir nach maximaler Flexibilität und wollen mit neuen Sprachen und Funktionen tiefer in verschiedene Märkte und Branchen vordringen. Wie bei der rasanten Innovation und Entwicklung in der gesamten Hightech-Branche – einschließlich der Weiterentwicklung von KI und maschinellem Lernen, Quantum Computing und anderen digitalen Innovationstrends – haben wir oft das Gefühl, dass wir erst am Anfang stehen und noch einen weiten Weg vor uns haben, einschließlich Verbesserungen bei der ASR.

Die Realität ist, dass die menschliche Sprache komplex ist und sich ständig verändert. Die gängigen Spracherkennungssysteme verfügen nicht über die Fähigkeiten des maschinellen Lernens, um alle Unterschiede in der natürlichen menschlichen Sprache zu bewältigen – schon gar nicht mit der Genauigkeit, die die Nutzer erwarten. Hier hoffen wir, das Spiel weiter zu verändern.

Vielen Dank für das spannende Gespräch!

______________________________________________________________________________________________________________

English version

With our interview series, we would like to gradually introduce you to the players of the Munich Network and give you expert insights into various industries, the respective future topics as well as the collaboration of startups and established technology industry companies.

Our interview partner today is Bettina Stearn, Managing Director at LumenVox.

Few have been involved with ‘Voice Recognition’ as long and as deeply as you have. Please tell us in brief about the milestones of the development in voice recognition so far.

The developments in voice recognition and advancements in automated speech recognition are something of a technological miracle. These analytics programs, which rely on computing power and artificial intelligence, identify and authenticate a specific person by the sound of their voice, by disregarding language and focusing on unique biological factors that produce vocalization. Since the voice is a rather convenient biometric characteristic, speaker verification is increasingly employed to determine identity. It has been said that with the massive amounts of speech data that we are able to gather, combined with faster processing, speech recognition has hit a tipping point where its capabilities are roughly on par with humans.

It is popularizing truly sophisticated new levels of application that continue to drive us forward into new realms of enhanced daily life, as well as into a new era of commercial practicality and viability in a broad range of capacities, including contactless security, client ID, fraud prevention and ease of identity. Combining speech recognition and voice recognition provides simultaneous authentication and a hands-free interface.

That capability range includes new ASR technologies for converting spoken language to text that fuels virtual assistants, closed captioning and hands-free computing, amazing new ASR engines that provide modern toolsets that include voice biometrics, call progress analysis and speech recognizers. It’s all helping to dramatically expand the language model to serve an increasingly diverse and growing base of users.

The rate of innovation has been startling and is built on an evolving foundation of artificial intelligence and machine learning. More companies in the space are providing new and significantly higher levels of accuracy and intelligence needed to better capture, recognize and react to users’ and customers’ intent, defining what’s possible for speech and voice recognition software.

What are the most recent technological achievements in voice recognition?

Dramatic improvements in voice technologies have transformed customer and employee experiences applications. Speech recognition has reached and continues to reach unprecedented levels of accuracy. Through the use of Deep Neural Networks (DNN) and the principles of machine learning we have made material impacts on the ability for Speech Recognition engines to serve a broad spectrum of applications as well as an increasingly diverse base of languages, dialects and users.

At LumenVox, we’ve focused two decades on providing our partners with a highly customizable, innovative speech engine. With our latest ASR engine with transcription, we have leap-frogged our competitors by providing industry-leading accuracy, flexibility, and the lowest total cost of ownership (TCO).

Our members include established tech companies as well as startups from various industry and service sectors. What are the three to five most exciting applications that can be derived from the latest technological developments?

I would say the three most exciting applications revolve around ASR and transcription, including chatbots/voicebots, the ability to use audio mining, and voice biometrics in the contact center.

While many know of the rise of text-based chatbots as a modern addition to the customer service model, enterprises are also turning to voice-enabled chatbots as another way to help customers. These “voicebots” use pre-recorded answers and text-to-speech to address queries and can also be quite fluid in leveraging conversational UI or user interfaces based on human speech. This breed of software is powered by AI and allows a caller to navigate an interactive voice response (IVR) system with their voice, usually using natural language, negating callers having to listen to menus and pressing corresponding numbers on their keypads.

Consumer use cases such as retail audio mining, hospitality, travel, and tourism services can speech enable their applications since the spectrum of languages and dialects has become much easier to implement and manage – enabling these industries to support a more heterogenous customer base.

There are a host of uses for voice biometrics, which use a person’s voice as a unique identifying biological characteristic in order to authenticate them. Speech recognition can also be used for voice authentication to replace processes where a user has to display personal information to authenticate itself. Voice biometrics improve the overall customer experience since it eliminates customer frustration due to cumbersome login processes as well as lost and stolen credentials.

Looking forward, voice recognition will continue to be become more ingrained within the modern digital user experience. While the speed of business seems to become quicker and quicker, in contrast, customers and employees still expect business to take the time to provide a truly personalized experience. Voice technology is a way to bridge the gap by helping improve efficiencies and accelerate tasks while also providing that unique personalized use experience that doesn’t feel forced or rushed.

We are turning our gaze to AI, quantum computing, digital innovation trends in general. What ‘voice recognition’ developments or leaps and what new fields of application can you identify from this perspective?

Artificial intelligence (AI) has always been part of our platform, however, in the last few years, deep neural networks and machine learning have advanced the company’s entire technology stack, which includes call progress analysis, our ASR engine with transcription, text-to-speech capabilities, and voice biometrics. We have always focused on being a software company that affords the use of tools and capabilities to help our partners create solutions that enable a marketplace. Our eyes are constantly on the future.

At this stage, our customers demand a high level of both quality and complexity. Along with our partners – who continue to create increasingly complex voice-enabled applications – we have been able to keep up with the evolving demands of our customers for over 20 years now. Ultimately, it’s our laser-sharp focus that keeps us nimble. We do one thing, voice, and we do it very well.

At present, we’re focused on getting all of our programs into a single API that is multi-cloud enabled. No matter if you’re company is on-prem, in a private cloud, or many disparate clouds, we’re striving for maximum flexibility, as well as digging deeper into various markets and verticals with new languages and capabilities. As with the rapid innovation and development across high-tech – including further advancement of AI and machine learning, quantum computing, and other digital innovation trends that are exploding – we often feel like we’re just getting started and have far to go, including improvements in ASR.

The reality is: human speech is complex and constantly changing. Status-quo speech recognition engines don’t have the machine learning capabilities to manage all the differentials in natural human speech – certainly not with the accuracy users are coming to expect. This is where we hope to continue to change the game.

Thanks a lot to Bettina Stearn for the exciting interview!