Die ganze Welt spricht von Künstlicher Intelligenz. Dabei ist sie keine Neuerscheinung. Das Visper Unternehmen recapp IT nutzt sie seit Jahren für seine Spracherkennungssoftware. Bei einem Treffen erklärt CEO David Imseng, welche positiven Nebeneffekte der KI-Hype mit sich bringt, was es braucht, damit Spracherkennung überhaupt funktioniert, und wie sich sein Unternehmen vom Start-up zum KMU weiterentwickelt hat. Ein Blick hinter die Kulissen.
Recapp IT wird im Oktober zehn Jahre alt. Auch wenn sich das Unternehmen inzwischen zum KMU weiterentwickelt hat, konnte es sich einen gewissen Gründergroove bis heute bewahren. Das zeigt ein Besuch in den Firmenräumlichkeiten, die sich in einem Dachgeschoss in nächster Nähe zum Bahnhof Visp befinden und sehr zweckmässig eingerichtet sind. Gut ein Dutzend Rechner befinden sich direkt an einer Wand des Sitzungszimmers, das auch gleich das Büro des Chefs beherbergt. «Eine kleine Feier machen wir bestimmt. Noch haben wir aber nichts Konkretes geplant», antwortet CEO David Imseng auf die Frage, ob zum Jubiläum eine Party steigen wird. Er schaut mit Stolz auf das bisher Erreichte zurück. «Wir sind organisch gewachsen und schreiben schwarze Zahlen», sagt er. Aktuell beschäftigt recapp IT fünfzehn Mitarbeitende, die sich elf Vollzeitstellen teilen. Drei von ihnen befinden sich noch in Ausbildung und machen eine Lehre in den Bereichen IT oder Mediamatik.
Die Fütterung der Algorithmen
Am Anfang des Unternehmens stand die Vision einer App, die Gesagtes möglichst effizient und sinnvoll rekapitulieren kann. Deshalb auch der Firmenname recapp, der sich an die englische Bezeichnung für «recording app to recap» anlehnt. Heute bietet das Unternehmen Spracherkennungssysteme an, die Gespräche in allen Schweizer Sprachen und Schweizerdeutschen Dialekten erkennt und in Text umwandelt. Kein einfaches Unterfangen, wenn man bedenkt, dass allein im Oberwallis zig Dialektausprägungen gesprochen werden. Imseng erklärt die Funktionsweise der Software: «Spracherkennung transformiert Gesprochenes in Geschriebenes, also Audioaufnahmen in Text. Das geschieht mit Hilfe von künstlicher Intelligenz.» Am Ende handle es sich um nichts anderes als Algorithmen, die trainiert werden, damit sie gewisse Muster erkennen.
Die grösste Herausforderung bei den Dialekten besteht laut Imseng darin, dass keine standardisierte Schreibweise besteht und die Wörter in den verschiedenen Dialekten sehr variabel ausgesprochen werden. «In der Schweiz kommt erschwerend hinzu, dass vergleichsweise wenig Menschen die Sprache sprechen und es schwieriger ist, Datenmaterial zu finden. Komplexe KI-Algorithmen benötigen jedoch viel Datenmaterial zum Trainieren des Systems», so Imseng. Deshalb arbeitet das Unternehmen bereits länger mit dem Schweizer Fernsehen zusammen. Dank Aufnahmen des Senders sind viele Schweizer Dialekte abgedeckt. Überdies kann recapp zum «Füttern» seiner Spracherkennung auch auf Kundenmaterial zurückgreifen. Mittentscheidend für eine erfolgreiche Arbeit der Software ist zudem der Inhalt der Aufnahmen selbst, also wie jemand spricht und über was.
KI sorgt hin und wieder für Lacher
Was motiviert David Imseng überhaupt, sich tagtäglich mit Sprache auseinanderzusetzen? Es sei nicht die Freude am Reden, sagt er lachend. «Mich fasziniert eher der technische Aspekt, weniger die Sprache oder die Laute an sich. Wie schafft es eine Maschine, aus Schallwellen Wörter zu erkennen? Das ist eine sehr spannende Frage.» Er erinnert sich an einen Kurs in Spracherkennung, den er vor rund 20 Jahren an der ETH in Lausanne besucht hat. «Der visionäre Professor hat damals schon aufgezeigt, welchen Mehrwert es bieten würde, wenn an einem Ende des Telefons eine Person Deutsch spricht und der Computer das Ganze für die Person am anderen Ende der Leitung ins Chinesische übersetzt.» Solche Systeme gibt es laut Imseng zwar heutzutage bereits auf dem Markt. Allerdings sei die KI noch immer weit davon entfernt, tatsächlich zu verstehen, was gesagt wird.
«Der Computer gibt lediglich Muster wieder, die er während des Trainings gelernt hat. Das funktioniert manchmal überraschend gut und manchmal lächerlich schlecht.» Diese Erfahrung könne man beim eigenen System auch machen. Auch wenn es beindruckend sei, was KI alles wiedergeben könne, komme es hin und wieder vor, dass in Sitzungsprotokollen ein völlig unpassendes Wort auftauche, was dann für Lacher sorge. «Das beruhigt mich», nimmt Imseng Bezug auf die Diskussionen rund um die Gefahren von Künstlicher Intelligenz. «KI versteht nicht. Sie ist weder intelligent noch kreativ. Dahinter steckt nichts als Mathematik.» Er muss es wissen. Sein Unternehmen hat schliesslich tagtäglich mit Algorithmen zu tun. «Wir beschäftigen uns jetzt seit zehn Jahren mit der Materie und machen seither eigentlich immer in etwa dasselbe.» Nur der Begriff habe sich über die Jahre geändert. «Zu Beginn redete man von Machine Learning, dann von Deep Learning und Big Data und jetzt von KI.»
IT-Fachleute sind Mangelware
Recapp bietet verschiedene Instrumente im Bereich Spracherkennung an. Mit «mediaparl», einer Software zur Transkription von Parlamentssitzungen, hat das Unternehmen schweizweit Fuss gefasst. «Mehr als zehn Kantone und zwanzig Städte nutzen mediaparl. Die grossen Kantone Bern, Zürich und Basel zählen ebenfalls dazu. Wir gehen davon aus, dass weitere hinzukommen werden.» Ein anderes Angebot ist «töggl», mit dem via Account Sprachaufnahmen aller Art in Text umgewandelt werden können. Im Jahr 2023 lag der Umsatz von töggl 10 Mal so hoch wie im Einführungsjahr 2021. «Am Anfang war töggl ein Nebenprodukt. Inzwischen wird es aber immer wichtiger für uns», so Imseng. Brandneu ist zudem ein drittes Angebot. Seit Anfang Jahr steht mit «voscriba» eine lokal installierbare Spracherkennung für hochsensible juristische Einvernahmen zur Verfügung – aufgrund der kürzlich angepassten Strafprozessordnung können entsprechende Gespräche neu aufgezeichnet werden. «Das ist im Moment ein interessanter Markt für uns.»
Angesprochen auf den Standort Wallis erklärt der recapp-CEO, dass dieser aus seiner Sicht weder Vor- noch Nachteile bietet. Für sein Unternehmen sei es allerdings eine Herausforderung gewesen, auf dem Weg zum KMU genügend qualifizierte IT-Fachleute zu finden. «Es freut mich sehr, dass wir das geschafft haben. Drei Mitarbeitende sind sogar dank unserer Firma aus der Deutschschweiz ins Wallis gezogen.» Als Gewinn für den Kanton bezeichnet Imseng die Unterstützung von Start-ups, etwa durch die Stiftung The Ark oder das CCF. «Ohne diese Instrumente würde es kaum Start-ups im Wallis geben», betont er. Auch recapp hat davon profitiert, beispielsweise durch ein Entwicklungsprojekt während der Corona-Pandemie, in welcher der Umsatz stagnierte. «Die Unterstützung war zu diesem Zeitpunkt sehr hilfreich, um uns in einem schwierigen Umfeld weiterzuentwickeln.»
Hype sorgt für weiteres Wachstum
Für die kommenden Jahre ist Imseng zuversichtlich. «Dank dem aktuellen Hype um künstliche Intelligenz erwarten wir ein weiteres Wachstum. Bis vor ein paar Jahren musste man noch stets erklären, dass Spracherkennung funktioniert. Der KI-Trend hat dies geändert. Heute glauben die Leute daran, dass es funktioniert», sagt er. Grundsätzlich sei es sein Ziel, sich mit recapp in den nächsten Jahren weiter als KMU im Wallis zu etablieren. «Es wäre je nach Marktentwicklung aber auch denkbar, Partnerschaften mit anderen Firmen einzugehen oder recapp in grössere Unternehmensstrukturen zu integrieren.» Bei möglichen Partnerschaften denkt Imseng etwa an eine Zusammenarbeit mit einem Unternehmen, das im Bereich Spracherkennung Hardware vertreibt und in diese künftig recapp-Software integrieren will. «Warum nicht ein Mikrophon entwickeln, das gleichzeitig transkribieren kann?»
Mehr über recapp IT: Hier
Quelle: www.wlog.ch