Betriebsmittelprüfung mit KI: Das Ende vom Klemmbrett

Du stehst in der Werkstatt. An deinen Händen klebt Schmierfett, vor dir liegt eine 20-Kilo-Anschlagkette, die auf Risse geprüft werden muss. Was machst du? Du legst das schwere Teil hin, wischst dir die Hände halbherzig an der Latzhose ab, greifst zum Klemmbrett, suchst die richtige Zeile und setzt ein Häkchen. Dann legst du das Klemmbrett wieder weg, nimmst das nächste Teil in die Hand und das Spiel beginnt von vorn.

Ganz ehrlich? Das nervt nicht nur, das kostet jeden Tag massig Zeit und ist fehleranfällig. Wer im Handwerk oder in der Industrie Betriebsmittel prüft, kennt diesen Eiertanz.

Und jetzt kommt der Klassiker: Die IT-Abteilung sagt: „Wir haben das jetzt digitalisiert! Hier ist ein Tablet.“ Wahnsinn. Glückwunsch. Jetzt wische ich mit öligen Fingern auf einem 10-Zoll-Display herum. Ein schlechter Prozess wird durch Digitalisierung nicht besser. Erstmal auf Null setzen. Das Grundproblem bleibt nämlich bestehen: Ich habe ein Gerät in der Hand, das meine Aufmerksamkeit vom eigentlichen Prüfobjekt ablenkt.

Mein Tüftler-Gen hat da keine Ruhe gelassen. Ich habe mir überlegt: Das muss doch verdammt noch mal auch ohne Gerät in der Hand gehen. Und genau dafür baue ich gerade in meinem Lizard-System einen Sprachassistenten, der die komplette Betriebsmittelprüfung per Sprache steuert. Einfach reden statt tippen.

Technisches Blueprint-Diagramm für eine freihändige Betriebsmittelprüfung. Zeigt den Ablauf von Sprachbefehlen über Smart-Glasses zur lokalen KI-Verarbeitung (Whisper STT, Mistral LLM, Piper TTS) ohne Internetanbindung sowie Python-Code-Snippets für den QR-Scan. -> hier gibt es das Video dazu (klick)

Digitale Betriebsmittelprüfung: Warum Tablets oft Bullshit sind

Wenn man von Handwerk 4.0 spricht, denken viele an fancy Dashboards. Aber die Realität findet im Dreck statt. Bei schlechtem Licht, mit zittrigen Händen nach acht Stunden Schicht. Wenn ich ein Betriebsmittel prüfe, will ich mich auf Risse, abgelaufene Fristen und defekte Gehäuse konzentrieren – nicht auf Dropdown-Menüs.

Die Idee für meine Lösung war radikal simpel: Statt auf einem Bildschirm rumzutippen, spreche ich mit dem System. Ich sage zum Beispiel: „Identifiziere das Betriebsmittel.“ Der Assistent öffnet selbstständig die Kamera meines Handys, erkennt den QR-Code auf dem Bauteil und sagt mir per Sprache, was das für ein Teil ist, ob es betriebsbereit ist und wer den Kopf dafür hinhalten muss.

Das Ganze ist mittlerweile tief in Lizard integriert, meiner Plattform für die Verwaltung von Betriebsmitteln. Als Identifikator nutze ich DynTag, mein eigenes QR-Code-System, das baustellenfest auf jedem Bauteil klebt. Soweit die Theorie. Aber die Umsetzung? Ein typischer Fall von: Klingt simpel, bis du es wirklich baust.

KI im Handwerk: Der Weg aus der Cloud-Sackgasse

Wenn man heute etwas mit KI baut, ist der erste Reflex meistens: API-Key von OpenAI, Google oder Amazon reinwerfen und fertig. Habe ich anfangs auch gemacht. Geht schnell, liefert krasse Ergebnisse. Aber es ist, als würdest du dir einen Dachstuhl nur mieten – dir gehört nichts, und wenn der US-Konzern die Regeln ändert, stehst du im Regen.

Ich habe diesen Ansatz komplett über den Haufen geworfen. Ich setze jetzt auf selbstgehostete Modelle. Mein eigener Server, meine Regeln. Und zwar vor allem aus einem knallharten Grund: Datenschutz.

Audiodaten aus einer Werkstatt oder von einer Baustelle sind hochsensibel. Da fallen Namen, da laufen Maschinen im Hintergrund, da flucht vielleicht mal der Polier. Wenn ich diese Sprachaufnahmen in eine amerikanische Cloud schieße, fange ich mir ein DSGVO-Todesurteil ein. Auftragsverarbeitungsverträge, Serverstandorte – ein administrativer Albtraum. Laufen die Modelle auf meinem eigenen Server hier in Deutschland, behalte ich die volle Kontrolle. Problem gelöst.

Das Offline-Dilemma: Wenn der Keller kein Netz hat

Jetzt sagst du vielleicht: „Moment mal, Bastian. Wenn dein Modell auf einem Server liegt, brauchst du Internet auf der Baustelle. Was machst du im dritten Untergeschoss ohne Netz?“

Erwischt. Genau das ist der Haken. Ein riesiges Sprachmodell wie Mistral Large läuft schlichtweg nicht lokal auf dem Handy des Handwerkers. Das Handy würde glühen und der Akku wäre in zehn Minuten leer. Ich brauche also die Verbindung zu meinem Server.

Echte Offline-Funktionalität ist der Endgegner in der Digitalisierung. Ganz ehrlich: Das ist die nächste große Baustelle, und ich arbeite Stück für Stück an diesem Problem. Aktuell ist das selbstgehostete Setup der beste Kompromiss aus massiver Rechenpower und vollem Datenschutz. Wenn das Netz kurz weg ist, kann die App Daten puffern, aber für die KI-Auswertung brauche ich derzeit noch den Server-Ping. Aber hey – Rom wurde auch nicht an einem Tag gebaut.

Sprachsteuerung im Detail: Mein Tech-Stack

Um diese Maschine auf meinem Server ans Laufen zu kriegen, habe ich drei Bausteine miteinander verheiratet. Keine Sorge, ich halte es hemdsärmelig:

Das Ohr (Speech-to-Text): Ich nutze Faster-Whisper. Das ist eine optimierte Variante von OpenAIs Whisper-Modell. Das Ding versteht Deutsch – selbst mit Hintergrundrauschen und Flex in der Nähe – verdammt zuverlässig und wandelt die Sprache blitzschnell in Text um.
Das Gehirn (LLM): Für die eigentliche Intelligenz auf meinem Server nutze ich Mistral Large. Ein europäisches Modell, das genial performt. Die KI muss hier keine philosophischen Essays schreiben. Sie muss aus meinem Satz „Was ist das für ein Ding?“ die Intention ableiten, die Handykamera starten und die Datenbank triggern. Dafür ist Mistral ein absolutes Biest.
Der Mund (Text-to-Speech): Hier kommt Piper zum Einsatz, ein Open-Source-System. Die deutsche Stimme klingt absolut natürlich. Nichts erinnert mehr an die Roboterstimmen der 2000er.

Das Streaming-Geheimnis: Wenn die KI plötzlich Tempo macht

Hier kommt die Kirsche auf der Torte. Der Punkt, an dem es bei mir in der Werkstatt richtig „Klick“ gemacht hat.

Normalerweise funktioniert KI-Sprache so: Du stellst eine Frage. Die KI auf dem Server denkt nach, generiert den kompletten Text, schickt ihn an den Voice-Generator und dann wird gesprochen. Wenn die Antwort lang ist, stehst du rum und wartest. Latenz tötet Akzeptanz.

Ich habe das Ampel-Prinzip angewendet und die Sache radikal auf Tempo getrimmt: Ich nutze Streaming. Sobald Mistral auf dem Server den allerersten Satz fertig gedacht hat, schießt es diesen an die Sprachausgabe. Die fängt sofort an zu reden. Und während ich mir den ersten Satz anhöre, rattert die KI im Hintergrund schon Satz zwei und drei runter. Wie am Fließband.

Das System lauscht einfach auf Satzenden (Punkte, Ausrufezeichen) und feuert los. Das Ergebnis? Die Antwort fühlt sich für den Prüfer instantan an. Nach zwei bis drei Sekunden spricht das System mit dir. Die ganze Komplexität im Hintergrund verschwindet, für den Nutzer springt die Ampel einfach sofort auf Grün.

Damit das in der Praxis auf der Baustelle auch unter widrigen Bedingungen funktioniert, habe ich noch ein Sicherheitsnetz eingebaut. Zittrige Hände, schlechtes Licht, zerkratzte QR-Codes? Kein Problem. Ich lasse in der App zwei verschiedene QR-Decoder parallel laufen. Wenn der schnelle Standard-Decoder scheitert, greift nahtlos ein extrem fehlertoleranter Decoder. Du merkst davon nichts, es funktioniert einfach.

Was ich beim Bau der digitalen Betriebsmittelprüfung gelernt habe

Wenn man wochenlang an so einer Hardware-Software-Symbiose tüftelt, rennt man zwangsläufig in Wände. Ich habe viel ausprobiert und viel weggeschmissen. Hier sind meine Kern-Learnings, kompakt für dein nächstes Projekt:

Selbstgehostete KI ist reif für die Praxis: Für strukturierte Aufgaben wie Spracherkennung und Tool-Calling brauchst du keine US-Cloud mehr. Eigene Server killen jede Datenschutz-Diskussion im Keim.
Streaming ist Pflicht, keine Kür: Der Unterschied zwischen „Antwort kommt satzweise“ und „Antwort kommt am Stück“ entscheidet darüber, ob deine Mitarbeiter das System lieben oder hassen.
Offline ist ein Prozess: Du kriegst an Tag 1 nicht alles perfekt. Starte mit der Server-Lösung für die Intelligenz und erarbeite dir die Offline-Fähigkeit Schritt für Schritt.
Hardware-Fallbacks sind Lebensretter: Die doppelte QR-Erkennung hat mich gerettet. Verlass dich nie auf perfekte Laborbedingungen. Die Baustelle verzeiht nichts.

Wie es jetzt weitergeht

Das Bauteil per Sprache erkennen ist der erste Schritt. Die Basis steht. Jetzt kommt der wirklich spannende Teil: Ich baue den Workflow so um, dass der Assistent dich komplett per Sprache durch den gesamten Prüfkatalog führt. Du beschreibst einfach, was du siehst. „Gehäuse hat Kratzer, Kabel ist intakt.“ Die KI strukturiert das im Hintergrund (Stichwort: Structured Output via JSON) und ordnet es den richtigen Prüfpunkten zu. Am Ende fällt völlig automatisch ein rechtssicheres Prüfprotokoll aus dem System.

Utopische Ziele setzen, um realistische zu erreichen, sage ich immer. Meine Utopie? Das Ganze wandert demnächst auf eine AR-Brille. Stell dir vor: Leichte Smart Glasses, die den QR-Code direkt in deinem Sichtfeld scannen, dir die Prüfanweisung ins Auge projizieren und du hast permanent beide Hände an der Anschlagkette und am Werkzeug. Die Technik dafür ist da, zum Beispiel von Brilliant Labs.

Genau daran bastele ich weiter. Wenn du vor ähnlichen Herausforderungen stehst, keinen Bock mehr auf Zettelwirtschaft hast oder einfach mal fachsimpeln willst, schreib mir einfach. Wir machen das einfach.