KI vs. Algorithmus: Warum mein KI-Projekt gegen die 70er verlor

Wenn das "Tüftler-Gen" gegen die Mathematik verliert

Hand aufs Herz: Ich liebe es, wenn eine neue Technologie um die Ecke kommt und wir sie auf ein altes Problem werfen können. Das ist wie ein neuer, verdammt scharfer Bohrer – man will einfach sehen, wie schnell er durch den dicksten Beton geht. Genau so ging es mir mit meinem letzten Projekt. Ich wollte die Tourenplanung für Handwerksbetriebe revolutionieren. KI vs. Algorithmus: Der Realitäts-Check bei Tourenplanung

Drei Wochen habe ich geschraubt, gecodet und Prompts optimiert. Mein Ziel: Ein KI-gesteuerter Tourenplaner, der alles in den Schatten stellt. Das Ergebnis nach vier ehrlichen Tests? Eine glatte Nullnummer. Mein hochmoderner KI-Ansatz war nicht einen Deut besser als ein Algorithmus, der schon in den 1970er-Jahren in der Operations Research (OR) zum Standard gehörte.

Ehrlich gesagt? Dieses Scheitern ist wertvoller als der Sieg, auf den ich gewettet hatte. Aber fangen wir vorne an – mitten im Chaos eines ganz normalen Servicebetriebs.

Das Problem: Wer fährt wann zu wem?

Stell dir einen Heizungsbaubetrieb vor. Zehn Techniker, jeden Morgen warten 50 Aufträge im Backlog. Wartungen, kleine Reparaturen und dann knallt noch ein Notfall rein: „Heizung komplett tot, Keller unter Wasser.“

In der Theorie nennt man das ein Vehicle Routing Problem with Time Windows (VRPTW). In der Werkstatt heißt das einfach nur: Kopfschmerzen für den Disponenten. Er muss entscheiden: Wer hat das passende Werkzeug dabei? Wer ist am nächsten dran? Und wer muss zuerst bedient werden, damit die SLA-Fristen (Service Level Agreements) nicht reißen?

Ich hatte vier Kandidaten im Rennen, um diesen Knoten zu lösen:

Die simple Heuristik: Sortieren nach Priorität, ab auf die Autos. Schnell, aber oft ineffizient.
Google OR-Tools: Der klassische "Solver". Mathematisch sauber, knallharte Logik, seit Jahrzehnten bewährt.
LLM-Direct: Claude Sonnet bekommt die Liste und soll als "digitaler Disponent" einfach mal machen.
Der Hybrid-Ansatz (Meine Wette): Der Solver macht die Mathe, aber die KI (LLM) sitzt obenauf als strategischer Dirigent. Die KI entscheidet jeden Tag neu: "Heute haben wir viele Notfälle, schraub die Priorität für Fahrzeitersparnis mal runter und den Notfall-Bonus hoch!"

Meine Hypothese: Ein normaler Disponent versteht keine mathematischen Gewichtungs-Parameter. Aber er kann einem LLM sagen, was heute wichtig ist. Also müsste die KI den "starren" Algorithmus eigentlich schlagen, oder?

Der Moment, in dem ich fast auf den "KI-Hype" reingefallen wäre

Ich startete eine Simulation. Stress-Woche: Krankmeldungen, Staus, Notfälle ohne Ende. Und siehe da: Der Hybrid-Ansatz holte den Sieg! Ein Auftrag mehr erledigt, vier SLA-Verletzungen weniger. Ich hatte den LinkedIn-Post schon fast fertig getippt: „Wie LLM-Optimierung den Mittelstand rettet“.

Aber ich bin misstrauisch. Wenn Ergebnisse zu schön sind, um wahr zu sein, sind sie es meistens auch. Ein kurzer Plausch mit einem kritischen Kollegen brachte es auf den Punkt: „Bastian, das war ein einziger Durchlauf. Das kann reiner Zufall sein.“ Er hatte recht. Ich hatte die Statistik ignoriert.

Testarena um die verschiedenen Ansätze gegeneinander antretten zu lassen.

Was ich beim zweiten Hinsehen gelernt habe (Die harten Fakten):

Multi-Seed-Tests sind Pflicht: Einmal ist keinmal. Erst über 20 verschiedene Zufalls-Szenarien zeigt sich die Wahrheit.
Rauschen ist kein Fortschritt: Die "Überlegenheit" der KI schrumpfte im Mittelwert auf exakt Null zusammen.
Klassische Tools sind verdammt gut: Google OR-Tools (→ INTERNER LINK: Prozessoptimierung im Handwerk) ist so robust, dass selbst eine "schlechte" Einstellung der Parameter kaum Performance kostet.

Die Sackgasse: Wenn "strategisches Denken" nach hinten losgeht

Ich wollte nicht aufgeben. Ich dachte mir: „Okay, bei der Planung am Morgen bringt die KI nichts. Aber was ist mit der Reaktion auf Störungen am Tag?“

Ein Techniker meldet sich um 11:40 Uhr krank. Chaos pur. Ich gab dem LLM den vollen Kontext: „Das ist der dritte Replan heute, Techniker Müller ist ausgefallen, wir haben noch 150 Minuten Restschicht.“ Die KI fing an zu "denken". Sie schrieb Begründungen, warum sie jetzt aggressiver plant, um noch alles reinzuquetschen.

Faszinierend zu lesen? Absolut. Besser als der alte Solver aus den Siebzigern? Keineswegs. Die Performance blieb identisch. Der einzige messbare Effekt: Die KI wurde konsistenter in ihren (nicht besseren) Entscheidungen. Damit war meine letzte Bastion gefallen.

Die Kirsche ist kein Fundament: Warum KI kein Allheilmittel ist

Automatischer EInsatzplaner. Zuordnung der Aufträge unter berücksichtigung der Mitarbeiter, Pausen- und Arbeitszeiten

Drei Wochen Arbeit, um festzustellen, dass ein 50 Jahre altes Verfahren gewinnt. Klingt frustrierend, ist aber eine der wichtigsten Lektionen für jeden Macher da draußen. Wir neigen dazu, KI auf jedes Problem zu werfen, weil es sich nach Zukunft anfühlt.

Aber: KI ist nur das Sahnehäubchen. Wenn du ein mathematisch lösbares Problem mit harten Regeln hast, ist ein spezialisierter Algorithmus wie ein perfekt geschmiedeter 13er-Schlüssel. Er passt einfach. Ein LLM ist eher wie ein Multitool – es kann vieles, aber bei der festsitzenden Schraube rutschst du damit ab.

Merksatz für die Praxis: Wer einen klassischen Solver hat, der für sein Problem ausgelegt ist, braucht oft keine KI darüber. Sie bringt oft nur zusätzliche Kosten, Latenz und Unsicherheit in den Prozess.

Mein Rat: Sucht die ehrliche Baseline

KI Reasoning und Clusterbildung der Aufträge nach Techniker. Optimierte Routen Wenn ihr in eurem Betrieb über KI nachdenkt, stellt euch eine Frage: Was ist meine ehrliche Vergleichs-Baseline? Vergleicht die KI nicht mit „wir machen gar nichts“, sondern mit der besten klassischen Lösung, die es schon gibt (→ INTERNER LINK: Digitalisierung ohne Bullshit).

Echte Digitalisierung bedeutet auch, den Mut zu haben, zu sagen: „Hier brauchen wir keine KI. Hier brauchen wir einfach nur einen sauberen Prozess und einen soliden Algorithmus.“

Habt ihr ähnliche Erfahrungen gemacht? Wo hat die KI bei euch grandios verloren – oder wo hat sie den klassischen "Stahl-Algorithmus" wirklich alt aussehen lassen? Schreibt mir, ich will die echten Geschichten hören, nicht die aus dem Hochglanz-Prospekt.

Die vollständige Auswertung mit allen Tabellen und meinen kläglich gescheiterten Versuchen findet ihr übrigens hier zum Nachlesen. Viel Spaß beim Stöbern im digitalen Werkstattbericht! -> hier zum GIT -> hier zur Auswertung