KI in der Testautomatisierung — eine Standortbestimmung
von Rainer Haupt
Alle reden über KI im Testing. Aber wer nutzt es wirklich produktiv?
Die Zahlen sind ernüchternd. Laut einer Studie von Qable.io (2025) stufen 75 % der Organisationen KI-gestütztes Testen als strategisch wichtig ein — aber nur 16 % haben es tatsächlich produktiv eingeführt. Der World Quality Report 2025-26 bestätigt das Bild: durchschnittlich 19 % Produktivitätssteigerung durch KI im Qualitätsbereich. Klingt gut — bis man liest, dass ein Drittel der Organisationen minimale oder gar keine Ergebnisse sieht. Die Lücke zwischen Anspruch und Umsetzung ist erheblich.
Tooling-Hype trifft Praxis-Realität
Wer sich heute durch Blog-Posts und Konferenz-Talks klickt, bekommt den Eindruck, KI habe das Testen bereits neu erfunden. Die Realität in den meisten QA-Teams sieht anders aus: tausende bestehende Tests, gewachsene Frameworks, eingespielter CI/CD-Betrieb. KI «dazuschalten» funktioniert nicht.
Hinzu kommt: Viele der beworbenen KI-Testing-Tools sind kommerziell, Cloud-abhängig oder stecken noch im Alpha-Stadium. Wer ein bestehendes Setup mit Robot Framework, Python und Playwright betreibt, findet nicht an jeder Ecke eine Drop-in-Lösung. Die Investitionsentscheidung verlagert sich vom «Was kann das Tool?» zur Frage «Lässt es sich in unsere bestehende Pipeline integrieren, ohne Selektoren, Reporting und Berechtigungen neu zu bauen?»
Wo KI heute tatsächlich ROI liefert
Drei Bereiche stechen heraus, weil sie nachweislich in der Praxis funktionieren — nicht nur in Demos.
Visuelles Regressionstesting ist die reifste KI-Kategorie im Testing überhaupt. Applitools macht das seit über zehn Jahren kommerziell. Open-Source-Alternativen wie Visual Regression Tracker bieten mittlerweile KI-gestützten Bildvergleich mit Playwright-Integration. Selbst einfache Pixel-Vergleiche mit pixelmatch-py oder SSIM-Metriken aus scikit-image fangen vieles ab — ohne LLM, ohne Cloud-Abhängigkeit.
Selbstheilende Tests adressieren eines der teuersten Probleme der Testautomatisierung. Testpflege verschlingt 30–40 % des QA-Aufwands. Selbstheilende Locators reduzieren das spürbar bei kleineren UI-Änderungen. Für Python und Playwright gibt es autoheal-locator-python, das auch mit kostenlosen oder lokalen LLMs funktioniert. Wichtiger Praxistipp: Playwrights semantische Locators (get_by_role, get_by_text) eliminieren bereits über 80 % der Locator-Brüche — das ist die effektivste Massnahme vor jeder KI-Lösung.
KI-gestützte Testgenerierung liefert messbare Ergebnisse, wenn der Kontext stimmt. GPT-4 erreicht laut einer ACM-Studie von 2024 rund 72.5 % Validitätsrate bei generierten Tests, wobei weitere 15 % zuvor unberücksichtigte Randfälle identifizieren. Besonders bei menschenlesbaren Formaten wie Robot Framework funktioniert die Generierung erstaunlich gut. Aber: 92 % der ohne Suite-Kontext generierten Tests schlagen fehl. Kontext ist alles — RAG-Integration mit der bestehenden Testbibliothek macht den Unterschied zwischen Demo und Produktion.
Was sofort umsetzbar ist — ohne Budget
Die nützlichsten Werkzeuge brauchen kein LLM und kosten nichts.
- Faker oder Mimesis für Testdatengenerierung — stabil, schnell, kein Setup
- axe-playwright-python für Barrierefreiheitstests — eine Zeile Code, erkennt rund 57 % der WCAG-Probleme
- Schemathesis für automatische API-Tests aus OpenAPI-Specs — laut Studie 1.4–4.5-fach mehr Defekte als Wettbewerber
- pixelmatch-py für einfache visuelle Regression — drei Zeilen Code
Wer lokale LLMs evaluieren will: Ollama installieren, Qwen 2.5 Coder 7B laden — läuft auf jedem Laptop mit 16 GB RAM. LiteLLM als Middleware davor, und der Wechsel zwischen lokal und Cloud ist eine Zeile Konfiguration. Kosten: null. Datenschutz: vollständig im eigenen Haus.
Einordnung
KI im Testing ist kein Hype, aber auch keine Revolution über Nacht. Die 16 %, die es produktiv nutzen, setzen nicht auf die lautesten Tools, sondern auf die pragmatischsten. Wer heute anfangen will, fängt nicht bei den KI-Agenten an, sondern bei den unauffälligen Problemen — Testdaten, visuelle Regression, Barrierefreiheit. Dort ist der ROI sofort messbar. Wer dort nicht aufgeräumt hat, gewinnt mit einem KI-Layer obendrauf wenig.
Quellen
- Qable.io — Is AI Improving Software Testing? Research Insights 2025-2026
- Capgemini / OpenText / Sogeti — World Quality Report 2025-26
- ACM/IEEE AST 2024 — Using GitHub Copilot for Test Generation in Python
- Schemathesis — property-based API testing
- autoheal-locator-python — selbstheilende Locators für Playwright
- Visual Regression Tracker — KI-gestützter Bildvergleich
- axe-core / axe-playwright-python — Barrierefreiheitstests