← Alle Artikel

ISO 25010 und 25059 im Kontext Softwarequalität

von Rainer Haupt

TL;DR: ISO 25010:2023 definiert 9 Hauptqualitätsmerkmale (nicht 8 wie in der 2011-Version) mit 40 Untermerkmalen für Software-Produktqualität. ISO 25059:2023 erweitert dieses Modell um 6 KI-spezifische Untermerkmale für AI/ML-Systeme. Beide Normen zusammen bilden ein vollständiges Qualitätsframework, das sich systematisch auf Testarten und Automatisierungstools mappen lässt.

Lesedauer ca. 14 Min · Stand: 2026-04


Qualität messbar zu machen, ohne sich in Marketing-Begriffen zu verlieren, ist eine alte Disziplin. Das SQuaRE-Framework der ISO/IEC-25000-Reihe liefert dafür die formale Grundlage. Mit der Revision von ISO 25010 im Jahr 2023 und der KI-Erweiterung ISO 25059 im selben Jahr ist das Modell wieder anschlussfähig — auch für Teams, die heute LLM-Komponenten in ihre Anwendungen integrieren. Dieses Dossier ordnet beide Normen, mappt sie auf konkrete Testarten und Werkzeuge und zeigt, wo Automatisierung trägt und wo nicht.

ISO/IEC 25010:2023 im Überblick

Alle 9 Hauptmerkmale und 40 Untermerkmale

#HauptmerkmalUntermerkmale
1Functional SuitabilityFunctional Completeness · Functional Correctness · Functional Appropriateness
2Performance EfficiencyTime Behaviour · Resource Utilization · Capacity
3CompatibilityCo-existence · Interoperability
4Interaction Capability (ehem. Usability)Appropriateness Recognizability · Learnability · Operability · User Error Protection · User Engagement · Inclusivity · User Assistance · Self-descriptiveness
5ReliabilityFaultlessness · Availability · Fault Tolerance · Recoverability
6SecurityConfidentiality · Integrity · Non-repudiation · Accountability · Authenticity · Resistance
7MaintainabilityModularity · Reusability · Analysability · Modifiability · Testability
8Flexibility (ehem. Portability)Adaptability · Scalability · Installability · Replaceability
9Safety (NEU)Operational Constraint · Risk Identification · Fail Safe · Hazard Warning · Safe Integration

Was sich von 2011 auf 2023 geändert hat

Aspekt20112023
Hauptmerkmale89 (Safety neu)
Untermerkmale3140
UsabilityEigenständig, 6 UntermerkmaleUmbenannt → Interaction Capability, 8 Untermerkmale
PortabilityEigenständig, 3 UntermerkmaleUmbenannt → Flexibility, 4 Untermerkmale
SafetyNicht vorhandenKomplett neu, 5 Untermerkmale
Quality-in-UseIn 25010 enthaltenAusgelagert in ISO 25019:2023
ScopeNur Software/ComputersystemeErweitert auf alle ICT-Produkte

Umbenannte Untermerkmale: Maturity → Faultlessness (unter Reliability), User Interface Aesthetics → User Engagement (unter Interaction Capability).

Neue Untermerkmale neben Safety: Inclusivity (aus Accessibility herausgelöst), User Assistance (aus Accessibility herausgelöst), Self-descriptiveness (komplett neu), Resistance (unter Security neu), Scalability (unter Flexibility neu).

Gestrichen: Accessibility (aufgesplittet in Inclusivity + User Assistance).

Mapping Qualitätsmerkmal auf Testart

QualitätsmerkmalTestarten
Functional SuitabilityUnit-Tests · Integrationstests · End-to-End-Tests · API-Tests · Akzeptanztests · Regressionstests
Performance EfficiencyLasttests · Stresstests · Soak-Tests · Spike-Tests · Benchmarks · Kapazitätstests
CompatibilityCross-Browser-Tests · Cross-Platform-Tests · API-Contract-Tests · Interoperabilitätstests · Koexistenztests
Interaction CapabilityAccessibility-Tests · Usability-Tests · Visual-Regression-Tests · UX-Heuristic-Evaluation
ReliabilityChaos Engineering · Fault Injection · Recovery-Tests · Verfügbarkeitsmonitoring · Failover-Tests · Soak-Tests
SecuritySAST · DAST · SCA · IAST · Penetrationstests · Vulnerability Scanning · Secret Detection · Container Scanning
MaintainabilityStatische Codeanalyse · Komplexitätsmetriken · Duplikat-Erkennung · Architektur-Compliance · Code Reviews
FlexibilityInstallationstests · Migrationstests · Konfigurationstests · Cross-Environment-Tests · Skalierungstests
SafetyHAZOP · FMEA · Fehlerbaumanalyse · Fail-Safe-Verifikation · Formale Verifikation

Automatisierungspotenzial nach Merkmal

MerkmalAutomatisierungsgradBegründung
Functional SuitabilitySehr hochReifste Toollandschaft, CI/CD-Kern
Performance EfficiencySehr hochThreshold-basierte Pass/Fail-Gates möglich
MaintainabilitySehr hochStatische Analyse auf jedem Commit
SecurityHochSAST/DAST/SCA automatisiert; Pentests manuell
ReliabilityHochChaos Engineering in CI/CD integrierbar
CompatibilityHochCross-Browser automatisiert; Koexistenz schwieriger
FlexibilityMittel-hochIaC/Container helfen; Migration komplex
Interaction CapabilityNiedrig-mittelNur ~30–40 % der WCAG-Probleme automatisiert erkennbar
SafetyNiedrigExperten-getriebene Analyse; formale Verifikation teilweise

ISO/IEC 25059:2023 — das Qualitätsmodell für KI-Systeme

Eckdaten

ISO 25059:2023 («Quality model for AI systems») wurde im Juni 2023 als Erstausgabe vom JTC 1/SC 42 (Artificial Intelligence) veröffentlicht. Die Norm referenziert ISO/IEC 25010:2011 (nicht 2023) — eine DIS-Revision, die auf 25010:2023 referenziert, ist in Arbeit. Scope: anwendungsspezifische Erweiterung des SQuaRE-Frameworks für KI/ML-Systeme.

Architekturentscheidung

ISO 25059 behält alle 8 Hauptmerkmale aus ISO 25010:2011 bei und fügt keine neuen Hauptmerkmale hinzu. Das Modell erweitert um 5 neue + 1 modifiziertes Untermerkmal in der Produktqualität sowie 2 neue Untermerkmale im Quality-in-Use-Modell.

KI-spezifische Untermerkmale — Produktqualität

UntermerkmalTypZugeordnet zuBedeutung
Functional AdaptabilityNEUFunctional SuitabilityLernen aus Daten, Anpassung an Umgebungsänderungen
Functional CorrectnessMODIFIZIERTFunctional SuitabilityFehlerrate bei KI erwartbar; Correctness und Incorrectness messen
TransparencyNEUUsabilityInformationen über KI-System für Stakeholder zugänglich
User ControllabilityNEUUsabilityNutzer kann in KI-Funktion rechtzeitig eingreifen
RobustnessNEUReliabilityKorrektheit trotz adversarialer oder fehlerhafter Eingaben
IntervenabilityNEUSecurityOperator kann zur Schadensverhinderung eingreifen

KI-spezifische Untermerkmale — Quality in Use

UntermerkmalTypZugeordnet zuBedeutung
TransparencyNEUSatisfactionVerständnis der Systemfunktion für Endnutzer
Societal & Ethical Risk MitigationNEUFreedom from RiskFairness, Accountability, Explainability, Privacy, menschliche Kontrolle, professionelle Verantwortung

Testherausforderungen für KI-Systeme

HerausforderungUrsacheBetroffenes Merkmal
Test-Orakel-ProblemErwartetes Ergebnis bei ML oft unklarFunctional Correctness
Non-DeterminismusGleicher Input ≠ gleicher OutputFunctional Correctness
Concept DriftDatenverteilung ändert sich über ZeitFunctional Adaptability
Data DriftInput-Features verschieben sich statistischFunctional Adaptability
Adversarial AttacksGezielte Manipulation der EingabenRobustness
Black-Box-ModelleInterne Logik nicht inspizierbarTransparency
Niedrige TestbarkeitGeringe Transparenz erschwert TestingTransparency
Bias-ErkennungDiskriminierung in Trainingsdaten verstecktSocietal Risk Mitigation
Zeitkritische EingriffeAutonome Systeme reagieren schnellIntervenability, Controllability
Modell-RegressionRetraining verschlechtert TeilmetrikenFunctional Correctness

Ansätze und Tools für KI-Tests

QualitätsmerkmalTestansatzTools
Functional CorrectnessML-Metriken (Accuracy, Precision, Recall, F1, AUC-ROC), Cross-ValidationMLflow, Deepchecks, scikit-learn metrics
Functional AdaptabilityData-Drift-Monitoring, Concept-Drift-Detection, Retraining-ValidierungEvidently AI, NannyML, WhyLabs, Alibi Detect
RobustnessAdversarial Testing, Noise Injection, Out-of-Distribution DetectionIBM ART, CleverHans, Giskard
TransparencyExplainability-Analyse, Log-Prüfung, Model CardsSHAP, LIME, Fiddler AI
User ControllabilityOverride-Tests, Reaktionszeit für menschlichen EingriffUI-Testframeworks (Playwright, Cypress)
IntervenabilityKill-Switch-Tests, Safe-State-Transition-TestsChaos Engineering Tools + Custom Suites
Fairness/BiasGruppenvergleiche, Demographic Parity, Equalized OddsFairlearn, AIF360, Evidently AI
Data QualitySchema-Validierung, Vollständigkeit, FreshnessGreat Expectations, Deequ, Soda Core
LLM-EvaluationHalluzinations-Erkennung, Toxizität, RelevanzRagas, DeepEval, Evidently AI

Vergleich ISO 25010 versus ISO 25059

Strukturvergleich

AspektISO 25010:2023ISO 25059:2023
ScopeAlle ICT-ProdukteSpeziell KI/ML-Systeme
TypBasisnormAnwendungserweiterung der Basisnorm
Hauptmerkmale Produktqualität98 (referenziert 25010:2011)
Untermerkmale Produktqualität4031 + 5 neue + 1 modifiziertes = 37
Quality-in-UseAusgelagert in ISO 25019Enthalten, 5 Hauptmerkmale + 2 neue Untermerkmale
Normative ReferenzEigenständigBasiert auf ISO 25010:2011
MetrikenDefiniert in ISO 25023Eigene TS in Entwicklung (SC 42)

Was ISO 25059 hinzufügt

Hinzugefügt durch 25059Übergeordnetes MerkmalModellPraxisrelevanz
Functional AdaptabilityFunctional SuitabilityProduktData-Drift-Monitoring, Retraining-Validierung
Functional Correctness (modifiziert)Functional SuitabilityProduktML-Metriken statt binärer Pass/Fail
TransparencyUsabilityProduktExplainability-Tests, Log-Audits
User ControllabilityUsabilityProduktOverride-Mechanismus-Tests
RobustnessReliabilityProduktAdversarial Testing, Noise Injection
IntervenabilitySecurityProduktKill-Switch-Tests, Notfall-Szenarien
TransparencySatisfactionQuality-in-UseEndnutzer-Verständlichkeitstests
Societal & Ethical Risk MitigationFreedom from RiskQuality-in-UseBias-Testing, Fairness-Metriken

Konzeptuelle Unterschiede

AspektKlassische Software (25010)KI-Systeme (25059)
KorrektheitBinär: korrekt oder fehlerhaftProbabilistisch: Fehlerrate erwartbar
VerhaltenDeterministisch, reproduzierbarNicht-deterministisch, lernend
TestdatenDefinierte TestfälleStatistische Verteilungen, Driftüberwachung
ErklärbarkeitCode ist inspizierbarBlack-Box-Modelle, Explainability nötig
FehleranalyseStack Traces, LogsFeature Importance, Confusion Matrices
RegressionCode-Änderungen verursachen RegressionDatenänderungen verursachen Regression
BiasKein Thema in der NormZentrale Herausforderung (Societal Risk)
SicherheitseingriffStandard-FehlermechanismenExplizite Intervenability gefordert

Praxisbezug — Tools und Teststrategie

Tool-Empfehlungen nach Qualitätsmerkmal

QualitätsmerkmalEmpfohlene ToolsLizenz / Kosten
Functional SuitabilityPlaywright, Cypress, RestAssured, pytest, JUnit, Robot FrameworkAlle OSS / kostenlos
Performance Efficiencyk6 (Grafana), Gatling, JMeter, LocustOSS; Enterprise-Varianten verfügbar
CompatibilityPlaywright (Multi-Browser), BrowserStack, Pact (Contract Testing)Pact OSS; BrowserStack ab USD 29/Mo
Interaction Capabilityaxe-core, Pa11y, Lighthouse, Applitools Eyesaxe/Pa11y OSS; Applitools Freemium
ReliabilityGremlin, LitmusChaos, Chaos Mesh, ToxiProxyLitmus/Chaos Mesh OSS; Gremlin ab USD 475/J
SecurityOWASP ZAP, SonarQube, Snyk, Trivy, GitLeaksZAP/Trivy OSS; Snyk Freemium
MaintainabilitySonarQube, ESLint/PMD, ArchUnit, CodeClimateSonarQube Community OSS
FlexibilityTerraform/Ansible Test Suites, Container Structure Tests, InSpecAlle OSS
SafetyLDRA, Parasoft, Polyspace (formale Verifikation)Kommerziell, hoch
KI: CorrectnessMLflow, Deepchecks, scikit-learn metricsAlle OSS
KI: Adaptability/DriftEvidently AI, NannyML, WhyLabsEvidently OSS; WhyLabs Freemium
KI: RobustnessIBM ART, CleverHans, GiskardAlle OSS
KI: TransparencySHAP, LIME, Fiddler AISHAP/LIME OSS; Fiddler kommerziell
KI: Fairness/BiasFairlearn, AIF360, Evidently AIAlle OSS
KI: Data QualityGreat Expectations, Deequ, Soda CoreGE/Deequ OSS; Soda Freemium

Teststrategie auf Basis der Normen

Phase 1 — Qualitätsmerkmale priorisieren. Relevante Merkmale pro System identifizieren; nicht alle 9 sind gleich wichtig. Banking: Security und Reliability priorisieren. Consumer-App: Interaction Capability und Performance. KI-System: zusätzlich Robustness, Fairness, Transparency.

Phase 2 — Messbare Qualitätsziele definieren. Beispiele:

  • Performance: 95 % der Requests unter 2 Sekunden
  • Reliability: 99.9 % Uptime, Recovery unter 30 Sekunden
  • Security: null kritische OWASP-Top-10-Findings
  • Maintainability: Cyclomatic Complexity unter 15, Duplikation unter 3 %
  • KI-Correctness: F1-Score über 0.92 auf Testdatensatz
  • KI-Fairness: Demographic Parity Difference unter 0.05

Phase 3 — Quality Gates in der CI/CD-Pipeline.

Pipeline-StageTestsTools
BuildUnit-Tests, SAST, Linting, Dependency Checkpytest/JUnit, SonarQube, ESLint, Snyk
IntegrationAPI-Tests, Contract-Tests, AccessibilityRestAssured, Pact, axe-core
Pre-ReleasePerformance, DAST, Chaos Engineeringk6, OWASP ZAP, LitmusChaos
Pre-Release (KI)Model Validation, Bias Check, Data QualityDeepchecks, Fairlearn, Great Expectations
ProductionMonitoring, Drift Detection, VerfügbarkeitPrometheus/Grafana, Evidently AI, PagerDuty

Phase 4 — Automatisieren oder manuell belassen.

AutomatisierenManuell belassen
Funktionale RegressionExploratives Testing
Performance- und LasttestsUsability-Tests mit echten Nutzern
SAST/DAST/SCADeep Penetration Testing
Statische CodeanalyseSafety-Analyse (HAZOP, FMEA)
Accessibility (30–40 %)Accessibility (60–70 %, Screen Reader)
Cross-Browser-TestsUX Heuristic Evaluation
Data-Drift-MonitoringEthische Bewertung von KI-Ergebnissen
ML-Metriken-TrackingExplainability-Bewertung durch Fachexperten

Phase 5 — Kontinuierliches Monitoring.

Monitoring-MetrikZugeordnetes Merkmal
Response Times, ThroughputPerformance Efficiency
Error Rates, HTTP 5xxFunctional Suitability
Uptime, MTTRReliability
Security Alerts, CVEsSecurity
Feature Drift, Prediction DriftKI: Functional Adaptability
Fairness-Metriken über ZeitKI: Societal Risk Mitigation

Verwandte Normen im SQuaRE-Ökosystem

NormInhaltRelevanz für QA
ISO 25010:2023Produktqualitätsmodell (9 Merkmale)Basis-Framework für Teststrategie
ISO 25019:2023Quality-in-Use-Modell (aus 25010 ausgelagert)Nutzer-zentrierte Qualität
ISO 25059:2023KI-Erweiterung des QualitätsmodellsPflicht für KI/ML-Systeme
ISO 25023Messverfahren für ProduktqualitätKonkrete Metriken pro Merkmal
ISO 25012DatenqualitätsmodellBasis für Data-Quality-Tests
ISO/IEC 5259Datenqualität für ML/AnalyticsKI-spezifische Datenqualität
ISO/IEC TR 29119-11Testleitfaden für KI-SystemePraktische KI-Testmethoden
ISO/IEC 24029Robustheitsbewertung neuronaler NetzeFormale Methoden für Robustness
ISO/IEC 42001KI-ManagementsystemGovernance-Framework

Einordnung

ISO 25010 und 25059 sind keine Theorie für die Schublade. Wer eine Teststrategie bauen muss, hat mit den Normen einen vollständigen Merkmalskatalog plus Mapping auf Testarten und Tools — ohne die Begriffe selbst neu erfinden zu müssen. Die KI-Erweiterung schliesst die Lücke, die klassische Produktqualität bei lernenden Systemen offenliess: Robustness, Transparency und Intervenability sind keine Marketingbegriffe, sondern formal definierte Untermerkmale mit zugeordneten Testverfahren.

Drei Empfehlungen für den Einsatz im Projekt: Erstens nicht alle 9 Merkmale gleich gewichten — Priorisierung nach Domäne (Banking ≠ Consumer-App ≠ KI-System). Zweitens messbare Qualitätsziele formulieren, bevor Tools ausgewählt werden — die Norm gibt das Gerüst, nicht die Zielwerte. Drittens Automatisierung dort, wo das Merkmal ein automatisierbares Testverfahren hat (Functional Suitability, Performance, Maintainability) — dort, wo es das nicht hat (Safety, Interaktion, ethische KI-Bewertung), bleibt Expertenarbeit unverzichtbar.

Quellen


Sie bauen eine Teststrategie auf Basis von ISO 25010/25059 oder bewerten ein bestehendes Setup gegen die Normen? Im UTAA-Workshop priorisieren wir Merkmale und Tooling projektspezifisch. Mehr zur Methode oder direkt anfragen.

Rückruf anfordern