DoE-Happen #35 – Welchen EInfluss hat eine Ausreißer auf das DoE-Design?
Nachdem wir uns im letzten Blogbeitrag mit den Auswirkungen von Ausreißern durch abweichende Faktoreinstellungen im Versuchsplan beschäftigt haben, möchte ich Ihnen heute einige Kennzahlen genauer vorstellen.
Beginnen wir mit der bekanntesten Kennzahl: der „Condition Number“.
Was sagen Kennzahlen wie die „Condition Nr.“ gemeinsam aus?
In allen Fällen bedeutet ein abweichendes Faktor-Setting nicht zwangsläufig, dass es zu einem Ausreißer in den Zielgrößen kommt. Es ist jedoch wahrscheinlich, dass signifikant abweichende Faktoreinstellungen zu starken Schwankungen in den Zielgrößen führen, vor allem, wenn die betroffenen Faktoren eine hohe Bedeutung haben. Ein zentrales Ziel der Versuchsplanung besteht darin, die unterschiedlichen Einheiten der Faktoren durch Normierung auf skalierte, einheitliche Werte zu übertragen. Nur so lassen sich die Effekte der Faktoren trotz ihrer ursprünglichen, teils sehr unterschiedlichen Einheiten sauber vergleichen.
Was passiert bei einer Verzerrung des Designs? Eine Verzerrung des Designs beeinflusst die unabhängige Untersuchung der Effekte, da die Experimente nicht mehr orthogonal zueinanderstehen. Im Koeffizienten-Plot können Sie erkennen, ob die Effekte mit der Zielgröße positiv oder negativ korreliert sind. Wenn die Balken nach oben zeigen, bedeutet dies, dass höhere Faktorwerte zu einer höheren Zielgröße führen, und umgekehrt.
Ein weiteres Beispiel:
Im vorangehenden Plot sehen Sie, wie der Faktor X1 systematisch und unabhängig von den anderen Faktoren untersucht werden kann. Dies liegt daran, dass in der Ebene X1 nur der Faktor X1 variiert wurde, während die anderen Faktoren auf ihren Werten gehalten wurden. So lässt sich der mittlere Effekt von X1 unabhängig von den anderen Faktoren berechnen. Diese systematische Aufteilung der Experimente gilt ebenso für X2 und X3.
Was passiert bei einer Verzerrung?
Eine Verzerrung wie im voranstehenden Bild lässt eine unabhängige Berechnung der Effekte nicht mehr zu, da die Experimente über die Betrachtungsebene hinaus in anderen Dimensionen verzerrt wurden.
Die Condition Number erklärt:
Die Condition Number wird als das Verhältnis der längsten zur kürzesten Raumdiagonale berechnet. Stellen Sie sich vor, Ihre drei Faktoren spannen einen Raum auf. Solange die Faktoreinstellungen der Experimente orthogonal zueinanderstehen entspricht der Raum einem Würfel und die Diagonalen bleiben gleich lang, was auf eine stabile Versuchsplanung hinweist. Wenn jedoch Verzerrungen auftreten – etwa, weil ein Experiment nicht an der vorgesehenen Stelle im Versuchsraum durchgeführt wurde oder die Faktoreinstellungen nicht genau eingehalten und dokumentiert wurden – verändert sich das Verhältnis der Raumdiagonalen.
Eine steigende Condition Number deutet auf eine zunehmende Raumverzerrung hin, was zur Folge hat, dass das Design weniger robust ist und die Schätzungen der Effekte unzuverlässiger werden. In unserem Beispiel entspricht dies dem Verhältnis der orangen zur blauen Linie.
Mehrdimensionalität und die Condition Number
Jetzt fragen Sie sich vielleicht: „Und was ist mit dem mehrdimensionalen Raum?“ Bei mehr als drei Faktoren wird die Berechnung der Diagonalen komplexer. Hier kommt die Matrizenrechnung ins Spiel. Mithilfe von Matrizen und der Singulärwertzerlegung (SVD) können wir die längste und kürzeste Raumdiagonale auch in höherdimensionalen Räumen berechnen.
Die Formel zur Berechnung der Condition Number lautet:
Die Berechnung der Condition Number basiert auf der Singulärwertzerlegung (SVD) einer Matrix. Für eine Design-Matrix 𝑋 gilt:
Condition Number: ;
Wobei der größte und der kleinste Singulärwert der Matrix ist. Doch keine Sorge, moderne DoE-Software berechnet diese Kennzahl für Sie – das Verständnis der Bedeutung reicht für die Beurteilung völlig aus.
Grenzempfehlungen zur Condition Number: Wann ist ein Design „gut“?
Was bedeuten diese Werte?
Gutes Design:
- Screening & Robustness Testing: Eine Condition Number unter 3 zeigt, dass das Design stabil ist und eine gute Trennung der Faktoren ermöglicht. Die präzise Schätzung der linearen Effekte ist hier gewährleistet, und je nach Design-Auswahl sind auch Wechselwirkungen (interactions) korrekt erfassbar. Der Grund dafür ist, dass eine niedrige Condition Number anzeigt, dass die Faktoren nahezu orthogonal zueinanderstehen und daher unabhängig analysiert werden können. Orthogonalität ist ein Schlüsselkriterium für die Unabhängigkeit der Faktoren, was besonders in Screening-Designs wichtig ist.
- Optimierungsdesigns: Ein Wert unter 8 gilt als ideal. In Optimierungsdesigns müssen die Effekte der Faktoren genau geschätzt werden, um Vorhersagen für das System zu treffen. Hier ist eine etwas höhere Condition Number akzeptabel, da Optimierungsdesigns oft komplexer sind und mehr Trade-offs enthalten. Die Genauigkeit bleibt jedoch bei Werten unter 8 gegeben.
Ergänzender Hinweis: Bei Attributiven oder qualitativen Faktoren kann die Condition Number weniger relevant sein, da hier keine linearen Zusammenhänge vorliegen und die Faktoren oft nicht skaliert sind. Solche Faktoren werden häufig in Mixed-Models anders behandelt.
Fragwürdiges Design:
- Eine Condition Number zwischen 3 und 6 (Screening) oder 8 und 12 (Optimierung) deutet darauf hin, dass das Design potenziell anfällig für Verzerrungen (bias) ist. Das kann dazu führen, dass die Schätzung der Effekte weniger präzise ist, da das Design möglicherweise nicht mehr vollständig orthogonal ist. In diesem Fall ist es ratsam, das Design genauer zu analysieren und zu optimieren. Ursachen für eine fragwürdige Condition Number können z.B. Ausreißer, falsch gewählte Faktoreinstellungen oder eine ungünstige Design-Geometrie sein, die den Versuchsraum verzerrt.
Schlechtes Design:
- Werte über 6 (Screening) oder 12 (Optimierung) weisen darauf hin, dass das Design erhebliche Probleme aufweist. Hier ist die Schätzung der Effekte sehr wahrscheinlich verzerrt, was zu falschen oder unzuverlässigen Prognosen führt. In solchen Fällen sollte das Design gründlich geprüft und angepasst werden. Ursachen für eine schlechte Condition Number können Tippfehler, Übertragungsfehler, falsche Skalierungen oder Copy/Paste-Fehler sein. Eine mögliche Lösung besteht in der Neuskalierung des Designs oder der Ergänzung durch zusätzliche orthogonale Versuche, um die Robustheit zu erhöhen.
Quellen für Grenzwerte zur Condition Number:
- Die Grenzwerte zur Condition Number finden sich oft in Standardwerken zur Design of Experiments (DoE) sowie in der Dokumentation führender DoE-Software-Pakete, wie z.B. Modde oder JMP.
Im nächsten Beitrag beschäftigen wir uns mit der G-Efficiency.
Wenn Sie den Überblick über Kennzahlen wie die Condition Number behalten wollen, besuchen Sie meine Webseite www.stefan-moser.com in der Rubrik Blogs, wo Sie alle bisherigen Beiträge finden.
Wenn Ihnen dieser Beitrag gefallen hat, freue ich mich, wenn Sie ihn teilen und liken – denn Wissen ist die einzige Ressource, die durch Teilen nicht weniger wird, sondern mit jedem Klick weiter wächst.
Bis zum nächsten Mal,
Ihr DoE-Experte
Stefan Moser