Datum: 28. März 2004 23:05
Nachdem schon Wetterfuchs weitergehende Erläuterungen zur Methode der Faktorenanalyse wünschte, wird es wohl höchste Zeit, daß ich etwas zu dem posting
[www.wetter-zentrale.com];
nachliefere. Auch wenn ich nicht der Auffassung bin, daß das posting ohne diese Erläuterungen "umsonst" wäre - immerhin ich habe davon profitiert ;-). Aber das Sakrileg, die schönen DWD-Stationsdaten mathematisch zu massakrieren bedarf wohl einer Rechtfertigung :-))
Also, worum geht es?
Man hat einen Satz von Zeitreihen, in meinem Beispiel die Temperaturmonatsmittel von 01/91 bis 02/04 einiger DWD-Stationen. In der Regel zeigen diese Zeitreihen Gemeinsamkeiten wie auch individuelle Merkmale. Im Beispiel folgen natürlich alle dem jahreszeitlichen Wechsel des mitteldeuropäischen Klimas, Standortfaktoren geben der einzelnen Zeitreihe aber noch individuelle Besonderheiten: Die Temperaturen der Zugspitze liegen aufgrund der Höhenlage ständig unter denen der anderen Stationen, eine Station in Küstennähe zeigt einen weniger schwankenden jährlichen Temperaturverlauf aufgrund des ozeanischen Klimas, etc.
Aber die Temperaturmittel aller Stationen werden auch durch die Großwetterlagen geprägt und zeigen somit in den einzelnen Monaten von den langjährigen Klimamitteln abweichende gemeinsame Tendenzen, siehe z.B. die durchgehend positiven Temperaturabweichungen des letzten Februars in Süddeutschland. Diese Tendenzen sind räumlich begrenzt und können in größerer Entfernung oder im Einzelfall anders sein. Die gemeinsamen Merkmale und Tendenzen lassen sich mit einer Faktorenanalyse feststellen, wobei individuelle Merkmale oder "Ausreißer" unterdrückt werden.
Bei der Faktorenanalyse stellt man sich vor, daß jede der gegebenen Zeitreihen x(t), x: Messwert (Temperaturmonatsmittel), t Zeitpunkte (Monate), das Ergebnis von allen Zeitreihen gemeinsamen "Basiszeitreihen" ist.
Wer eine Fernreise plant, guckt sich vielleicht die im Reiseführer abgebildete Temperaturreihe der Landeshauptstadt (eine "Basiszeitreihe") an und gewinnt mit etwas Glück einen repräsentativen Eindruck vom Klima an seinem Urlaubsort. Daß diese Methode aber auch zu eklatant falschen Ergebnissen führen kann, sowohl was die klimatischen Temperaturen und erst recht das aktuelle Reisewetter am Urlaubsort angeht, ist jedem wohl bewußt.
Diese "Reiseführer-Methode" läßt sich aber verfeinern. Man könnte z.B. die "Hauptstadttemperaturreihe" nehmen und eine paar Grad von den Monatwerte abziehen oder dazuschlagen und so dem Klima des Urlaubsortes näherkommen. Oder man könnte die Schwankungen der Monatwerte verkleinern, wenn der Urlaubsort am Meer liegt...
Ein Beispiel: die "Fernreise" ginge nach Schleswig (DWD-Station 10035) und unsere Hauptstadt sei - wie anno 1848 - Frankfurt/Main (10637). In den Spalten 3 und 4 sind die DWD-Daten, in der 5. Spalte (10035r)die Ergebnisse (Ausschnitt) einer linearen Regression optimiert über 01/91 bis 12/03. Dabei ergibt sich die Schätzung der Temperatur y in Schleswig aus der Frankfurter Temperatur x durch y = 0.864*x-0.711. D.h. der Schleswiger Schätzwert wird etwas gestaucht ("ozeanisches Klima") und zu tieferen Temperaturen verschoben ("rauhes ozean. Klima").
<pre>
JJJJ MM 10637 10035 10035r Diff 10035p1Diff
2003 12 3 3.2 1.9 -1.3 2.3 -0.9
2003 11 7.2 6.4 5.5 -0.9 6.0 -0.4
2003 10 7.9 6.1 6.1 0.0 6.1 0.0
2003 9 15.7 14 12.9 -1.1 13.4 -0.6
2003 8 23.7 18.5 19.8 1.3 19.1 0.6
2003 7 21.1 18.6 17.5 -1.1 17.7 -0.9
2003 6 21.9 16.4 18.2 1.8 17.9 1.5
2003 5 15.7 12.2 12.9 0.7 13.1 0.9
2003 4 10.8 7.3 8.6 1.3 7.9 0.6
2003 3 8.3 4.5 6.5 2.0 5.2 0.7
2003 2 0.4 -1.4 -0.4 1.0 -1.1 0.3
2003 1 1.2 0.6 0.3 -0.3 0.1 -0.5
2002 12 3.1 0.2 2.0 1.8 0.8 0.6
2002 11 8 4.5 6.2 1.7 5.4 0.9
2002 10 10.3 7.5 8.2 0.7 8.0 0.5
2002 9 14.5 14.7 11.8 -2.9 12.6 -2.1
2002 8 20 19.7 16.6 -3.1 17.6 -2.1
2002 7 19.1 17.1 15.8 -1.3 16.5 -0.6
2002 6 19.5 15.9 16.1 0.2 16.0 0.1
2002 5 14.6 12.9 11.9 -1.0 12.7 -0.2
2002 4 10.1 7.7 8.0 0.3 7.5 -0.2
2002 3 7.3 4.9 5.6 0.7 5.3 0.4
2002 2 6.5 5 4.9 -0.1 4.9 -0.1
2002 1 1.3 3 0.4 -2.6 1.6 -1.4
2001 12 1.4 0.5 0.5 0.0 0.2 -0.3
2001 11 4.6 5.4 3.3 -2.1 3.9 -1.5
2001 10 13.4 12.6 10.9 -1.7 11.9 -0.7
2001 9 13 12.3 10.5 -1.8 11.1 -1.2
2001 8 20.5 17.4 17.0 -0.4 17.4 0.0
2001 7 20.7 17.8 17.2 -0.6 17.2 -0.6
2001 6 16.4 13.2 13.5 0.3 13.3 0.1
2001 5 16.6 12.3 13.6 1.3 13.2 0.9
2001 4 8.8 6.2 6.9 0.7 6.7 0.5
2001 3 6.7 2.1 5.1 3.0 4.2 2.1
2001 2 4.7 1.4 3.4 2.0 2.4 1.0
2001 1 2.6 1.4 1.5 0.1 1.3 -0.1
2000 12 4.3 4 3.0 -1.0 3.4 -0.6
2000 11 7.5 6.9 5.8 -1.1 6.1 -0.8
2000 10 11.3 10.9 9.1 -1.8 10.2 -0.7
2000 9 15.5 13.6 12.7 -0.9 13.1 -0.5
2000 8 19.9 15.8 16.5 0.7 16.5 0.7
2000 7 16.7 14.7 13.7 -1.0 14.3 -0.4
2000 6 19.4 14.5 16.1 1.6 15.8 1.3
2000 5 16.5 13.1 13.6 0.5 13.6 0.5
2000 4 11.8 8.7 9.5 0.8 9.5 0.8
2000 3 7.6 4.4 5.9 1.5 4.9 0.5
2000 2 5.3 4.1 3.9 -0.2 3.9 -0.2
2000 1 2.9 3.1 1.8 -1.3 1.5 -1.6
1999 12 3.6 2.4 2.4 0.0 2.3 -0.1
1999 11 4.6 5.1 3.3 -1.8 3.7 -1.4
1999 10 10.2 9.4 8.1 -1.3 8.7 -0.7
1999 9 18.6 16.7 15.4 -1.3 15.9 -0.8
1999 8 19.2 16.5 15.9 -0.6 16.2 -0.3
1999 7 21.2 18 17.6 -0.4 17.6 -0.4
1999 6 17.6 14.3 14.5 0.2 14.2 -0.1
1999 5 15.9 11.8 13.0 1.2 12.8 1.0
1999 4 11 8 8.8 0.8 8.4 0.4
1999 3 7.2 4.8 5.5 0.7 5.2 0.4
1999 2 2.3 1 1.3 0.3 0.7 -0.3
1999 1 3.9 2.9 2.7 -0.2 2.8 -0.1
1998 12 2.5 1.1 1.4 0.3 1.4 0.3
1998 11 3.2 1.8 2.1 0.3 1.8 0.0
1998 10 10.2 8.7 8.1 -0.6 8.3 -0.4
1998 9 14.7 13.5 12.0 -1.5 12.6 -0.9
1998 8 19.6 15.1 16.2 1.1 15.7 0.6
1998 7 18.4 14.9 15.2 0.3 15.3 0.4
1998 6 18.8 15 15.5 0.5 15.3 0.3
1998 5 16.3 12.7 13.4 0.7 13.0 0.3
1998 4 10.1 7.6 8.0 0.4 8.3 0.7
1998 3 7.6 4.9 5.9 1.0 4.8 -0.1
1998 2 5 5.1 3.6 -1.5 4.5 -0.6
1998 1 3.5 3.3 2.3 -1.0 2.6 -0.7
Die beiden Parameter 0.864 und -0.711 sind das Ergebnis einer Optimierung: die Summe der
quadratischen Fehler soll minimiert werten! Man erkennt, daß dieses Verfahren seine Probleme hat. Es gibt systematische Abweichungen im Jahresverlauf. Im Frühling ist der Schätzwert gegenüber dem wahren zu groß, im Herbst zu klein. Das Modell der linearen Regression passt hier offenbar nicht so gut. Der Standardabweichung beträgt 1.2K, der Korrelationskoeffizient 95.7%.
Dennoch bleiben wir der Übersicht halber bei der linearen Regression. Man könnte dann als "Basiszeitreihen" weitere Stationen hinzunehmen, um die Schätzung zu verbessern. Das habe ich anhand von Tagestemperaturen vor ein paar Tagen unter
[www.wetter-zentrale.com];
bzw.
<A HREF="http://www.wetter-zentrale.com/cgi-bin/webbbs/wzarchive.pl?read=495767" TARGET="_blank">[
www.wetter-zentrale.com];
demonstriert.
Nun hatten wir die folgende Stufen der Regression:
a) eine Zeitreihe wird mit Hilfe von einer anderen geschätzt und durch 2 Parameter festgelegt
b) eine Zeitreihe (Prädikant) wird mit Hilfe von zwei anderen (Prädiktoren = die obigen Basiszeitreihen) geschätzt und durch 3 Parameter festgelegt
Von diesen Stufen aus kann man verallgemeinern:
c) n Zeitreihen werden mit Hilfe von m geschätzt
Man erkennt, daß die Steigerung der Anzahl m der Prädiktoren eine Verbesserung
der Schätzung liefert. Für jeden Prädikanten ergibt sich ein Satz von m+1 Parametern, die
die entsprechende optimale Regressionsgerade festlegt.
Nun ergibt sich aber ein Dilemma: Mit Steigerung von m erhöhen wir zwar die Genauigkeit der Schätzung aber man benötigt auch eine zunehmende Anzahl empirischer Messreihen. Um das zu umgehen, kann man aber statt wirklicher Stationswerte auch "künstliche" Reihen als Prädiktoren erzeugen, die keine wirklichen Messwerte repräsentieren, sondern nur deren "Struktur" widergeben. Diese Prädiktoren können so optimiert werden, daß man eine Schätzung vergleichbarer Genauigkeit mit viel weniger als m wirkliche Zeitreihen erreichen kann! Die "principal components" sind solche "künstliche" Zeitreihen.
M gemessene empirische Zeitreihen lassen sich als M linear unabhängige Vektoren - keine Zeitreihe x_M (willkürlich sortiert) der M läßt sich i.a. EXAKT als Summe der anderen x_1, x_2, … x_(M-1) - mit geeigneten Parametern a als Vorfaktoren - darstellen, die Gleichung:
x_M = a_1*x_1+a_2*x_2+…a_(M-1)*x_(M-1)
hat KEINE Lösung {a_1, … a_(M-1)}.
Man kann jedoch aus allen M Zeitreihen neue Zeitreihen durch eine solche Linearkombination wie oben erzeugen. Die Regressionsgerade ist eine solche Linearkombination mit optimierten Parametern a_1,…
Das Ziel der Faktorenanalyse ist nun, geeignete Basiszeitreihen (Prädiktoren) als Linearkombinationen zu erzeugen, die alle M Zeitreihen "synchron" schätzen können, also für jede Messreihe eine Schätzreihe liefert. Die Schätzreihe ist dann wiederum eine Linearkombination - nun der Basiszeitreihen - mit optimierten Parametern.
Aus der linearen Algebra folgt, daß M Basiszeitreihen alle M Messzeitreihen EXAKT schätzen können. Damit wäre aber nichts gewonnen, denn dann stünden M gegen M Zeitreihen und man hätte keine Reduktion an Informationen. Das Ziel ist, daß die Zahl der Basiszeitreihen wesentlich geringer als die Zahl der Zeitreihen ist, die sie schätzen sollen, um dafür einen gewissen Fehler hinzunehmen! Das machen gerade die principal components (PC) als Basiszeitreihen. Wie ich gestern zeigte <A HREF="http://www.wetter-zentrale.com/cgi-bin/webbbs/wzarchive.pl?noframes;read=497275" TARGET="_blank">[
www.wetter-zentrale.com];
werden die M=35 Stationsreihen bereits durch 4 PCs (die jeweils dieselbe Werteanzahl = Monate wie die Messreihen haben) gut beschrieben.
In der obigen Tabelle ist als Vergleich die geschätzte Zeitreihe für die Schleswiger Temperatur mit Hilfe der PC1 berechnet (10035pc1). Hier wurde also auch nur eine Zeitreihe als Prädiktor genommen, nur eben statt einer wahren Reihe (wie die Frankfurter) die "künstliche" der PC1. Die Schätzung damit ist besser (Standardabw. 0.83K), da in der PC1 ja Merkmale nicht nur einer Station (wie bei Frankfurt als Prädiktor), sondern aller 35 Stationen (inklusive Schleswig selber) verarbeitet wurden.
Damit erzielt man bei gleichem Datenumfang (jeweils eine Zeitreihe über alle Monaten) des Prädiktors eine größere Genauigkeit der Schätzreihe.
Fokker