Die TREE Daten umfassen einen Zeitraum von 2003 bis 2014. Insgesamt wurden in 9 Befragungswellen Millionen Datenpunkte erhoben, um eine längsschnittliche Untersuchung von Schulabgängern aus der ganzen Schweiz zu ermöglichen. Der Startzeitpunkt für die erste Befragungswelle bildete der Austritt aus der obligatorischen Schule, bei welchem die Teilnehmenden zwischen 15 und 16 Jahre alt waren. Die untersuchten Forschungsgegenstände waren hauptsächlich Ausbildungs- und Erwerbsverläufe, sowie die Transition vom Schulaustritt in das Erwachsenenleben. Das längsschnittliche Untersuchungsdesign erlaubt es, Bildungsungleichheit, Arbeitsmarktintegration, Gesundheit sowie die hier gestellte Frage nach den Ursachen und Entwicklungen der Zufriedenheit zu untersuchen. Aufgrund der Grösse der Studie umfasst jede Befragungswelle eine eigene Dokumentation und Millionen von Datenpunkten. Alle Unterlagen und Daten sind unter der scientific/public Lizenz öffentlich verfügbar und können direkt von FORSbase heruntergeladen werden. Auf der Webseite des TREE Projekts befinden sich weitere Informationen sowie der aktuellste Stand der Forschung. Das TREE Projekt wird zudem in der Story genauer vorgestellt.
In jeder Befragungswelle werden 1 bis 2 Millionen Datenpunkte erhoben. Die Stichproben bestehen
jeweils aus einer Vielzahl von Variablen
aus verschiedenen Lebensbereichen, wie demographische Angaben, Personenmerkmale, Ausbildung und
Erwerbstätigkeit. Eine vertieftere Ausführung
der TREE Daten und Variablen wird in der Story aufgelistet. Für die Visualisierung wurden aus
verschiedenen Lebensbereichen viele dieser Variablen
ausgewählt, um möglichst umfassende Aussagen zur Ursache und Entwicklung der
Zufriedenheit zu treffen. Für die Visualisierung
mussten die Daten in fünf Bereinigungs- und Transformationsschritten aufbereitet werden. Das
folgende Python-Skript enthält alle Funktionen, um jeden
Transformationsschritt auszuführen.
In einem ersten Schritt werden die Daten heruntergeladen. Alle Datensätze und Befragungszeitpunkte sind öffentlich unter der scientific/public Lizenz verfügbar. Sowohl die beiden Dateiformate (.dat und .spss), welche von FORSbase angeboten werden, wie auch frei wählbare weitere Formate werden vom Python-Skript unterstützt. In einem nächsten Schritt muss festgelegt werden, welche Variablen untersucht werden sollen. In dieser Visualisierung wurden die zwei Befragungszeitpunkte 2010 (T8) und 2014 (T9) sowie die Grundstichprobe (PISA) betrachtet. Dabei werden 34 Variablen aus verschiedenen Lebensbereichen der Teilnehmenden analysiert. Diese Variablen bieten sich an, um ein umfassendes Bild der Ursachen und Auswirkungen auf die Zufriedenheit von einzelnen Personengruppen zu erhalten.
In einem zweiten Schritt werden die Daten manipuliert. Ein Grossteil der Daten wird auf
Kategorial- und Intervallniveau (Beurteilungsskalen)
erhoben. Bei den Variablen 'Selbstwirksamkeit', 'Selbstwert' und 'Positive Lebenseinstellung'
beantworteten die Teilnehmenden jeweils vier Fragen
auf einer Skala von 1-5. Für diese Visualisierung wurde für jede Kategorialvariable der
Mittelwert aus allen der Variable zugeordneten Fragen (Items)
berechnet. Dies ergibt einen Schätzer für die untersuchte Variable. Damit sich aus den
berechneten Werten Aussagen ableiten lassen, wurden die Werte
gerundet und befinden sich somit wieder auf der ursprünglichen Intervallskala. Variablen mit
metrischen Skalen, etwa das Einkommen, wurden kategorisiert,
um die Anzahl der möglichen Kategorien zu reduzieren. Um die Aussagekraft weiterhin zu
gewährleisten, wurden in diesem Skript die Einkommensklassen des Bundesamts für Statistik
verwendet. Die gesamte TREE Studie besteht aus 9 Befragungswellen, welche sich in 9
verschiedenen Dateien befinden. In einem weiteren Schritt werden deshalb
die einzelnen Dateien zusammengeführt. Jeder Teilnehmende erhielt bei der ersten Befragungswelle
eine eineindeutige Identifikationsnummer, anhand derer alle Dateien
zusammengeführt werden können.
In einem dritten Schritt werden die fehlenden Werte (missing values) behandelt. Die fehlenden Werte in der abhängigen Variable (Zufriedenheit) können nicht abgebildet werden. Deshalb wird im Folgenden untersucht, ob es sich um systematische Fehlwerte handelt. Die Tabelle bildet die fehlenden Werte für jeden Bereich der Zufriedenheit in den beiden Befragungswellen 2010 und 2014 ab.
Zufriedenheit | T8 (2010) | T9 (2014) |
---|---|---|
Erwerbstätigkeit | 0.796% | 1.116% |
Ausbildung | 0.760% | 1.116% |
Partnerschaft/Kinder | 0.796% | 1.347% |
Gesellschaftliche Aktivitäten | 0.760% | 1.270% |
Freizeit | 0.687% | 1.000% |
Die fehlenden Werte betragen in keinem Befragungszeitpunkt mehr als 1.2% der Grundmenge. Sie sind somit keine systematisch fehlenden Werte und können aus den Daten entfernt werden.
TREE erzielte in den neun Befragungen 2001 bis 2014 wellenspezifische Rücklaufquoten von 71-89%
(genauere Informationen und Abbildung hier). Wie bei einer Längsschnitterhebung üblich, bildet sich
über
die
Zeitspanne eine Stichprobenverzerrung. Um die Repräsentativität über den gesamten
Beobachtungszeitraum zu gewährleisten, wurde für jede Person
zu jedem Stichprobenzeitpunkt eine Längsschnittgewichtung berechnet. Eine Person kann somit
mehrere Personen einer bestimmten Personengruppe
repräsentieren, welche eine kleinere Rücklaufquote hatte. Somit bleiben die Ergebnisse über den
gesamten Zeitraum vergleichbar. Für jede
Personengruppe kann die Zufriedenheit mit der folgenden Formel berechnet werden:
Die Berechnung erfolgt in 5 Schritten:
1) Wähle eine Variable aus und berechne die Menge aller Personen (Personengruppe), die zu jeder
möglichen
Ausprägung der Variable gehört.
2) Berechne für jede Person in einer Personengruppe einen neuen Wert, indem die Zufriedenheit
mit dem Gewicht multipliziert wird.
3) Bilde die Summe der neuen Werte für alle Personen innerhalb der Personengruppe.
4) Bilde die Summe aller Gewichte für alle Personen innerhalb der Personengruppe.
5) Dividiere die Summe von 3) durch die Summe von 4) für einen gewichteten Zufriedenheitswert
der Personengruppe.
In einem fünften Schritt werden die Daten anonymisiert. Um einen Rückschluss auf die Teilnehmenden auszuschliessen, werden die Identifikationsnummern aus Datenschutzgründen durch eine Zufallszahl ersetzt. In einem letzten Schritt können die Daten heruntergeladen werden. Das Python-Skript erlaubt die Auswahl beliebig vieler Dateiformate. Im Folgenden können die nach dem Transformationsprozess bereinigten Dateien heruntergeladen werden.
Nachfolgend können die Daten aus den Befragungswellen 2010 und 2014 in verschiedenen
Dateiformaten heruntergeladen werden. In den
Visualisierungen
können die Daten zudem direkt
in einer Tabelle gefiltert und heruntergeladen werden. Die folgenden Daten ergeben sich, nachdem
die Originaldaten von FORSbase
mit dem Python-Skript transfomiert wurden.