Daten

Woher kann ich die Daten bekommen?

Original

Die TREE Daten umfassen einen Zeitraum von 2003 bis 2014. Insgesamt wurden in 9 Befragungswellen Millionen Datenpunkte erhoben, um eine längsschnittliche Untersuchung von Schulabgängern aus der ganzen Schweiz zu ermöglichen. Der Startzeitpunkt für die erste Befragungswelle bildete der Austritt aus der obligatorischen Schule, bei welchem die Teilnehmenden zwischen 15 und 16 Jahre alt waren. Die untersuchten Forschungsgegenstände waren hauptsächlich Ausbildungs- und Erwerbsverläufe, sowie die Transition vom Schulaustritt in das Erwachsenenleben. Das längsschnittliche Untersuchungsdesign erlaubt es, Bildungsungleichheit, Arbeitsmarktintegration, Gesundheit sowie die hier gestellte Frage nach den Ursachen und Entwicklungen der Zufriedenheit zu untersuchen. Aufgrund der Grösse der Studie umfasst jede Befragungswelle eine eigene Dokumentation und Millionen von Datenpunkten. Alle Unterlagen und Daten sind unter der scientific/public Lizenz öffentlich verfügbar und können direkt von FORSbase heruntergeladen werden. Auf der Webseite des TREE Projekts befinden sich weitere Informationen sowie der aktuellste Stand der Forschung. Das TREE Projekt wird zudem in der Story genauer vorgestellt.




Transformation

In jeder Befragungswelle werden 1 bis 2 Millionen Datenpunkte erhoben. Die Stichproben bestehen jeweils aus einer Vielzahl von Variablen aus verschiedenen Lebensbereichen, wie demographische Angaben, Personenmerkmale, Ausbildung und Erwerbstätigkeit. Eine vertieftere Ausführung der TREE Daten und Variablen wird in der Story aufgelistet. Für die Visualisierung wurden aus verschiedenen Lebensbereichen viele dieser Variablen ausgewählt, um möglichst umfassende Aussagen zur Ursache und Entwicklung der Zufriedenheit zu treffen. Für die Visualisierung mussten die Daten in fünf Bereinigungs- und Transformationsschritten aufbereitet werden. Das folgende Python-Skript enthält alle Funktionen, um jeden Transformationsschritt auszuführen.



01

Auswahl

In einem ersten Schritt werden die Daten heruntergeladen. Alle Datensätze und Befragungszeitpunkte sind öffentlich unter der scientific/public Lizenz verfügbar. Sowohl die beiden Dateiformate (.dat und .spss), welche von FORSbase angeboten werden, wie auch frei wählbare weitere Formate werden vom Python-Skript unterstützt. In einem nächsten Schritt muss festgelegt werden, welche Variablen untersucht werden sollen. In dieser Visualisierung wurden die zwei Befragungszeitpunkte 2010 (T8) und 2014 (T9) sowie die Grundstichprobe (PISA) betrachtet. Dabei werden 34 Variablen aus verschiedenen Lebensbereichen der Teilnehmenden analysiert. Diese Variablen bieten sich an, um ein umfassendes Bild der Ursachen und Auswirkungen auf die Zufriedenheit von einzelnen Personengruppen zu erhalten.

02

Manipulation

In einem zweiten Schritt werden die Daten manipuliert. Ein Grossteil der Daten wird auf Kategorial- und Intervallniveau (Beurteilungsskalen) erhoben. Bei den Variablen 'Selbstwirksamkeit', 'Selbstwert' und 'Positive Lebenseinstellung' beantworteten die Teilnehmenden jeweils vier Fragen auf einer Skala von 1-5. Für diese Visualisierung wurde für jede Kategorialvariable der Mittelwert aus allen der Variable zugeordneten Fragen (Items) berechnet. Dies ergibt einen Schätzer für die untersuchte Variable. Damit sich aus den berechneten Werten Aussagen ableiten lassen, wurden die Werte gerundet und befinden sich somit wieder auf der ursprünglichen Intervallskala. Variablen mit metrischen Skalen, etwa das Einkommen, wurden kategorisiert, um die Anzahl der möglichen Kategorien zu reduzieren. Um die Aussagekraft weiterhin zu gewährleisten, wurden in diesem Skript die Einkommensklassen des Bundesamts für Statistik verwendet. Die gesamte TREE Studie besteht aus 9 Befragungswellen, welche sich in 9 verschiedenen Dateien befinden. In einem weiteren Schritt werden deshalb die einzelnen Dateien zusammengeführt. Jeder Teilnehmende erhielt bei der ersten Befragungswelle eine eineindeutige Identifikationsnummer, anhand derer alle Dateien zusammengeführt werden können.

03

Missing Values

In einem dritten Schritt werden die fehlenden Werte (missing values) behandelt. Die fehlenden Werte in der abhängigen Variable (Zufriedenheit) können nicht abgebildet werden. Deshalb wird im Folgenden untersucht, ob es sich um systematische Fehlwerte handelt. Die Tabelle bildet die fehlenden Werte für jeden Bereich der Zufriedenheit in den beiden Befragungswellen 2010 und 2014 ab.


Zufriedenheit T8 (2010) T9 (2014)
Erwerbstätigkeit 0.796% 1.116%
Ausbildung 0.760% 1.116%
Partnerschaft/Kinder 0.796% 1.347%
Gesellschaftliche Aktivitäten 0.760% 1.270%
Freizeit 0.687% 1.000%

Die fehlenden Werte betragen in keinem Befragungszeitpunkt mehr als 1.2% der Grundmenge. Sie sind somit keine systematisch fehlenden Werte und können aus den Daten entfernt werden.

04

Gewichtung

TREE erzielte in den neun Befragungen 2001 bis 2014 wellenspezifische Rücklaufquoten von 71-89% (genauere Informationen und Abbildung hier). Wie bei einer Längsschnitterhebung üblich, bildet sich über die Zeitspanne eine Stichprobenverzerrung. Um die Repräsentativität über den gesamten Beobachtungszeitraum zu gewährleisten, wurde für jede Person zu jedem Stichprobenzeitpunkt eine Längsschnittgewichtung berechnet. Eine Person kann somit mehrere Personen einer bestimmten Personengruppe repräsentieren, welche eine kleinere Rücklaufquote hatte. Somit bleiben die Ergebnisse über den gesamten Zeitraum vergleichbar. Für jede Personengruppe kann die Zufriedenheit mit der folgenden Formel berechnet werden:

Transformation

Die Berechnung erfolgt in 5 Schritten:

1) Wähle eine Variable aus und berechne die Menge aller Personen (Personengruppe), die zu jeder möglichen Ausprägung der Variable gehört.

2) Berechne für jede Person in einer Personengruppe einen neuen Wert, indem die Zufriedenheit mit dem Gewicht multipliziert wird.

3) Bilde die Summe der neuen Werte für alle Personen innerhalb der Personengruppe.

4) Bilde die Summe aller Gewichte für alle Personen innerhalb der Personengruppe.

5) Dividiere die Summe von 3) durch die Summe von 4) für einen gewichteten Zufriedenheitswert der Personengruppe.

05

Download

In einem fünften Schritt werden die Daten anonymisiert. Um einen Rückschluss auf die Teilnehmenden auszuschliessen, werden die Identifikationsnummern aus Datenschutzgründen durch eine Zufallszahl ersetzt. In einem letzten Schritt können die Daten heruntergeladen werden. Das Python-Skript erlaubt die Auswahl beliebig vieler Dateiformate. Im Folgenden können die nach dem Transformationsprozess bereinigten Dateien heruntergeladen werden.

Download

Nachfolgend können die Daten aus den Befragungswellen 2010 und 2014 in verschiedenen Dateiformaten heruntergeladen werden. In den Visualisierungen können die Daten zudem direkt in einer Tabelle gefiltert und heruntergeladen werden. Die folgenden Daten ergeben sich, nachdem die Originaldaten von FORSbase mit dem Python-Skript transfomiert wurden.