Datenanalyse des EEA-Datensatzes "CO2-Emissionen von Personenkraftwagen"
Dokumentation
Die EEA veröffentlicht jedes Jahr den Datensatz "Monitoring of CO2 emissions from passenger cars – Regulation (EU) 2019/631".
Er enthält detaillierte Daten zu jedem in der EU zugelassenen Neuwagen. Die Datenbank beginnt mit dem Jahr 2012 und ist inzwischen auf über 37 Millionen Zeilen (und über 8 GB Daten) angewachsen. Um die Analyse einfacher und schneller zu machen, führen wir eine Methode zur Aggregation des Datensatzes ein. Hier dokumentieren wir die Aggregationsschritte. Wenn Sie mit dem aktuellen aggregierten Datensatz (Provisional 2019) arbeiten möchten, können Sie den in diesem Repository bereitgestellten "aggregated-classified.tsv"-Datensatz verwenden. Wenn Sie ihn selbst aggregieren möchten, müssen Sie die Originaldatensätze von der EUA-Website1 herunterladen und mit den folgenden Schritten fortfahren:
1. Kombination
Alle CSV-Datensätze müssen in eine lokale SQLite-Datenbank importiert werden. Die Spalten des neuesten Datensatzes werden als Vorlage verwendet. Beim Import älterer Datensätze ist es wichtig, die entsprechenden Spalten zuzuordnen, da das Benennungsschema im Laufe der Jahre nicht einheitlich war. Am wichtigsten ist es, dies mit den Emissionsfeldern zu tun.
Nach diesem Schritt sollten Sie eine Tabelle mit dem Namen "all" haben, die alle >37 Mio. Zeilen enthält.
2. Aggregation
Alle Zeilen mit der gleichen eindeutigen Wertekombination aus Jahr, Land, Mk(Hersteller), Cn(Modell) und Ft (Kraftstoffart) werden aggregiert. Nach diesem Schritt besteht die Datenbank nur noch aus 237.776 Zeilen.
Die Aggregation muss mehrfach durchgeführt werden, um die Durchschnittsberechnung von Motorleistung, Gewicht und Emissionen korrekt durchführen zu können. Der Grund dafür ist, dass nicht alle, manchmal sogar mehr als die Hälfte einer bestimmten eindeutigen Schlüsselkombination keine Werte in den entsprechenden Datenfeldern haben. Um die Durchschnittsberechnung korrekt durchzuführen, müssen wir nur die Zeilen aggregieren und berechnen, in denen das angegebene Datenfeld nicht leer ist, und dabei die Zahl "Anzahl der Fahrzeuge mit Daten/Gesamtzahl der Fahrzeuge", genannt "_coverage", im Auge behalten. Nach den Berechnungen aggregieren wir erneut alle Tabellen. Die Details zu diesen Berechnungen finden Sie in der Datei "aggreagte.sql".
3. Klassifizierung
Nun werden die aggregierten Tabellen klassifiziert. Ein Großteil unserer Analysen basiert auf spezifischen Fahrzeuggruppen. Die Zusammenführung dieser Gruppen ist oft nicht trivial und erfordert eine Menge Feinabstimmung. Daher führen wir 3 Klassifizierungsgruppen ein:
class1: manufacturer pools
class2: car type groups (such as SUV / normal)
class3: car modell groups (i.e. S-Class Mercedes)
Die detaillierten Schritte der Klassifizierung sind in "classify.sql" zu finden.