Skip to main content

Datenanalyse des EEA-Datensatzes "CO2-Emissionen von Personenkraftwagen"

In dieser Datenanalyse hat Greenpeace die Zulassungsdaten der Europäischen Umweltbehörde EEA für die Jahre 2012 bis 2019 ausgewertet. Anhand der Ergebnisse lassen sich die Folgen der SUV-Strategie deutscher Autohersteller nachzeichnen.

Dokumentation

Die EEA veröffentlicht jedes Jahr den Datensatz "Monitoring of CO2 emissions from passenger cars – Regulation (EU) 2019/631".
Er enthält detaillierte Daten zu jedem in der EU zugelassenen Neuwagen. Die Datenbank beginnt mit dem Jahr 2012 und ist inzwischen auf über 37 Millionen Zeilen (und über 8 GB Daten) angewachsen. Um die Analyse einfacher und schneller zu machen, führen wir eine Methode zur Aggregation des Datensatzes ein. Hier dokumentieren wir die Aggregationsschritte. Wenn Sie mit dem aktuellen aggregierten Datensatz (Provisional 2019) arbeiten möchten, können Sie den in diesem Repository bereitgestellten "aggregated-classified.tsv"-Datensatz verwenden. Wenn Sie ihn selbst aggregieren möchten, müssen Sie die Originaldatensätze von der EUA-Website1 herunterladen und mit den folgenden Schritten fortfahren:


1. Kombination

Alle CSV-Datensätze müssen in eine lokale SQLite-Datenbank importiert werden. Die Spalten des neuesten Datensatzes werden als Vorlage verwendet. Beim Import älterer Datensätze ist es wichtig, die entsprechenden Spalten zuzuordnen, da das Benennungsschema im Laufe der Jahre nicht einheitlich war. Am wichtigsten ist es, dies mit den Emissionsfeldern zu tun.

Nach diesem Schritt sollten Sie eine Tabelle mit dem Namen "all" haben, die alle >37 Mio. Zeilen enthält.

2. Aggregation

Alle Zeilen mit der gleichen eindeutigen Wertekombination aus Jahr, Land, Mk(Hersteller), Cn(Modell) und Ft (Kraftstoffart) werden aggregiert. Nach diesem Schritt besteht die Datenbank nur noch aus 237.776 Zeilen.

Die Aggregation muss mehrfach durchgeführt werden, um die Durchschnittsberechnung von Motorleistung, Gewicht und Emissionen korrekt durchführen zu können. Der Grund dafür ist, dass nicht alle, manchmal sogar mehr als die Hälfte einer bestimmten eindeutigen Schlüsselkombination keine Werte in den entsprechenden Datenfeldern haben. Um die Durchschnittsberechnung korrekt durchzuführen, müssen wir nur die Zeilen aggregieren und berechnen, in denen das angegebene Datenfeld nicht leer ist, und dabei die Zahl "Anzahl der Fahrzeuge mit Daten/Gesamtzahl der Fahrzeuge", genannt "_coverage", im Auge behalten. Nach den Berechnungen aggregieren wir erneut alle Tabellen. Die Details zu diesen Berechnungen finden Sie in der Datei "aggreagte.sql".

3. Klassifizierung

Nun werden die aggregierten Tabellen klassifiziert. Ein Großteil unserer Analysen basiert auf spezifischen Fahrzeuggruppen. Die Zusammenführung dieser Gruppen ist oft nicht trivial und erfordert eine Menge Feinabstimmung. Daher führen wir 3 Klassifizierungsgruppen ein:

class1: manufacturer pools

class2: car type groups (such as SUV / normal)

class3: car modell groups (i.e. S-Class Mercedes)

Die detaillierten Schritte der Klassifizierung sind in "classify.sql" zu finden.

Weiterführende Information

Daten und Ressourcen

Zitieren als

Benjamin Stephan (2024). Datenanalyse des EEA-Datensatzes "CO2-Emissionen von Personenkraftwagen" [Data set]. Greenpeace e.V.. https://doi.org/10.60813/vx5cmoo9
Retrieved: 17:27 18 Apr 2024 (UTC)

Zusätzliche Informationen

Feld Wert
Autor:in Benjamin Stephan
Verantwortliche:r Benjamin Stephan
Zuletzt aktualisiert Februar 7, 2024, 09:41 (UTC)
Erstellt Februar 7, 2024, 09:39 (UTC)