Theorie: Verdichten von Daten

1. Verdichtung der Daten für die Präsentation

Der Prozess der Verdichtung von Daten, oder Datenkondensation, zielt darauf ab, komplexe Datensätze zu vereinfachen, um wesentliche Informationen hervorzuheben. Das Ziel ist es, grosse Datenmengen handhabbarer und verständlicher zu machen. Zum Beispiel könnte bei einer nationalen Gesundheitsumfrage, die umfangreiche Daten zu Hunderten oder Tausenden von Variablen sammelt, die Datenkondensation darin bestehen, diese Informationen in Schlüsselindikatoren für die Gesundheit zu zusammenzufassen, die einen Überblick über den allgemeinen Gesundheitszustand der Bevölkerung bieten (z.B. mit dem Body-Mass-Index BMI).

Die Datenkondensation kann auch die Segmentierung (Aufsplitterung) von Daten umfassen, um die Analyse auf bestimmte Untergruppen zu beschränken. Zum Beispiel könnten in einer Umfrage zur Beurteilung der öffentlichen Meinung zum Klimawandel die Antworten nach demografischen Faktoren wie Alter, Bildungsniveau oder geografischem Standort zusammengefasst werden. Damit wird ein einfacher Vergleich der Haltungen und Meinungen zwischen den gewählten Untergruppen ermöglicht. Oder eine Schule möchte weitere Informationen über Schüler erhalten, die Gefahr laufen, durch ungenügende Noten ihre Klassen nicht zu bestehen. Damit hat die Schule die Möglichkeit, sich auf diejenigen Schüler konzentrieren und allfällige Massnahmen einzuleiten.

Dieser Prozess erleichtert nicht nur die Klarheit der Datenanalyse, sondern auch die Präsentation der Ergebnisse. Durch die Kondensation von Daten ist es möglich, komplexe Ergebnisse effektiver an die unterschiedlichen Interessengruppen, Entscheidungsträger zu kommunizieren und sicherstellen, dass die wichtigsten Botschaften nicht in der Vielzahl von detaillierten Daten verloren gehen.

In dem unten stehenden Beispiel ist zu sehen, dass Ticketcorner einen korrekten Graphen gezeichnet hat und alle richtigen Elemente darauf zu sehen sind. Allerdings wäre es wirkungsvoller, wenn der Graph ein wenig verändert würde, um die Preisschwankungen deutlicher aufzuzeigen. Die Preise liegen nah beieinander und sind nur anhand der Werte und nicht des Graphen wirklich zu unterscheiden. Ausserdem können wir den absoluten Wert des Preises gar nicht beurteilen (was ist der unterste Preis? Ist der Preis überhaupt konkurrenzfähig?) Daher ist die Aussagekraft dieses Diagramms überhaupt nicht optimal in dieser Form zwinkernd

2. Methoden der Verdichtung und Darstellung von Informationen

Histogramme

Ein Histogramm ist ein Diagrammtyp, der verwendet wird, um die Verteilung von Daten zu zeigen. Es besteht aus einer Reihe von Balken, wobei jeder Balken die Häufigkeit oder Anzahl von Datenpunkten in einem bestimmten Intervall (sog. Bins) darstellt. Histogramme helfen, Muster oder Trends in den Daten zu erkennen, indem sie zeigen, welche Werte häufiger oder seltener auftreten.

Die x-Achse repräsentiert die Bins (Intervalle), in die die Datenpunkte gruppiert werden. Die y-Achse repräsentiert die Häufigkeit der Datenpunkte innerhalb jedes Bins (Intervalls).

Unterschied zu Balkendiagramme:

  • Ein Balkendiagramm ist eine Art Grafik, die verwendet wird, um verschiedene Kategorien visuell miteinander zu vergleichen. Jede Kategorie wird durch eine Linie oder einen Balken dargestellt, dessen Länge den Wert oder die Häufigkeit der Kategorie repräsentiert. Diese Diagramme sind nützlich, um schnell zu sehen, wie sich verschiedene Dinge zueinander verhalten, indem man sie einfach miteinander vergleicht.

  • Histogramme zeigen, wie oft verschiedene Werte oder Gruppen von Werten in einem Datensatz vorkommen.

Beispiel: Stell dir vor, du hast Verkaufsdaten für 1000 Transaktionen und möchtest die Verteilung der Transaktionswerte verstehen. Durch die Erstellung eines Histogramms der Transaktionswerte könntest du zum Beispiel sehen, dass der Wert der meisten Transaktionen im Bereich von 50 bis 100CHF liegt, während nur sehr wenige Transaktionen über 500CHF getätigt wurden. Diese Erkenntnis könnte bei der Festlegung gezielter Marketingstrategien helfen.

Pivot-Tabellen

Pivot-Tabellen sind ein fortgeschrittenes und flexibles Werkzeug für Datenanalyse und -zusammenfassung. Sie ermöglichen es dir, Daten dynamisch umzustrukturieren, zu gruppieren und zusammenzufassen, sodass komplexe Datenanalyseaufgaben auf verschiedene Weise ohne Änderung des Originaldatensatzes einfach durchzuführen sind.

Beispiel: Pivot Tabelle -- Studyflix

Aggregation

Aggregation in der Datenanalyse bedeutet, mehrere Datenstücke zu kombinieren, um ein zusammenfassendes Ergebnis zu erzielen. Die Aggregation reduziert die Datenkomplexität und macht die Analyse handhabbarer. Häufige Aggregationsfunktionen sind Summe, Durchschnitt, Minimum, Maximum, Anzahl und Median.

Häufigkeitstabellen

Häufigkeitstabellen zeigen, wie oft jeder Wert in einer Datenmenge vorkommt. Sie sind ein wichtiges Werkzeug für die erste Datenanalyse, da sie helfen, Muster und Anomalien in der Datenverteilung zu identifizieren.

Beispiel: Eine Universität führt eine Umfrage durch, um die musikalischen Vorlieben ihrer Studenten zu verstehen. Die Umfrageergebnisse werden mit dem Ziel gesammelt, zukünftige kulturelle Veranstaltungen und Musik-Konzerte auf dem Campus zu organisieren. Nachdem Antworten von 1.000 Studenten gesammelt wurden, enthalten die Umfragedaten die folgenden Musikgenres: Pop, Rock, Klassik, Jazz und Hip-Hop.

Last updated