Was ist ein Datenpunkt – Definition, Typen und Beispiele

Carsten Hack

vor 3 Jahren

Datenpunkte, auch bekannt als Datenelemente, sind der kleinste Zustand von Daten. Konzeptionell kann man sie sich als eine Zelle in einer Datentabelle oder als eine Information über eine Beobachtung zu einem bestimmten Zeitpunkt vorstellen.

Auf den ersten Blick scheinen sie so einfach zu sein, dass viele Analytiker sie ohne weiteres übersehen. Datenpunkte können jedoch aufgrund der eingeschränkten Sichtbarkeit auf der Ebene der Datenerfassung und des suboptimalen Ausschlusses durch Aggregationen heikel sein.

In diesem Artikel werden (1) Datenpunkte definiert, (2) verschiedene Typen untersucht und (3) Beispiele gegeben. Außerdem wird auf die wichtigen Punkte (4) „unbekannte Unbekannte“ aufgrund der Datenerfassung und (5) Repräsentativität durch Aggregation eingegangen.

Eine kurze Anmerkung zum Inhalt. In der Elektronik und bei Kabelnetzen, in der Regel im Vereinigten Königreich und in Australien, bezieht sich der Begriff „Datenpunkt“ auf einen Zugangspunkt oder eine Steckdose für Kabel oder Telefonleitungen in einem Haus. Elektrische Datenpunkte sind nicht der Gegenstand dieses Artikels.

Definition von Datenpunkten

Im Allgemeinen ist jede Tatsache oder Information ein Datenpunkt.

In der Datenanalyse und Statistik ist ein Datenpunkt eine Information, die eine Beobachtungseinheit zu einem bestimmten Zeitpunkt auf der Ebene der Datenerfassung beschreibt. Meistens erscheint er als eine Zelle in einer Datentabelle.

Oxford Languages definiert einen Datenpunkt als „ein identifizierbares Element in einem Datensatz“, was jedoch nicht ganz korrekt ist. Während ein Datenpunkt ein identifizierbares Element in einem Datensatz ist, ist auch jede Zeile (auch „Record“ oder „Tupel“ genannt) ein identifizierbares Element, aber kein Datenpunkt. Zeilen sind vielmehr Sammlungen von Datenpunkten.

Darüber hinaus sollten Datenpunkte nicht mit Informationsbits auf der Ebene der Datenanalyse verwechselt werden, bei der gesammelte Daten oft aggregiert werden, um Erkenntnisse zu gewinnen, die aber nicht den eigentlichen Datenpunkt der Daten darstellen.

Die Beobachtungseinheit

Datenpunkte lassen sich am besten vor dem Hintergrund von Beobachtungseinheiten verstehen. Eine Beobachtungseinheit sind die „Dinge“, die Ihre Daten beschreiben. Stellen Sie sich vor, Sie sammeln Daten über Schmetterlinge. Jeder Schmetterling ist eine Beobachtungseinheit.

Sie können Informationen wie den Kontinent, auf dem der Schmetterling vorkommt, die Farbe seiner Flügel, sein Gewicht und seine Geschwindigkeit erfassen. Jede dieser Informationen wird als Dimension bezeichnet, und jeder Eintrag in einer Zelle ist ein Datenpunkt. Jeder Datenpunkt beschreibt die Beobachtungseinheit (aka jeden Schmetterling).

Beispiele für Datenpunkte, anhand von Schmetterlings-Beobachtungen

Arten von Datenpunkten

Datenpunkte sind entweder Wörter, Zahlen oder andere Symbole. Dies sind die Arten von Datenpunkten, die wir in Datentabellen erstellen und von dort abfragen. In den meisten Programmen sind die folgenden fünf Typen üblich:

Integer – jede Zahl ohne Dezimalpunkt
Datum – ein Datum eines bestimmten Jahres und Monats
Zeit – die Tageszeit
Text – oft als „String“ bezeichnet, bedeutet einfach eine beliebige Kombination von Buchstaben anstelle von Zahlen oder anderen Symbolen
Boolesch – Daten, die WAHR oder FALSCH sind, werden oft als YES- oder NO-Text oder als 1 und 0-Zahlen dargestellt. Einfach ausgedrückt handelt es sich um binäre Daten.

Dies sind einfache, übersichtliche Datenpunkttypen, die jedoch bei weitem nicht vollständig sind. In der Tat können wir mit der folgenden Liste tiefer gehen:

Numerische Datenelementtypen

Integer – jede Zahl, die keine Dezimalzahl ist. Beispiele sind -11, 34, 0, 100
Tinyint – eine ganze Zahl, aber nur Zahlen von 0 bis 255
Bigint – eine ganze Zahl größer als 1 Billion
Float – Zahlen, die zu groß sind, um sie auszuschreiben, und für die man die wissenschaftliche Methode anwenden muss
Real – jeder feste Punkt auf einer Linie

Datums- und Zeitdatenelementtypen

Datum – das Datum, sortiert in verschiedenen Formen, einschließlich „mm/dd/yyyy“ (USA), „dd/mm/yyyy“ (Europa), „mmmm dd, yyyy“ und „mm-dd-yy“ und viele mehr.
Uhrzeit – die Tageszeit, aufgeschlüsselt bis zu Millisekunden
Datumszeit – der Datums- und Zeitwert eines Ereignisses
Zeitstempel – speichert die Anzahl der verstrichenen Sekunden seit 1970-01-01 00:00:00′ UTC
Jahr – speichert Jahre von 1901 bis 2155 in zweistelligen oder vierstelligen Bereichen

Zeichen- und Zeichenketten-Datenelementtypen

Char – feste Länge der Zeichen, maximal 8.000
Varchar – max. 8.000 Zeichen wie char, aber jeder Eintrag kann eine andere Länge haben (variabel)
Text – ähnlich wie varchar, aber die maximale Länge beträgt 2 GB anstelle einer bestimmten Länge

Unicode-Zeichen- und String-Elementtypen

Unicode ist eine Art der Strukturierung von Daten in Form von U+0000, wobei die 0 ein beliebiger Typ sein kann

nchar – feste Länge mit einer maximalen Länge von 8.000 Zeichen
nvarchar – variable Länge mit maximal 8.000 Zeichen
ntext – Speicher mit variabler Länge, nur dass die maximale Länge jetzt 1 GB beträgt und nicht mehr eine bestimmte Länge

Binäre Datenelementtypen

Eine Kombination aus 0en und 1en

binary – feste Länge mit maximal 8.000 Bytes
varbinary – Speicherung mit variabler Länge und maximal 8.000 Bytes

Weitere Typen von Datenelementen

clob – auch bekannt als Character Large Object, ist ein Typ von Unterzeichen, der Unicode-Texte mit bis zu 2 GB speichert
blob – enthält große Binärobjekte
xml – ein spezieller Datentyp, der XML-Daten speichert. XML steht für Extensible Markups Language und ist in Datenbanken weit verbreitet.

Datenpunkt vs. Datensatz

In einem anderen Artikel über den Datensatz erkläre ich, dass es sich bei Datensätzen nicht nur um Datentabellen handelt, sondern auch um eine Sammlung von einem oder mehreren Datenobjekten (einschließlich Tabellen), die entweder am selben Ort gespeichert sind ODER sich auf dasselbe Thema beziehen.

Wir haben bereits über Datenpunkte in Datentabellen gesprochen und gezeigt, dass ein Punkt eine Zelle darstellt. Dieselbe Logik gilt für alle Datenobjekte, die einen Datensatz bilden.

In einem Array, Record oder Set stellt ein Punkt 1 Zelle dar. In einem Zeigerobjekt, das als Dimension geschrieben ist, stellen Punkte ebenfalls 1 Zelle dar. In einem skalaren Objekt ist der einzelne Wert des Skalars ein Daten-Punkt.

In Dateien und Schemata gibt es keine Datenpunkte. Dies liegt in der Natur dieser Objekte begründet. Eine Datei ist ein Code, der geschrieben wurde, um die korrekte Struktur eines anderen Datenobjekts zu gewährleisten, und könnte in gewissem Sinne als Nicht-Datenobjekt betrachtet werden.

Schemata sind Zusammenfassungen anderer Objekte, und sie ignorieren Punkte völlig, um Objektinhalte schnell zu kommunizieren.

Datenpunkt vs. Datenattribut

Ein Datenattribut ist ein Synonym für eine Datendimension. Es ist die Überschrift einer Spalte in einer Tabelle. In dem Beispiel mit den Schmetterlingsdaten ist die Flügelfarbe ein Attribut.

Datenpunkte sind also ein einzelner Werteintrag eines Attributs.

Datenpunkt vs. Datenfeld

Ein Datenfeld ist gleichbedeutend mit einem Datenattribut, obwohl es auf eine etwas andere Weise verwendet wird. „Feld“ bezieht sich in der Regel auf die Spalte in einer Tabelle selbst, während sich „Attribut“ in der Regel auf die Spalte bezieht, wenn wir über eine bestimmte Zeile sprechen.

Zum Beispiel würde man sagen, dass „Farbe der Flügel“ ein Datenfeld ist, aber man würde sagen „das Attribut Farbe der Flügel für Monarchfalter ist orange“.

Außerdem hat „Feld“ im Kontext von Programmiersprachen eine technische Bedeutung, die „Attribut“ nicht hat.

Beobachtungseinheit vs. Analyseeinheit

Die häufigste Ursache für Verwirrung im Zusammenhang mit Datenpunkten ist der Unterschied zwischen Beobachtungseinheiten und Analyseeinheiten.

Analyseeinheiten sind die einzelnen Zeilen, die nach der Analyse und Aggregation der Daten in einer Datentabelle vorhanden sind. Wie bereits erwähnt, sind Beobachtungseinheiten jede Zeile, die eine Sammlung von Datenpunkten im Basisdatensatz darstellt.

Nehmen wir unser Beispiel mit den Schmetterlingen: Unsere Analyseeinheit ist „Kontinente, auf denen sie vorkommen“, und wir möchten wissen, wie viele Farben und Schmetterlinge auf diesen Kontinenten vorkommen. So würde es in der Ansicht „Beobachtungseinheit“ und in der Ansicht „Analyseeinheit“ aussehen:

Gegenüberstellung von Beobachtungseinheit und Analyseeinheit

Wie Sie sehen können, zählt die analytische Ansicht die Anzahl der Schmetterlinge und die Farben der Flügel, die auf jedem Kontinent vorkommen. Dabei handelt es sich um eine Aggregation, und jetzt fehlen die ursprünglichen Datenpunkte.

Die Entfernung der Originaldaten zu Analysezwecken ist notwendig, um Erkenntnisse aus Big Data zu gewinnen, aber es gibt eine Debatte darüber, wann dies getan werden sollte und wann nicht. Der nächste kurze Abschnitt befasst sich mit diesem und anderen wichtigen Risiken.

Einschränkungen bei der Datenerfassung und Darstellung durch Aggregation

Darstellung durch Aggregation

Wie wir gesehen haben, kann die Darstellung von Datenpunkten auf der analytischen Ebene zu einer Herausforderung werden, da bei jeder Aggregation, die wir wählen, einige Datenpunkte entfernt werden. Mit anderen Worten: Analysten treffen Entscheidungen darüber, wie Datenpunkte behandelt werden sollen, und dies wirkt sich auf unser Verständnis der Daten aus.

Um die Auswirkungen dieser Entscheidungen zu verstehen, muss man nicht bis zu den moralischen oder ethischen Konsequenzen vordringen.

Der Leser Ihrer Analyse wird in die Richtung beeinflusst, die Sie ihm mitteilen (es sei denn, er führt die vollständige Analyse selbst durch, was in Unternehmen selten geschieht und Datenanalysten überflüssig machen würde). Während Sie als Analytiker sich der „verlorenen“ Daten nach der Aggregation bewusst sind, wird der Leser sie nur selten behalten, selbst wenn sie offengelegt werden.

Das bedeutet, dass Sie Ihre Aggregationen und die Datenpunkte, die Sie auf der analytischen Ebene „entfernen“ wollen, bewusst auswählen müssen.

Einschränkungen bei der Datenerhebung

Wie oben gezeigt, reagieren Datenpunkte empfindlich auf Detailebenen, so dass Sie darauf achten müssen, sie mit der richtigen konzeptionellen Hierarchie im Hinterkopf zu behandeln. Das ist schwieriger, als es klingt. Detailebenen sind in einer Datentabelle leicht zu erkennen, aber oft existieren sie nur als Konzept in den Köpfen der Datensammler.

In dem Beispiel, in dem Daten über Schmetterlinge gesammelt werden, sind die beiden Dimensionen der Kontinent, auf dem sie vorkommen, und die Farbe ihrer Flügel. Sowohl „Nordamerika“ als auch „Orange“ sind Beispiele für Datenpunkte, und in „Nordamerika“ werden wahrscheinlich Schmetterlinge mit vielen verschiedenen Flügelfarben vorkommen (in diesem Fall zwei).

Es war jedoch die Entscheidung des Datensammlers, diese beiden Dimensionen zu wählen. Hätte er/sie „Land“ hinzugefügt, wäre der Detaillierungsgrad der einzelnen Datenpunkte detaillierter gewesen. Mit anderen Worten: Die Datenpunkte sind durch die Datenerhebung begrenzt und von ihr abhängig.

Analysten müssen sich dieses Mangels bewusst sein und in der Lage sein, dies jedem zu erklären, der ihre Visualisierungen betrachtet.