13 / 88 Kommerzielle Digitale Überwachung im Alltag | Studie im Auftrag der österreichischen Bundesarbeitskammer | 2014 Statistische Korrelationen machen eine Aussage über den Zusammenhang zwischen zwei verschiedenen Merkmalen, Ereignissen, Zuständen oder Funktionen - es muss allerdings keine kausale Wirkung zwischen beiden bestehen. Ein bekanntes Maß für die Stärke eines linearen Zusammenhangs zwischen zwei Merkmalen ist der Korrelationskoeffizient24, der Werte zwi- schen -1 und 1 annehmen kann. Besteht kein Zusammenhang, ist der Wert 0. Bei einem Wert von -1 besteht ein stark negativer, bei einem Wert von 1 ein stark positiver Zusammenhang. Ein Beispiel für eine starke negative Korrelation wäre der Zusammenhang zwischen der (zu- nehmenden) zurückgelegten Strecke im Auto und der (abnehmenden) Treibstoffmenge im Tank. In diesem Fall wissen wir, dass gleichzeitig eine Ursache-Wirkungs-Beziehung besteht – also ein kausaler Zusammenhang. Wird zwischen zwei Variablen eine statistische Korrelation festge- stellt und daraus irrtümlich auf einen kausalen Zusammenhang geschlossen, wird dies als „Cum hoc ergo propter hoc“25 bzw. als Scheinkorrelation26 bezeichnet. Im Zeitalter von Big Data werden immer häufiger statistische Methoden eingesetzt, um große Mengen an NutzerInnendaten zu analysieren, darin Muster und Zusammenhänge zu erken- nen, und daraus - über die Ausgangsinformationen weit hinausgehende - Einschätzungen über die NutzerInnen oder Prognosen über deren zukünftiges Verhalten zu treffen. Die dabei genutz- ten Technologien und Methoden werden unter dem Begriff Data Mining27 zusammengefasst. Dabei wird meistens eine gewisse Unschärfe in Kauf genommen, die getroffenen Einschätzun- gen und Prognosen müssen nicht in jedem Fall richtig sein, man setzt auf Wahrscheinlichkeiten. Data Mining ist nach Oscar H. Gandy ein Prozess, in dem versucht wird, Rohdaten in „Informati- on“ zu transformieren - die dann strategisch für die Ziele einer Organisation eingesetzt werden kann (vgl. Gandy 2006). Data Mining zielt darauf ab, bestimmte Verhaltensweisen und „Marker“ zu identifizieren, die als zuverlässige Indikatoren für Zukunftsprognosen dienen. Diese Bemü- hungen sind vom Interesse an Risikominimierung oder -vermeidung geprägt. Auch wenn es et- wa darum geht, die oft zitierten 20% der KundInnen zu identifizieren, die einem Unternehmen 80% der Profite bieten28, kann dies aus einer Perspektive des Risikomanagements betrachtet werden. Bei derartigen Analysen werden einerseits mathematisch-statistische Verfahren genutzt (z.B. Clusteranalyse, Klassifikation, Assoziationsanalyse, Regressionsanalyse), andererseits Techno- logien des Machine Learning29 - also Computerprogramme, die „automatisch lernen, komplexe Muster zu erkennen und intelligente Entscheidungen zu treffen“ (vgl. Han et al 2011). 24 http://de.wikipedia.org/wiki/Korrelationskoeffizient 25 http://de.wikipedia.org/wiki/Cum_hoc_ergo_propter_hoc 26 http://de.wikipedia.org/wiki/Scheinkorrelation 27 http://de.wikipedia.org/wiki/Data-Mining 28 http://en.wikipedia.org/wiki/Pareto_principle 29 http://de.wikipedia.org/wiki/Maschinelles_Lernen Statistische Zusammenhän- ge und Kausali- tät Muster erkennen und Verhalten vorhersagen Data Mining