Die Statistik stellt Methoden zur Verfügung, die den systematischen Umgang mit quantitativen Informationen ermöglichen. Sie bildet eine wissenschaftliche Grundlage zur Verbindung von Theorie und Praxiserfahrung. Sie gibt ihrem Anwender Handhabungen, Erfahrungsdaten zu analysieren.
Die drei Bereiche der Statistik
Die Statistik ist als eigenständige Disziplin der Mathematik zu betrachten, die sich mit Datensammlung und -analyse sowie deren Interpretation und Präsentation beschäftigt. Andererseits kann die Statistik auch als ein Teilgebiet der Mathematik, vor allem der Stochastik, aufgefasst werden. Die Statistik lässt sich in drei Bereiche einteilen: deskriptive, induktive und explorative Statistik. Die deskriptive Statistik arbeitet mit bereits vorliegenden Daten, indem sie sie aufbereitet, beschreibt und zusammenfasst. Datenmengen werden in grafischen Darstellungen, Tabellen und Kennzahlen abgebildet. Die induktive Statistik schließt von Datenstichproben auf die Eigenschaften einer Datengesamtheit. In dieser Methode bildet die Wahrscheinlichkeitstheorie die wichtigste mathematische Grundlage. Die explorative Statistik vereint die Ansätze von deskriptiver und induktiver Statistik in sich. Sie versucht, Zusammenhänge zwischen vorhandenen Daten herzustellen, diese Zusammenhänge auf ihre Aussagesicherheit hin zu bewerten und mittels induktiver Testverfahren statistisch zu sichern.
Eine kurze Geschichte der Statistik
Das Wort Statistik leitet sich vom lateinischen ’statisticum‘ – ‚den Staat betreffend‘ – ab. Statistik wurde also ursprünglich als Lehre der Daten eines Staates betrachtet. Die Wurzeln der modernen Statistik liegen im 19. und 20. Jahrhundert. Amtliche Statistik reicht jedoch bis weit vor die Zeitenwende zurück. Erste Amtsstatistiken stammen aus den Hochkulturen der Alten Welt, aus Ägypten, aus Mesopotamien und China. Die erste deutsche Volkszählung fand 1449 in Nürnberg statt. Die Grundlagen einer weiter reichenden Amtsstatistik wurden von dem Franzosen Colbert im 17. Jahrhundert mit Einführung der Handelsstatistik gelegt. In Bayern, Preußen und anderen deutschen Staaten wurden ebenfalls seit dem 17. Jahrhundert umfassende amtliche Statistiken erhoben. Unabhängig von dieser Statistik von Staats wegen entwickelte sich die Universitätsstatistik, die der Staats- und Länderkunde diente. Ein anderer Zweig der Statistik ist die politische Arithmetik. Sie hatte ihren Ursprung im 17. Jahrhundert und befasste sich zum ersten Mal mit dem Versuch, in statistischen Daten allgemeine Gesetzmäßigkeiten zu entdecken. Ein ganz entscheidender Schritt war die Entwicklung der Wahrscheinlichkeitsrechnung. Als ihre Geburtsstunde gilt das Jahr 1654, als sie im Briefwechsel der französischen Mathematiker Pascal und Fermat erläutert wurde. Kolmogorovs Lehrbuch ‚Grundbegriffe der Wahrscheinlichkeitsrechnung‘ von 1933 gilt als abschließende Fundamentierung der modernen Wahrscheinlichkeitsrechnung.
Die fünf Schritte der statistischen Praxiserfahrung
Jede statistische Untersuchung kann in fünf Schritte aufgeteilt werden: Planung, Erhebung, Aufbereitung, Analyse und Interpretation. In der Planung werden u. a. die Maßeinheiten festgelegt, Variablen erhoben und die Art und Umfang der Erhebung bestimmt. In der Erhebung muss sich der Statistiker entscheiden, ob er seine Daten selbst erhebt, Daten zu seiner Fragestellung sammeln lässt oder bereits gesammelte Daten auswertet. Schritt 3 der Statistik, die Aufbereitung, befasst sich mit der Kodierung und Bereinigung von Daten und einer evtl. Transformation von Variablen. In der Analyse werden die Methoden der deskriptiven, induktiven oder explorativen Statistik angewandt. Die Interpretation sollte schließlich statistische Erkenntnisse nicht nur in Zahlen umsetzen, sondern auch in einer klaren, anschaulichen Sprache darstellen können. Eine gute Statistik sollte immer fünf Kriterien erfüllen. Sie sollte objektiv sein, also unabhängig vom persönlichen Standpunkt des Statistikers erstellt worden sein. Sie sollte reliabel (verlässlich) sein und valide, also im übergeordneten Kontext gültig. Weitere Kriterien einer guten Statistik sind die Signifikanz (Bedeutsamkeit) und die Relevanz (Wichtigkeit).
Die Anwendungsgebiete der Statistik
Die Ursprünge der Statistik lagen, wie bereits in der Statistikgeschichte erwähnt, in der amtlichen Statistik. Ein anderes frühes Anwendungsbiet war die Analyse von Glücksspielen. Aus dem Bedürfnis vieler Fachwissenschaften nach Überprüfung ihrer Theorien haben sich viele weitere Teilbereiche der Statistik entwickelt. Die externe Betriebsstatistik erfasst Daten über eine Gesamtheit von Betrieben. Interne Betriebsstatistik dagegen beschreibt und überprüft innerbetriebliche Abläufe. Biostatistik befasst sich mit Daten aus Medizin und Biologie. Die Demografie ist ein Teilbereich der Statistik, der sich mit der Bevölkerungsentwicklung auseinandersetzt. Die Finanzstatistik stellt Finanzzeitreihen auf und analysiert sie. Sowohl Daten von realen als auch von simulierten Märkten werden aufgeschlüsselt. Die Ökometrie dient der empirischen Überprüfung wirtschaftstheoretischer Modelle. Sportstatistiken als Grundlage für Sportwetten sammeln Daten über sportliche Leistungen und versuchen per Analyse dieser Daten Voraussagen über zukünftige Leistungen zu treffen. Die Epidemiologie beschäftigt sich mit der Entstehung und Verbreitung von Krankheiten unter gesellschaftlichen und geografischen Aspekten. Die Psychometrie widmet sich als Teilgebiet der Psychologie den Theorien und Methoden des psychologischen Messens. Umweltstatistik sammelt Umweltdaten und versucht, mittels statistischer Methoden Aussagen über den Zustand und die Entwicklung von Ökosystemen zu treffen. In der Wirtschaftsstatistik werden systematisch ökonomische Daten erfasst und interpretiert. Die Versicherungsmathematik wendet als Wissenschaft statistische Methoden an, um Risiken im Bank- und Versicherungswesen zu bestimmen. Diese Aufzählung statistischer Fachbereiche erhebt keinen Anspruch auf Vollständigkeit.
Der Einfluss des Computers auf die moderne Statistik
Durch die Entwicklung des Computers haben sich neue statistische Modelle durchgesetzt, die nichts mehr mit den linearen Statistikmodellen der Vor-Computerzeit zu tun haben. Es sind z. B. neuronale Netzwerke und Mehrebenenmodelle. Manche Teilbereiche der Statistik wie die Bayessche Statistik verdanken ihre Relevanz der Entwicklung neuer Software. An dieser Stelle seien gerne auch Infos zur stat. Auswertung und den Möglichkeiten im Internet gegeben. Statistik-Software ist übers Internet individuell frei verfügbar, so dass die Datenberechnung und -darstellung unvergleichlich leichter umzusetzen ist als in früheren Zeiten. Viele wertvolle Programme sind Open-Source-Anwendungen, die dem Internetnutzer kostenlos zur Verfügung gestellt werden. Ggobi beispielsweise ist eine Software, mit der multivariante Daten in dynamischer Grafik visualisiert werden können. Mit PSPP steht eine freie Software für Datenanalyse zur Verfügung. Die Software Statistiklabor stellt einen Werkzeugkasten zur explorativen Statistik und Datenanalyse bereit. Daneben ist für jede statistische Problemstellung kommerzielle Software zu erwerben. Es gibt z. B. Almo zur Analyse von Massendaten, Minitab für Statistikaufgaben im Bereich Qualitätsmanagement oder SsS für parametrische und nichtparametrische Testverfahren. Und die berühmte, 1976 erschienene Statistiksprache S ist sogar als Open-Source-Variante unter dem Name R im Internet frei verfügbar.