Wissenschaftliche Statistik auf dem ATARI ST

“Vor die Wissenschaft haben die Götter die Statistik gestellt”, mag so mancher wissenschaftlich tätige Zeitgenosse klagen, und nicht wenige kämpfen sich tapfer durch Zahlenberge, Meßwertreihen und ähnliche Gebilde. Mußte der so geplagte Zeitgenosse vor nicht allzu langer Zeit noch lochkartenstanzend seine Daten in den Computer eingeben, so verfügt er heute über flexible und einfach zu handhabende Statistikpakete auf PC-Basis.

Abgesehen von Statistikpaketen, die unter dem Betriebssystem MS-DOS laufen und nicht selten die Eintausend-Mark-Grenze weit überschreiten, wurden für den ATARI ST in den letzten 2 Jahren einige Statistikpakete entwickelt bzw. adaptiert, die vom Preis-/Leistungsverhältnis her äußerst attraktiv sind.

Im folgenden werden vier dieser Pakete besprochen werden, wobei drei dieser Produkte (ST-Statistik, Variana, WiStat/Regression ST) eigenständige Entwicklungen sind; das vierte Produkt, die “Statistik Library" von OMIKRON, ist eine Statistikbibliothek auf der Basis des OMIKRON.BASICs und setzt den diesbezüglichen Interpreter voraus.

Bei der Besprechung der einzelnen Verfahren habe ich versucht, die sachlogische Stufenfolge bei der statistischen Daten Verarbeitung mit Hilfe eines Computers einzuhalten (siehe Tabelle 1):

Zuerst müssen die Daten irgendwie in den Rechner gelangen (Daten-Eingabe). Fertige Dateien müssen manchmal verändert bzw. die in ihnen enthaltenen Daten vor der statistischen Analyse aufbereitet werden (Datei-Manipulation, Daten-Aufbereitung). Nun endlich kann sich der statistische Eifer frei entfalten, und es geht an die Berechnung grundlegender statistischer Maßzahlen (Grund-Statistiken). Damit nicht zufrieden, kann man sich als nächstes auf die Analyse grundlegender Zusammenhänge stürzen (Korrelation / Kontingenz, Regression). Ist man bis dahin immer noch nicht frustriert, geht es auf zum Vergleich zweier oder mehrerer Stichproben (unter “Stichprobe" kann man - für alle praktischen Zwecke - eine bestimmte Menge erhobener oder sonstwie produzierter Daten bzw. Meßwerte verstehen).

Doch halt! Einige dieser Vergleichstests setzen voraus, daß wir über die Stichprobe(n) einige Vorinformationen besitzen. So sollte man bestimmte Tests nur dann verwenden, wenn die Daten, die man dazu heranzieht, “normalverteilt" sind, die Verteilung also annähernd die bekannte “Glockenform" hat (ob dies so ist, kann man natürlich ebenfalls statistisch testen).

Verzichtet man auf derartige Vorinformationen wie z.B. Normalverteilung der Daten u.a., so kann man sich zum Vergleich von Stichproben der sog. non-parametrischen Tests bedienen. Legt man aber derartige Vorinformationen (Voraussetzungen) zugrunde, lassen sich die statistischen Vergleiche mit parametrischen Tests durchführen. Will man dabei nur zwei Stichproben miteinander vergleichen, reichen einfache parametrische Tests, bei drei und mehr Stichproben ist man auf komplexere parametrische Tests wie z.B. Varianzanalysen angewiesen.

Unter weiteren Verfahren sind eine Reihe z.T. sehr komplexer statistischer Prozeduren aufgeführt, die dem fortgeschrittenen Statistiker vertraut sein dürften.

Genug des Testens, her mit den Ergebnissen! Aber wie und wohin? Bei der alphanumerischen Ausgabe sind mehrere Möglichkeiten denkbar (siehe Tabelle 1). Dies gilt auch für die graphische Ausgabe von Ergebnissen; hier ist neben dem Ausgabemedium [Bildschirm, Drucker, Disk(ette)] vor allem auch die Ausgabeform (Punkte-, Liniendiagramm etc.) interessant; weiterhin ist wünschenswert, daß sich die Graphiken mittels eines eigenen Grafik-Editors direkt verändern lassen.

Schließlich interessiert viele Anwender noch die Frage, ob sich die ausgegebenen Daten bzw. Graphiken in andere Programme übernehmen lassen, z.B. in ein Textverarbeitungsprogramm. Die Druckausgabe ist übrigens bei den hier vorgestellten Programmen im Prinzip auf EPSON- bzw. NEC-kompatiblen Matrix- bzw. Laserdruckern möglich, z.T. sind durch die Distributoren spezifische Druckertreiber erhältlich. Doch nun zur Besprechung der einzelnen Programme:

ST-STATISTIK 2.6

Bei der Dateneingabe sind dem Anwender von ST-Statistik nur durch den verfügbaren Massenspeicher Grenzen gesetzt, d.h. gegenüber anderen Programmen sowie früheren Versionen dieses Programms können mit ST-Statistik sehr große Datenmengen verarbeitet werden. Die Daten können sowohl mit einem eigenen Editor als auch durch Übernahme aus anderen Programmen (VIP, LOGISTIX, ADIMENS, 1st Word plus, etc.) eingegeben werden. Dabei können Fremddateien in ASCII-Form durch das mitgelieferte “STATCON.PRG" in Binärdateien konvertiert werden. Bei der Dateimanipulation und Datenaufbereitung fällt besonders positiv der “Datenfilter" ins Auge, mit dessen Hilfe fast beliebig Teilmengen aus der Ursprungsdatei herausgefiltert werden können.

Die statistischen Verfahren decken nahezu den gesamten Bereich der gängigen und meist verwendeten Prozeduren ab. Lediglich bei den “Varianzanalysen” wäre eine baldige Erweiterung auf mehrfaktorielle Verfahren wünschenswert; die “Diskriminanzanalyse” wird man nur gelegentlich vermissen.

Dafür aber sind “Cluster-, Faktoren- und Itemanalysen” enthalten, und als besonderer Leckerbissen - und in keinem anderen der hier vorgestellten Programmpakete enthalten - bietet ST-Statistik die “Konfigurationsfrequenzanalyse” sowie Verfahren zur Schätzung bzw. zum Vergleich von “Überlebenskurven” (“Kaplan-Meier-Test, Mantel-Haenszel-Test”).

Die alphanumerische Ausgabe läßt nichts zu wünschen übrig, die Ergebnisse können wohlgeordnet in andere Programme, v.a. Textprogramme, übernommen werden.

Die graphische Ausgabe von ST-Statistik ist wahrlich beeindruckend und enthält nahezu alles, was diesbezüglich auf diesem Sektor realisiert werden kann. Ob man Ergebnisse im zwei- oder im dreidimensionalen Raum darstellen will, ein paar Tastendrücke bzw. Mausklicks, und schon steht die Grafik (siehe Abb. 1 und 2). Auch hier ein besonderer Leckerbissen: Bei der Clusteranalyse besteht die Möglichkeit, ein Dendrogramm zu erzeugen, was sogar ausschnittsweise vergrößert (per "Zoomen") werden kann (siehe Abb. 3).

  ST-STATISTIK VARIANA WISTAT/REGR ST
DATENEINGABE
eigener Editor + + +
ASCII-Dateien + + +
max. Dateigröße begrenzt durch Massenspeicher begrenzt (s.Text) begrenzt durch RAM
DATEIMANIPULATION
Datei vergrößern + + +
Datei verkleinern + + +
Datei teilen + - +
Dateien zs. fügen + + +
Matrix transponieren + - +
DATENAUFBEREITUNG
Daten filtern + - -
Daten sortieren + + +
Daten transformieren + + +
Differenzen bilden - + -
GRUNDSTATISTIKEN
arithm. Mittelwert + + +
Standardabweichung + + +
Median, Zenti(werte + (+) +
Schiefe, Exzeß + (+) +
HAufigkeitstabeile + + +
KORRELATION / KONTINGENZ
Produkt-Moment-K. + + +
Rang-Korrelation + + +
Kontingenz + (+) +
REGRESSION
lineare Regression + + +
nicht-lineare Regression + - +
multiple Regression + - +
NON PARAMETRISCHE TESTS
Chi Quadrat-Test + + +
Kolmogorov-Smimov-Test - + +
Wilcoxon-Test + + +
U-Test ( Mann-Whitney) + + +
H-Test ( Kruskal Wallis ) + + +
Median-Test - + -
Friedman-Test + + +
PARAMETRISCHE TESTS
einfache parametr. Tests:
- für unabh. Stichproben:
F-Test + + +
t-Test (Student) + + +
t-Test (Welch) + + +
- für abhängige Stichproben:
t-Test ( korr ) + + +
t-Test ( Ferguson ) + + -
Varianzanalysen:
einfaktorielle VA + + +
zweifaktorielle VA + + +
dreifaktonelle VA - - +
multivariate VA - - +
WEITERE VERFAHREN
Konfigurationsfrequenzanalyse + - -
Clusteranalyse + - +
Faktorenanalyse + - +
Diskriminanzanalyse - - +
Itemanalyse + - +
Kaplan-Meier-Test + - -
Mantel-Haenszel-Test + - -
ALPHANUMERISCHE AUSGABE
auf dem Bildschirm + + +
auf dem Drucker + + +
auf Disk(ette) + + +
Übernahme in andere Programme + (+) +
GRAFISCHE AUSGABE
auf dem Bildschirm + + +
auf dem Drucker + + +
auf Disk(ette) + + +
Übernahme in andere Programme + + +
Punkte/Scatter-Diagramm + + +
Liniendiagramm + + +
Balkendiagramm + + +
Stabdiagramm + - -
Kreisdiagramm + - +
Tortendiagramm + - -
Bänderdiagramm + - -
Blöckediagramm + - -
Säulendiagramm + - -
Dendrogramm + - +
Überlebenskurven + - -
Faktorenanalyse - - +
Wechselwirkung (Varianzanalyse) - - +
Grafik-Editor + - +

Tabelle 1: Übersicht über die Funktionen der getesteten Programme

Abb. 1: ST-STATISTIK - Mittelwerte mit Fehlerbalken
Abb. 2: ST-STATISTIK - Säulendiagramm
Abb. 3: ST-STATISTIK - Dendrogramm-Teilausschnitt durch “Zoomen”

VARIANA

Nach dem Programmstart und dem kurzfristigen Erscheinen eines Logos gibt Variana ein Arbeitsfeld frei, das in zwei Bereiche und eine Menüzeile aufgeteilt ist. In der linken Bildhälfte (Bereich 1) können Dateien angezeigt und ediert werden, in der rechten (Bereich 2) befinden sich anwählbare Edierfunktionen. Bei der Arbeit mit dem Edierfenster (Aufbau nach GEM) ist zu beachten, daß manche Grafiksymbole (z.B. Maximalgrößenfeld) andere Funktionen als sonst bei GEM üblich besitzen.

Apropos Fenster: positiv fällt hier bei Variana auf, daß maximal 6 Fenster (einschließlich Edierfenster) geöffnet werden können.

Grundsätzlich lassen sich bei Variana zwei Dateien gleichzeitig laden, wobei eine Datei (Vordergrunddatei) direkt bearbeitet werden kann, die andere (Hintergrunddatei) im RAM-Speicher steht.

Bei der Dateneingabe sind bei Variana maximal 8000 Werte pro Stichprobe zulässig, die Anzahl der Stichproben wiederum ist ausschließlich durch den verfügbaren RAM-Speicherplatz begrenzt.

Die Dateimanipulation sowie die Datenaufbereitung ist auf mannigfache Weise möglich (siehe Tabelle 1), erfreulich ist hier die Möglichkeit der Bildung von “Differenzenstichproben” (Stichprobe X - Stichprobe Y).

Die verfügbaren Grundstatistiken schließen zwar solche ein. die in den anderen Programmpaketen z.T. nicht direkt berechnet werden (z.B. geometrisches und harmonisches Mittel), auf der anderen Seite fehlen wichtige Kenngrößen wie z.B. die direkte Angabe des Medians bzw. der Zentilwerte, die man bei Variana nur indirekt ermittelt (z.B. unter Bezug auf Summenkurven). Bei den statistischen Verfahren bietet Variana viele Prozeduren für einfache und gängige statistische Analysen (siehe Tabelle 1).

Bei den komplexeren Verfahren bietet es jedoch gegenüber den anderen Programmpaketen deutlich weniger. Die alphanumerische und graphische Ausgabe ist, was die Ausgabeform angeht, eingeschränkt (siehe Tabelle 1); umfangreichere grafische Möglichkeiten fehlen, ebenfalls ein programmeigener Grafikeditor (Übernahme in andere Grafikprogramme und dortige Bearbeitung ist möglich). Positiv ist hier die bereits zuvor erwähnte Möglichkeit, mehrere Fenster gleichzeitig zu öffnen und in variabler Größe darstellen zu können (siehe Abb. 4).

WISTAT2.0 /GRAPH REGRESSION ST 3.0

"WiSTat" ist ein Statistikprogramm, das für sich genommen keine graphische Ausgabe erlaubt, jedoch die Ergebnisse u.a. in Dateien ablegt, die durch das Programm "WiSTat Graph" aufrufbar sind, wobei dann die Ergebnisse graphisch dargestellt und ediert werden können. Auch zu “Regression ST" ist eine Schnittstelle vorhanden, wobei dieses Programm besonders für die Berechnung und graphische Darstellung von Regressionsanalysen entwickelt wurde, aber auch die Berechnung einiger Grundstatistiken erlaubt. Sowohl WiSTat als auch Regression ST besitzen eigene Editoren. Da WiSTat Graph und Regression ST vom selben Autor entwickelt wurden, nimmt es nicht wunder, daß viele in Regression ST realisierte Grafikmöglichkeiten auch in WiSTat Graph auftauchen. Für den Anwender bedeutet dies, daß die in Regression ST realisierten Möglichkeiten weitestgehend in der Kombination “WiSTat und WiSTat Graph enthalten sind. Aus praktischen Gründen werden im folgenden diese drei Programme deshalb zusammen betrachtet (siehe dazu auch Tabelle 1).

Die Dateneingabe kann manuell erfolgen oder durch das Einlesen von Files, wobei grundsätzlich alle als ASCII-Dateien abgelegten Daten mit WiSTat eingelesen werden können, auch Dateien von 1st Word plus (ohne WP Modus), Adimens ST, VIP Professional und natürlich Regression ST. Dabei werden durch die Funktion “Reinigen" Fremddateien von Buchstaben. Kommata etc. gereinigt.

Bei der Dateimanipulation und Datenaufbereitung kann u.a. eine Datenmatrix transponiert werden (Vertauschen der Zeilen mit den Spalten und umgekehrt), eine automatische Datenfilterung nach Zielkriterien ist jedoch nicht möglich. WiSTat erlaubt die Berechnung der gängigen Grundstatistiken; die Berechnung von Korrelationen und Regressionen (insbesondere unter Berücksichtigung von Regression ST) läßt kaum einen Wunsch offen.

Bei den non-parametrischen Verfahren sind die wesentlichen Prozeduren enthalten, bei den parametrischen Verfahren zeigt WiSTat sich vor allem bei den Varianzanalysen von seiner besten Seite; hier gehen die Möglichkeiten gar bis zur einfachen multivariaten Varianzanalyse. Positiv fällt hier auch auf, daß die Wahr scheinlichkeitswerte für die Richtigkeit der jeweiligen Nullhypothese als numerischer Wert und nicht nur als über oder unter der jeweiligen Signifikanzgrenze gelegen (sog. Sternchen- oder Doppelsternchenphilosophie) angegeben werden.

Bei den weiteren, komplexen Verfahren ist ebenfalls Erfreuliches zu vermelden. Zwar fehlen Verfahren wie die Konfigurationsfrequenzanalyse und die Berechnung von Überlebenskurven, dafür jedoch bietet WiSTat die Item-, Cluster- und Faktorenanalyse sowie - als einziges Programm die Diskriminanzanalyse.

Bei der alphanumerischen und graphischen Ausgabe (siehe Abb. 5 bis 7) sind die wichtigsten Funktionen enthalten, besonders gelungen ist dabei u.a. die graphische Darstellung der Faktorenanalyse. Lediglich dreidimensionale Graphiken fehlen bisher, die Autoren kündigen jedoch für die nahe Zukunft hierfür Abhilfe durch ein weiteres Programm (“pro-Graph") an.

Abb. 4: VARIANA - vier gleichzeitig darstellbare Graphiken
Abb. 5: WISTAT GRAPH - Liniendiagramm
Abb. 6: WISTAT GRAPH - Dendrogramm
Abb. 7: WISTAT GRAPH - Faktorenanalyse

OMIKRON-BASIC STATISTIK LIBRARY

Das letzte hier besprochene Statistikprogrammpaket benötigt, wie bereits erwähnt, den OMIKRON.BASIC-Interpreter. Als Bibliothek von Routinen, die in eigene BASIC-Programme eingebunden werden können, ist es mit den anderen besprochenen Programmen nicht direkt vergleichbar (und deshalb nicht in der Übersichtstabelle aufgeführt).

Die Statistik Library erfordert eine gewisse Programmiererfahrung. bietet dafür jedoch sehr preiswert etliche nützliche und erweiterbare Prozeduren an, u.zw.:

Neben zwei einfachen Routinen für die Dateneingabe stellt diese Bibliothek auch einige Routinen für die Grafikausgabe zur Verfügung (Punkte-, Linien-, Block- sowie Kreis-Diagramme). Alles in allem für den in BASIC-Programmierung erfahrenen Statistiker ein lohnenswertes und sehr preiswertes Programmpaket.

ST-STATISTIK 2.6

Autor / Vertrieb: Michael Prall / SciLab GmbH, Isestr. 57, 2000 Hamburg 13

Hardware-Voraussetzung: ATARI ST ab 1 Megabyte RAM. mind. 1 Diskettenlaufwerk mit 720 kByte. S/W-Monitor

Programmiert in: GFA-BASIC

Kopierschutz: Paßwort

Handbuch: Ringordner DIN A5, ca. 88 Seiten (knapp, aber aufgrund der Benutzerfreundlichkeit des Gesamtprogramms für Benutzer mit Statistikkenntnissen ausreichend; Angabe von Beispielen, Literaturangaben)

Preis: DM 349.-

VARIANA

Autor / Vertrieb: Christoph Zielinski / G/P-Elektronik AG, Schoenleinstr. 12, 1000 Berlin 61

Hardware-Voraussetzung: ATARI ST ab 512 kByte, mind. 1 einseitiges Diskettenlaufwerk, S/W-Monitor

Programmiert in: C

Kopierschutz: Hardware-Laufmodul im ROM-Port

Handbuch: Ringordner DIN A5, ca. 150 Seiten (ausführlich, Angabe von Formeln, Beispielen, Literaturangaben)

Preis: DM 539.-

WISTAT 2.0, WISTAT GRAPH / REGRESSION ST 3.0

Autor / Vertrieb: Ule Franzen bzw. H.W. Fritsch / tel soft, Universitätsstr 40, 3550 Marburg

Programmiert in: GFA-BASIC (WiSTat), ST-PASCAL +, ASSEMBLER (Regression ST, WiSTat Graph)

Hardware-Voraussetzung: ATARI ST oder ATARI Mega ST, keine Voraussetzungen bzgl. des Diskettenlaufwerks, S/W-Monitor

Kopierschutz: keiner, jedoch Seriennummer und Anwendername mehrfach im Programm verschlüsselt eingetragen

Handbuch (WiSTat): Ringbuch DIN A5, ca. 86 Seiten (ebenfalls knapp, aber aufgrund der Benutzerfreundlichkeit des Gesamtprogramms für Benutzer mit Statistikkenntnissen ausreichend; Angabe von Beispielen, Formeln, Literaturangaben)

Preise: WiSTat DM 199.-
WiSTat Graph DM 99.-
Regression ST DM 198.-

OMIKRON-BASIC STATISTIK LIBRARY (STATLIB)

Autor / Vertrieb: Jörn Wilms / OMIKRON.Software, Erlachstr. 15, 7534 Birkenfeld 2

Hardware-Voraussetzung: ATARI ST oder ATARI Mega ST

Software-Voraussetzung: OMIKRON.BASIC

Kopierschutz: keiner

Handbuch: Heft DIN A5, 11 Seiten. (Kurzbeschreibung, Literaturangaben. Statistikkenntnisse und Programmiererfahrung erforderlich)

Preis: DM 79.-

Abschließende Bemerkungen

Es wäre vermessen zu behaupten, die obige Übersicht habe alle Statistikpakete in all ihren Möglichkeiten voll berücksichtigt: dies ist allein aus Platzgründen nicht möglich. Weiterhin werden die gleichen Funktionen oft nach ganz unterschiedlichen Prinzipien realisiert, und die Leichtigkeit der Handhabung ist oft nicht nur vom Programm, sondern auch von dem Ziel des jeweiligen Anwenders abhängig. Deshalb werden hier auch keine “Noten" vergeben, sondern die Empfehlung ausgesprochen, daß sich potentielle Interessenten solcher Programme an einen Händler wenden und die Programme für ihre Zwecke erst einmal selbst testen sollten. Hierfür kann dieser Artikel allerdings - so hoffe ich - eine wertvolle Orientierung und Einstiegshilfe sein.

Diese Empfehlung ist auch deshalb nützlich, weil einige dieser Programme (besonders ST-STATISTIK und WISTAT) in rascher Folge Updates mit zusätzlichen Prozeduren und Verbesserungen auf den Markt brachten und dies vermutlich auch in der nahen Zukunft tun werden. Einige (kleinere) Kritikpunkte und Empfehlungen seien jedoch noch erwähnt:

Auch die neuesten Versionen der vorgestellten Programme enthalten noch kleine Fehler, die manchmal (selten!) zum Programmabsturz führen. Dies gilt v.a. für die beiden sehr komplexen Programmpakete ST-STATISTIK und WISTAT. Ich habe bei früheren Vorversionen die Autoren selbst auf etliche (z.T. “verborgene") Fehler aufmerksam gemacht, wobei die Autoren dieser beiden Programmpakete erfreulich schnell und sorgfältig auf die Hinweise reagierten und umgehend Korrekturen durchführten. Nach ausführlichem Testen dieser Programme kann ich trotz der noch bestehenden kleineren Fehler bestätigen, daß sich mit den hier vorgestellten Programmen sehr effektiv und sehr komfortabel arbeiten läßt.

Inwieweit die Handbücher dem Anwender ausreichen, hängt aufgrund der allgemeinen Bedienungsfreundlichkeit der Programme vor allem vom Kenntnisstand des Anwenders in Statistik ab. Gerade für den Anfang dürften bei Neulingen auf diesem Gebiet folgende Punkte wichtig sein (sind in den Handbüchern teilweise erfüllt):

(a) Angabe der Formel oder des genauen Algorithmus' für die Prozedur, (b) Angabe der für die Prozedur relevanten Literatur (insbesonders bei Übernahme oder Adaptation von Programmen von anderen Autoren) sowie (c) ein oder mehrere Berechnungsbeispiele.

Fazit

Für die wissenschaftliche Statistik stehen nunmehr auch für den ATARI ST sehr leistungsfähige, grafikfähige, leicht bedienbare und nicht zuletzt sehr preiswerte Pakete zur Verfügung, die dem Anwender mit statistischen Vorkenntnissen eine überaus große Hilfe bei der Auswertung wissenschaftlicher Daten sein können.

P.S.: Da immer mehr Software-Pakete für den Einsatz des ATARI ST im wissenschaftlichen Bereich entwickelt werden, soll in “ST COMPUTER" auch künftighin über diese Entwicklungen, Updates und Erfahrungen berichtet werden. Um dies zu erleichtern, werden diejenigen, die den ATARI ST wissenschaftlich ersetzen und neue Programme entwickelt haben, gebeten, uns ihre Produkte zur Information zuzusenden.


Arthur Günthner
Aus: ST-Computer 07 / 1989, Seite 47

Links

Copyright-Bestimmungen: siehe Über diese Seite