|
Notes:
Foil 22 of 26
At the moment, we still have
not enough Yiddish materials from which to demonstrate. Let me do so, instead,
with samples from a German archive.
The archive contains the
issues of a newspaper over six months.
In a first step we calculated
the distribution of all lemmatized words as well as the statistically unexpected
distribution of words. We classified the issues according to distributional
under-representation and distributional over-representation.
In the next step, we calculate
the environment of the wordlist from step 1. We calculate separately the
case of under-representation and the case of over-representation. We sort
the results according to the statistical evidence.
The statistically detected
collocations becomes evident. They cover relevant changes in the outside |
|
Notizen:
Folie 22 von 26
Zur Zeit besitzen wir immer
noch nicht genügend jiddisches Material, das man zur Demonstration
nutzen könnte. Lassen Sie mich stattdessen Teile aus dem Deutscharchiv
zur Demonstration verwenden
Das Archiv enthält
Zeitungsausgaben über einen Zeitraum von sechs Monaten.
Als erstes berechnen wir
die Verteilung aller lemmatisierten Worte, sowie die statistisch unvorhersehbare
Verteilung von Worten. Wir haben die Ausgaben entsprechend der verteilerischen
Unter- und Oberrepräsentation klassifiziert..
Als nächstes berechnen
wir die Umgebung der Wortliste vom ersten Schritt an. Wir berechnen getrennt
den Fall der Unterrepräsentation und den Fall der Oberrepräsentation.
Wir sortieren die Ergebnisse entsprechend der statistischen Augenscheinlichkeit.
Die statistisch entdeckten
Kollokationen werden deutlich. Sie decken relevante Änderungen in
der Welt ab, aber man findet eben auch interessante linguistische Phänomene.
|