A New Approach Structuring Archive Data (2)
go to first page / zur ersten Seiteback/zurückgo to next page / zur nächsten Seitego to last page / zur letzten Seitego to index page / zum Inhaltsverzeichnistext version/Textversion
Foil 22 of 26

At the moment, we still have not enough Yiddish materials from which to demonstrate. Let me do so, instead, with samples from a German archive.
The archive contains the issues of a newspaper over six months.
In a first step we calculated the distribution of all lemmatized words as well as the statistically unexpected distribution of words. We classified the issues according to distributional under-representation and distributional over-representation. 
In the next step, we calculate the environment of the wordlist from step 1. We calculate separately the case of under-representation and the case of over-representation. We sort the results according to the statistical evidence. 
The statistically detected collocations becomes evident. They cover relevant changes in the outside

Folie 22 von 26

Zur Zeit besitzen wir immer noch nicht genügend jiddisches Material, das man zur Demonstration nutzen könnte. Lassen Sie mich stattdessen Teile aus dem Deutscharchiv zur Demonstration verwenden
Das Archiv enthält Zeitungsausgaben über einen Zeitraum von sechs Monaten.
Als erstes berechnen wir die Verteilung aller lemmatisierten Worte, sowie die statistisch unvorhersehbare Verteilung von Worten. Wir haben die Ausgaben entsprechend der verteilerischen Unter- und Oberrepräsentation klassifiziert.. 
Als nächstes berechnen wir die Umgebung der Wortliste vom ersten Schritt an. Wir berechnen getrennt den Fall der Unterrepräsentation und den Fall der Oberrepräsentation. Wir sortieren die Ergebnisse entsprechend der statistischen Augenscheinlichkeit. 
Die statistisch entdeckten Kollokationen werden deutlich. Sie decken relevante Änderungen in der Welt ab, aber man findet eben auch interessante linguistische Phänomene.