Info Wortindex

Der Wortindex ist ein Verzeichnis aller Wörter, die in den Interviews vonseiten der Informanten geäußert werden. Er erlaubt einen thematischen Zugang zu den Interviews und macht die Suche nach bestimmten Inhalten möglich. Über den Wortindex kann man herausfinden, ob und wo es in den Interviews Passagen zu einzelnen Wörtern und den damit verbundenen Wortformen gibt. Die Wortindexe sind alphabetisch geordnet und in die Strecken der Buchstaben des Alphabets gegliedert.

Der EYDES-Wortindex setzt sich aus solchen Interviews zusammen, die in einem Transkript verschriftet wurden. Eine Identifizierung von Wörtern mit hinreichender Akkuratheit direkt im Ton ist bei den Gegebenheiten des LCAAJ-Archivs für das EYDES-Projekt nicht möglich. Zur Erzeugung des Wortindexes siehe Transkript und Tonsegmentierung.

Transkript und Tonsegmentierung
Zur Erstellung von Transkripten wurde im Verlauf des Projekts ein spezielles Programm entwickelt (die "Transcription Workbench" – TWB). Die technischen Hilfestellungen dieses Programms erleichtern einerseits das Tippen eines Interviews - etwa durch automatisches Einspeisen der standardisierten Fragen des Fragebuchs, die dann nicht eigens getippt werden müssen. Andererseits werden mithilfe des Programms während des Transkribiervorgangs Verzeigerungen in den Ton gesetzt (Links). Der Computer beobachtet quasi das Schreiben eines Transkribenten bei gleichzeitigem 'Mithören' des Tons und verknüpft den niedergeschriebenen Text an bestimmten Stellen mit dem Originalton des Interviews. Durch Setzen der Links wird der Ton untergliedert, das heißt segmentiert, und auf die einzelnen Segmente kann gezielt zugegriffen werden.

So setzt das Programm beim Start einer Frage durch den Interviewer automatisch einen Link. Es 'sammelt' den Ton und geschriebenen Text von dieser Position aus bis zur Plazierung eines neuen Markers bei der nächsten Interviewer-Frage. Damit werden der Ton und die zugehörigen Wörter zwischen beiden Markern zugänglich. Der Ton kann über die Fragenummern aufgerufen werden aber auch über die Wörter, die in diesem Segment vorkommen.

Wort und Ton
Der EYDES-Wortindex ist maschinell aus den Transkripten aller bisher verschrifteter Interviews erstellt worden. Er listet in alphabetischer Reihenfolge die Wörter auf, die in den Transkripten vorkommen, und verweist auf die Tonsegmente, in denen sie erscheinen (sortiert nach Interview-Ort und Fragenummer). Der Wortindex beinhaltet die Sprache der Informanten, denn nur sie steht für den jeweiligen Ort. Was die Interviewer erfragen und kommentieren, ist nicht Teil des Index (es sei denn irrtümlicherweise).

Durch Klick auf die Einträge hinter dem ausgewählten Wort können die Tonsegmente aufgerufen und gehört werden.

Ein Computer versteht Sprache nicht im eigentlichen Sinn. Als 'Wort' erkennt er im Transkript die Zeichen und Zeichenketten, die zwischen 2 Leerstellen (Blanks) steht. Diese listet er auf in der Weise, wie er sie vorfindet und wie die Transkribenten sie niedergeschrieben haben, mit den ihnen eigenen Schreibgewohnheiten, aber auch mit den Fehlern, die ihnen unterlaufen sind. So verursacht ein vergessenes Blank zwischen zwei Wörtern plötzlich eine neu zusammengesetzte Wortbildung und Zahlen oder Sonderzeichen erscheinen als Einzelwörter. Die formal erkennbaren 'Kuriosa' erhalten eine eigene 'Strecke'; am Ende des Wortindexes etwa findet sich ein Eintrag mit 3 Gedankenstrichen - der Klick darauf eröffnet eine Liste mit Zeichen wie einem Ausrufezeichen am Wortanfang, Pluszeichen als 'Wort', geschweifte Klammern mit seltsamen Zahl-Buchstaben-Kombinationen, die auf Sonderzeichen hinweisen, die ein Transkribent im Transkript verwendet hat.

In der Rubrik 'Kuriosa', aufgeführt durch drei Gedankenstriche am Ende des jiddischen Wortindex, stehen in der aktuellen Version des EYDES-Archivs vorerst noch alle lateinschriftlichen Einträge, die in den Interviews vorkommen. Unabhängig davon, zu welcher Sprache sie rechnen (Deutsch, Englisch, romanisiertes Jiddisch), unterscheiden sie sich durch die Verwendung des lateinischen Alphabets grundlegend von den jiddischen Einträgen mit hebräischen Lettern (siehe dazu den Wortindex, lateinschriftlich).