Info Transkript und Tonsegmentierung

Die Interviews wurden verschriftet (transkribiert) um auf der Basis der Verschriftungen (Transkripte) einen Wortindex zu erzeugen.

Zu Beginn des Projekts wurde ein spezielles Programm entwickelt (die "Transcription Workbench" – TWB), mit dem schnell und effizient transkribiert werden kann. Die technischen Hilfestellungen dieses Programms erleichtern einerseits das Tippen eines Interviews - etwa durch automatisches Einspeisen der standardisierten Fragen des Fragebuchs, die dann nicht eigens getippt werden müssen. Andererseits werden mithilfe des Programms während des Transkribiervorgangs Verzeigerungen in den Ton gesetzt (Links). Der Computer beobachtet quasi das Schreiben eines Transkribenten bei gleichzeitigem 'Mithören' des Tons und verknüpft den niedergeschriebenen Text an bestimmten Stellen mit dem Originalton des Interviews. Durch Setzen der Links wird der Ton untergliedert und auf die einzelnen Segmente kann gezielt zugegriffen werden.

So setzt das Programm beim Start einer Frage durch den Interviewer automatisch einen Link (Zeiger). Es 'sammelt' den Ton und geschriebenen Text von dieser Position aus bis zur Plazierung eines neuen Links bei der nächsten Interviewer-Frage. Damit werden der Ton und die zugehörigen Wörter zwischen beiden Links zugänglich. Der Ton kann über die Fragenummern aufgerufen werden aber auch über die Wörter, die in diesem Segment vorkommen.

Vom Wort zum Ton
Der EYDES-Wortindex ist maschinell aus den Transkripten aller bisher verschrifteter Interviews erstellt worden. Er listet in alphabetischer Reihenfolge die Wörter auf, die in den Transkripten vorkommen, und verweist auf die Tonsegmente, in denen sie erscheinen (sortiert nach Interview-Ort und Fragenummer). Der Wortindex beinhaltet die Sprache der Informanten, denn nur sie steht für den jeweiligen Ort. Was die Interviewer erfragen und kommentieren, ist nicht Teil dieses Indexes (es sei denn irrtümlicherweise).

Durch Klick auf die Einträge hinter dem ausgewählten Wort können die Tonsegmente aufgerufen und gehört werden.

Ein Computer versteht Sprache nicht im eigentlichen Sinn. Als 'Wort' erkennt er im Transkript die Zeichen und Zeichenketten, die zwischen zwei Leerstellen (Blanks) stehen. Diese listet er auf in der Weise, wie er sie vorfindet: so wie die Transkribenten sie niedergeschrieben haben, mit den ihnen eigenen Schreibgewohnheiten und auch Fehlern, die ihnen unterlaufen sind. Ein vergessenes Blank zwischen zwei Wörtern etwa verursacht plötzlich eine neu zusammengesetzte Wortbildung, oder Zahlen oder Sonderzeichen erscheinen als Einzelwörter.

Die formal erkennbaren 'Kuriosa' erhalten eine eigene 'Strecke'. Am Ende des Wortindexes findet sich ein Eintrag mit drei Gedankenstrichen - der Klick darauf eröffnet eine Liste mit Zeichen wie einem Ausrufezeichen am Wortanfang, Pluszeichen als 'Wort', geschweifte Klammern mit seltsamen Zahl-Buchstaben-Kombinationen, die auf Sonderzeichen hinweisen, die ein Transkribent im Transkript verwendet hat.

In der Rubrik 'Kuriosa' am Ende des jiddischen Wortindexes stehen in der aktuellen Version des EYDES-Archivs vorerst auch alle lateinschriftlichen Einträge, die in den Transkripten vorkommen. Unabhängig davon, zu welcher Sprache sie rechnen (Deutsch, Englisch, romanisiertes Jiddisch), unterscheiden sie sich durch die Verwendung des lateinischen Alphabets grundlegend von den jiddischen Einträgen mit hebräischen Lettern (siehe dazu den Wortindex, lateinschriftlich).