Terminologieextraktion |
Warum Terminologieextraktion notwendig istDie konsistente Übersetzung fachgebietsspezifischer Begriffe ist für die Qualität der Übersetzung entscheidend. Möglicherweise erkennt ein Übersetzer jedoch nicht alle möglichen Begriffe im Ausgangstext. Ein Übersetzungsjob – vor allem wenn mehrere Übersetzer daran beteiligt sind – profitiert in hohem Maße von einer zuvor kompilierten Termdatenbank. Diese Termdatenbank ist besonders hilfreich, wenn sie eben jene Begriffe enthält, die im Ausgangstext vorkommen, und den gleichen Kontext wie im Ausgangstext voraussetzt. Das manuelle Erstellen einer Termdatenbank aus dem Ausgangstext nimmt viel Zeit in Anspruch. Automatische TerminologieextraktionMithilfe der automatischen Terminologieextraktion können Sie die ursprünglich für die manuelle Extraktion benötigte Zeit auf die Hälfte oder sogar ein Drittel verringern. Mit einem Modul für die Terminologieextraktion wird der gesamte Ausgangstext sehr schnell gescannt und eine Liste mit Satzstücken erstellt, die Begriffe sein könnten. Wenn mit dem Modul für die Terminologieextraktion ein Satzstück daraufhin geprüft wird, ob es ein Begriff sein könnte, werden dafür statistische und linguistische Informationen verwendet. Ein Modul für die Terminologieextraktion kann auch zweisprachig sein: Dies bedeutet, dass zusätzlich zur Liste möglicher Ausgangstextbegriffe auch vorhandene Translation Memories, zweisprachige Korpora und Termdatenbanken durchsucht werden, um zielsprachliche Entsprechungen für die extrahierten ausgangssprachlichen Begriffe zu finden. Das integrierte memoQ-Modul für die TerminologieextraktionDas integrierte memoQ-Modul für die Terminologieextraktion ist sprachunabhängig und funktioniert ohne aufwendige linguistische Mittel. Es wird eine Kombination aus statistischen Methoden und detaillierten Stoppwortlisten verwendet. Ein Satzstück hat gute Chancen, ein Begriff zu sein, wenn es im Text öfter als eine bestimmte Anzahl von Malen vorkommt. Da in memoQ jedoch keine linguistischen Informationen zu den Wörtern angegeben sind, werden möglicherweise irrelevante Wortfolgen (z. B. "*of the") in die Liste aufgenommen. Dies wird durch die Verwendung von Stoppwörtern größtenteils verhindert. Nach dem Scannen des Ausgangstexts nach möglichen Begriffen werden mit dem memoQ-Modul für die Terminologieextraktion die verfügbaren Termdatenbanken auf zielsprachliche Entsprechungen geprüft und diese in die Liste aufgenommen, wenn ein Treffer vorhanden ist. Derzeit werden verfügbare Translation Memories und LiveDocs-Korpora in memoQ nicht nach zielsprachlichen Entsprechungen gescannt. In memoQ können jedoch Ausgangstextbegriffe aus Translation Memories und LiveDocs-Korpora extrahiert werden. Siehe auch: Gewusst wie: Verwenden des TaaS-Plugins in der Terminologieextraktion Arbeiten mit der TerminologieextraktionEin Modul für die automatische Terminologieextraktion produziert immer auch viele irrelevante Ergebnisse: In der Regel besteht die zurückgegebene Liste zu weniger als 50 % aus relevanten Begriffen. Sie werden 2 bis 4 Stunden aufbringen müssen, um die Liste zu bereinigen, d. h, um irrelevante Begriffe zu löschen oder zu verwerfen. Die Alternative wäre jedoch, Hunderte oder Tausende von Seiten sehr gründlich durchzulesen – und dies würde Tage dauern, nicht Stunden. In memoQ können Sie die Liste im Terminologieextraktions-Editor oder Kandidatenlisten-Editor (separate Registerkarte) bereinigen. Als zweiten Schritt müssen Sie die zielsprachlichen Entsprechungen für die zulässigen Begriffe eintragen, die in der Liste verblieben sind. Sie können vorhandene Termdatenbanken als Hilfe verwenden. Schließlich können Sie die Liste in eine gewöhnliche Termdatenbank umwandeln, die an die Übersetzer verteilt – oder für Ihre eigene Arbeit verwendet – werden kann. Hinweis: In memoQ können Sie auch Treffer aus der Liste extrahierter Kandidaten erhalten, bevor sie in eine Termdatenbank umgewandelt wird. Sie können die extrahierten Begriffe verwenden, sobald ein Treffer vorhanden ist, und sie während der Bearbeitung korrigieren oder erweitern. Siehe auch: •Extrahieren von Begriffen aus Dokumenten und Translation Memories •Stoppwörter und Stoppwortlisten |