Kandidaten extrahieren
In memoQ können mögliche Benennungen aus Dokumenten, Translation Memories und LiveDocs-Korpora extrahiert werden.
Dies benötigen Sie möglicherweise, wenn Sie ein Projekt für die Übersetzung vorbereiten oder wenn Sie eine Termdatenbank als Teil eines Projekts erstellen müssen.
In diesem Fenster können Sie in memoQ festlegen, wie mögliche Begriffe aus den Ausgangsdokumenten, LiveDocs-Korpora oder Translation Memories extrahiert werden sollen.
Der Text wird in memoQ verarbeitet, und es wird eine Liste mit Kandidaten, also möglichen Benennungen bereitgestellt. Die Liste kann auch viel Unbrauchbares enthalten: Möglicherweise müssen Sie sie bereinigen, filtern und bearbeiten und "brauchbare" Benennungen bestätigen, damit Sie diese einer Termdatenbank hinzufügen können. Nachdem die Extraktion ausgeführt wurde, wird der Kandidatenlisten-Editor geöffnet, in dem Sie all diese Schritte ausführen können.
Sie können die Kandidatenliste auch zum Durchsuchen als Termdatenbank bereitstellen.
Sie benötigen ein lokales Projekt, um die Terminologieextraktion durchzuführen.
Navigation
- Erstellen oder öffnen Sie ein Projekt.
Hinzufügen von Text vor dem Ausführen der Terminologieextraktion: Im Projekt muss zu verarbeitender Text vorhanden sein. Der Text kann in Projektdokumenten, Translation Memories oder LiveDocs-Korpora vorliegen.
- Importieren Sie die Dokumente im Projekt oder fügen Sie die Translation Memories und LiveDocs-Korpora, die Sie benötigen, im Projekt hinzu.
In memoQ können vorhandene Termdatenbanken als Hilfestellung bei der Terminologieextraktion verwendet werden: Bevor Sie die Terminologieextraktion ausführen, sollten Sie diese Termdatenbanken ebenfalls dem Projekt hinzufügen.
- Klicken Sie auf der Registerkarte Vorbereitung des Menübands auf das Symbol Begriffe extrahieren. Das Fenster Kandidaten extrahieren wird angezeigt.
Wenn Sie die Terminologieextraktion in diesem Projekt nicht zum ersten Mal ausführen: Es wird zuerst das Fenster Begriffe extrahieren angezeigt. Wenn Sie wirklich eine neue Terminologieextraktion ausführen möchten, klicken Sie auf "Neue Sitzung starten". Weitere Informationen finden Sie auf der Hilfeseite zum Fenster Begriffe extrahieren.
Möglichkeiten
Wenn Sie die Terminologieextraktion ausführen, wird im Projekt eine Terminologieextraktionssitzung erstellt. Eine Sitzung ist erforderlich, weil die Kandidatenliste gespeichert werden muss, sodass Sie die Kandidaten bearbeiten und bei Bedarf zu ihnen zurückkehren können. Anfangs enthält die Kandidatenliste viele irrelevante Ausdrücke und Einträge. Zudem fehlen die meisten zielsprachlichen Entsprechungen. Sie müssen die Kandidatenliste bereinigen und bearbeiten, damit Sie die bestätigten Benennungen in eine Termdatenbank aufnehmen können.
Die Kandidatenliste wird im Projekt gespeichert. Sie können sie verlassen und nach Bedarf zu ihr zurückkehren.
Geben Sie oben im Feld Name der Sitzung einen Namen für die Sitzung ein. Normalerweise wird das aktuelle Datum verwendet. Sie können jedoch auch einen beliebigen anderen Namen eingeben.
Automatische Nummerierung: Wenn Sie das Datum für den Sitzungsnamen verwenden und am selben Tag eine weitere Sitzung starten, fügt memoQ eine Nummer an das Datum an: (1) für die zweite Sitzung, (2) für die dritte Sitzung usw.
Wählen Sie die Materialien aus, die verarbeitet werden, um die Kandidaten zu erhalten. Folgende Auswahlmöglichkeiten stehen zur Verfügung:
- Zu übersetzende Dokumente: Normalerweise wird die Terminologieextraktion für die Dokumente ausgeführt, die Sie in das Projekt importiert haben. Deaktivieren Sie dieses Kontrollkästchen, wenn Sie nur Translation Memories bzw. LiveDocs-Korpora verarbeiten möchten. Wenn im Projekt keine Dokumente vorhanden sind, ist es ausgegraut.
- Optionsfeld Jedes Dokument: Klicken Sie auf dieses Optionsfeld, um alle Dokumente im Projekt zu verarbeiten. Dies ist der Normalfall in memoQ.
- Optionsfeld Ausgewählte Dokumente: Klicken Sie auf dieses Optionsfeld, um nur die ausgewählten Dokumente zu verarbeiten. Markieren Sie vorher die Dokumente, die Sie verarbeiten möchten. Diese Möglichkeit haben Sie in der Projektzentrale unter Übersetzungen.
- Translation Memories: Aktivieren Sie dieses Kontrollkästchen, um den ausgangssprachlichen Text aus Translation Memories zu verarbeiten. Dazu müssen die Translation Memories im Projekt vorhanden sein. Wenn im Projekt keine Translation Memories vorhanden sind, ist dieser Teil ausgegraut.
- Optionsfeld Alle Memories im Projekt: Klicken Sie auf dieses Optionsfeld, um alle Translation Memories im Projekt zu verarbeiten. Dies ist der Normalfall in memoQ.
- Optionsfeld Primäres TM: Klicken Sie auf dieses Optionsfeld, um nur das Arbeits-TM zu verarbeiten.
- Optionsfeld Ausgewählte TMs: Klicken Sie auf dieses Optionsfeld, um die ausgewählten Translation Memories zu verarbeiten. Markieren Sie vorher die Translation Memories, die Sie verarbeiten möchten. Diese Möglichkeit haben Sie in der Projektzentrale unter Translation Memories.
- Kontrollkästchen LiveDocs-Korpora-Dokumente: Aktivieren Sie dieses Kontrollkästchen, um den ausgangssprachlichen Text aus den LiveDocs-Korpora im aktuellen Projekt zu verarbeiten. Dieses Kontrollkästchen ist zunächst nicht aktiviert. Wenn im Projekt keine LiveDocs-Korpora vorhanden sind, ist dieser Teil ausgegraut.
- Optionsfeld Alle angezeigten Dokumente: Klicken Sie auf dieses Optionsfeld, um alle Dokumente aus allen LiveDocs-Korpora im Projekt zu verarbeiten. Dies ist der Normalfall in memoQ.
- Optionsfeld Ausgewählte Dokumente: Klicken Sie auf dieses Optionsfeld, um die ausgewählten Dokumente im ausgewählten LiveDocs-Korpus zu verarbeiten. Wählen Sie ein oder mehrere Dokumente aus einem LiveDocs-Korpus aus, bevor Sie diese Option verwenden. Diese Möglichkeit haben Sie in der Projektzentrale unter LiveDocs.
Unter Optionen können Sie die Terminologieextraktion anpassen.
Die Terminologieextraktion in memoQ erfolgt rein statistisch: Sie basiert auf der Länge und Häufigkeit der Kandidaten. Zum Extrahieren der Kandidaten werden keine Methoden der linguistischen Intelligenz (z. B. Stemming oder Parsing) verwendet. Mit diesen Optionen wird das statistische Verfahren gesteuert.
Allgemein:
- Textfeld Maximale Länge in Wörtern: Die Anzahl der Wörter im längsten Kandidaten. Es werden keine Ausdrücke aufgelistet, die länger sind. Normalerweise ist die Einstellung 4.
- Feld Mindestvorkommen: Es werden keine Kandidaten aufgelistet, die im Ausgangstext nicht mindestens so oft vorkommen, wie mit dieser Zahl angegeben wird. Beispiel: Wenn das Mindestvorkommen mit 3 angegeben ist, enthält die Liste Kandidaten, die im Ausgangstext mindestens 3 Mal vorkommen. Normalerweise ist die Einstellung 3.
- Feld Trennzeichen für Ausdrücke: Hierbei handelt es sich um eine Liste mit Zeichen, die den Anfang bzw. das Ende eines Kandidaten markieren. Es werden keine Ausdrücke extrahiert, in denen ein oder mehrere dieser Zeichen vorkommen.
- Feld Längenfaktor: Hierbei handelt es sich um eine Zahlenangabe zwischen 0,5 und 3. Hiermit wird gesteuert, inwiefern längere Ausdrücke bevorzugt behandelt werden. Für jeden Kandidaten (d. h. für jeden extrahierten Ausdruck) wird während der Extraktion ein Wert vergeben. Je größer der Längenfaktor ist, desto größer ist der Unterschied zwischen dem Wert eines längeren und eines kürzeren Ausdrucks. Normalerweise ist die Einstellung 1,5.
- Kontrollkästchen Wörter mit Zahlen ignorieren: Wenn dieses Kontrollkästchen aktiviert ist, wird kein Ausdruck aufgeführt, der ein Wort mit einer oder mehreren Ziffern enthält. Normalerweise ist dieses Kontrollkästchen nicht aktiviert.
Einzelne Begriffe: In memoQ wird ein spezieller Ansatz zum Extrahieren von Einzelbegriffskandidaten verwendet. Für sie werden andere Einstellungen verwendet.
- Feld Mindestlänge in Zeichen: Es werden keine Wörter aufgelistet, die kürzer als die hier angegebene Zahl (in Zeichen) sind. Beispiel: Wenn die Mindestlänge mit 3 angegeben ist, werden Einzelbegriffskandidaten extrahiert, die mindestens 3 Zeichen lang sind. Normalerweise ist diese Einstellung 3.
Die Mindestlänge wird für Mehrwortkandidaten nicht verwendet.
- Feld Mindestvorkommen: Es werden keine Kandidaten aufgelistet, die im Ausgangstext nicht mindestens so oft vorkommen, wie mit dieser Zahl angegeben wird. Beispiel: Wenn das Mindestvorkommen mit 3 angegeben ist, enthält die Liste Kandidaten, die im Ausgangstext mindestens 3 Mal vorkommen. Normalerweise ist diese Einstellung 3.
Termdatenbank-Lookup: Beim Extrahieren von Kandidaten in memoQ wird ausschließlich nach Ausdrücken im ausgangssprachlichen Text gesucht. Es können allerdings Termdatenbanken verwendet werden, um mögliche Übersetzungen für die extrahierten Kandidaten nachzuschlagen.
- Kontrollkästchen Nachschlagekandidaten: Normalerweise werden die Termdatenbanken im Projekt nach Übersetzungen für die einzelnen Kandidaten durchsucht. Deaktivieren Sie das Kontrollkästchen, wenn Sie dies nicht möchten.
- Optionsfeld Alle Termdatenbanken in einem Projekt: Klicken Sie auf dieses Optionsfeld, um alle Termdatenbanken im Projekt nach den Kandidaten zu durchsuchen. Dies ist der Normalfall in memoQ.
- Optionsfeld Nur die Termdatenbank mit der höchsten Priorität: Klicken Sie auf dieses Optionsfeld, um nur die Termdatenbank mit der höchsten Priorität nach den Kandidaten zu durchsuchen.
Es kann Wörter geben, die am Anfang, am Ende oder innerhalb einer Benennung nicht vorkommen dürfen. Wenn ein Ausdruck mit einem dieser Wörter beginnt, damit endet oder eines dieser Wörter enthält, wird er nicht als Kandidat aufgeführt.
Diese werden als Stoppwörter bezeichnet.
- Im unteren Teil des Fensters Kandidaten extrahieren können Sie Stoppwörter auflisten. Für jedes Stoppwort stehen drei Optionen zur Verfügung: Sie können Wörter vom Anfang, vom Ende oder von einer beliebigen Position in einem Ausdruck ausschließen.
- In memoQ können Sie Stoppwortlisten erstellen, speichern und verwenden. So laden Sie eine vorhandene Stoppwortliste: Wählen Sie eine Stoppwortliste in der Dropdown-Liste Stoppwortliste aus.
- So speichern Sie die aktuelle Stoppwortliste: Klicken Sie neben dem Feld Stoppwortliste auf Speichern unter. Das Fenster Neue Stoppwortliste erstellen wird angezeigt. Geben Sie einen Namen und eine Beschreibung ein. Klicken Sie auf OK.
Stoppwortlisten sind Ressourcen: Mithilfe der Ressourcenkonsole können Sie sie speichern, laden und verwalten.
Der Screenshot ist nur ein Beispiel: In memoQ können verschiedene Stoppwortlisten vorhanden sein. Andererseits ist es möglich, dass für Ihre Ausgangssprache keine Standard-Stoppwortliste vorhanden ist.
So fügen Sie der Liste ein neues Stoppwort hinzu: Geben Sie im Feld Wort unten das Wort ein. (Dabei kann es sich nicht um einen Ausdruck handeln!) Klicken Sie auf Hinzufügen.
Normalerweise werden beim Hinzufügen des Worts zur Liste alle Kontrollkästchen aktiviert (Stoppt dazwischen, Stoppt beim ersten und Stoppt beim letzten). Nachdem Sie ein Wort hinzugefügt haben, können Sie ein oder mehrere dieser Kontrollkästchen deaktivieren, sofern das Wort doch innerhalb, am Anfang oder am Ende einer Benennung vorkommen darf:
- Stoppt dazwischen: Deaktivieren Sie dieses Kontrollkästchen, wenn das Wort innerhalb einer Benennung vorkommen darf.
- Stoppt beim ersten: Deaktivieren Sie dieses Kontrollkästchen, wenn das Wort am Anfang einer Benennung vorkommen darf.
- Stoppt beim letzten: Deaktivieren Sie dieses Kontrollkästchen, wenn das Wort am Ende einer Benennung vorkommen darf.
So entfernen Sie ein Stoppwort aus der Liste: Klicken Sie in der Liste auf das Wort. Klicken Sie auf Auswahl löschen.
Stoppwörter, die bereits in der Liste enthalten sind, können nicht bearbeitet werden. Um ein Stoppwort zu ändern, müssen Sie es löschen und erneut hinzufügen.
Sie können Stoppwörter auch im Fenster Stoppwortliste bearbeiten vorbereiten: Sie brauchen keine Terminologieextraktion auszuführen, um eine Stoppwortliste zu bearbeiten. Verwenden Sie dazu die Ressourcenkonsole und das Fenster Stoppwortliste bearbeiten.
Bei Verwendung einer schreibgeschützten Stoppwortliste können Sie im Bereich Stoppwörter dieses Fensters nichts verändern.
Abschließende Schritte
So extrahieren Sie Kandidaten: Klicken Sie auf OK.
Nach Abschluss der Extraktion von Kandidaten: Der Kandidatenlisten-Editor wird auf einer neuen Dokumentregisterkarte geöffnet.
So kehren Sie zur Projektzentrale, zum Übersetzungseditor bzw. zum Fenster Begriffe extrahieren zurück, ohne Kandidaten zu extrahieren: Klicken Sie auf Abbrechen.