Mithilfe des Regex-Textfilters können Sie in memoQ festlegen, dass strukturierte Textdateien verarbeitet und aus diesen Dateien zu übersetzende Inhalte extrahiert werden sollen. Zudem können Kommentare und Kontext für die importierten Inhalte extrahiert werden. Den Regex-Textfilter steuern Sie in erster Linie über reguläre Ausdrücke.
Mit dem Regex-Textfilter werden strukturierte Textdateien in drei Schritten verarbeitet:
1.Die Dateien werden in Absätze aufgeteilt. 2.Absätze, die zu übersetzenden Text enthalten, werden extrahiert. 3.Aus den extrahierten Absätzen werden zu übersetzende Texte sowie optional Kommentare und Kontext extrahiert. Für die Optionen des Filters gilt die Reihenfolge dieser drei Schritte: Als Erstes müssen Sie angeben, wie Absätze getrennt werden; als Zweites geben Sie an, wie ein importierter Absatz aussehen soll; als Drittes listen Sie die Teile auf, die tatsächlich übersetzt werden müssen. Für dieses Verfahren müssen reguläre Ausdrücke angegeben werden. Dies kann durch Ausprobieren erfolgen. Bevor Sie die Datei importieren, können Sie immer auf die Registerkarte Vorschau klicken, um zu sehen, was importiert wird.
Siehe auch: Mit regulären Ausdrücken werden Muster beschrieben, denen Absätze oder Teile von Absätzen entsprechen müssen. In memoQ werden reguläre Ausdrücke gemäß Microsoft .NET verwendet. Eine allgemeine Beschreibung der regulären Ausdrücke von .NET finden Sie in der Microsoft-Dokumentation. Beispiele zur Verwendung von regulären Ausdrücke in memoQ finden Sie in diesem Hilfethema.
Erste Schritte
Klicken Sie im Bereich Übersetzungen der Projektzentrale auf der Registerkarte Dokumente des Menübands auf die Schaltfläche Import > Import mit Optionen. Wählen Sie im Dialogfeld Öffnen in der Dropdown-Liste für den Dateityp die Option Alle Dateien aus. Klicken Sie auf Öffnen, um den Vorgang fortzusetzen. Daraufhin wird das Dialogfeld Einstellungen für Dokumentenimport angezeigt. Wählen Sie in der Dropdown-Liste Filter die Option Regex-Textfilter aus.
Hinweis: Wenn Sie von einem anderen Benutzer vordefinierte Einstellungen für reguläre Ausdrücke erhalten haben oder solche Filterkonfigurationen auf einem memoQ-Server in Ihrer Reichweite verfügbar sind, können Sie die Filterkonfiguration in der Dropdown-Liste Filterkonfiguration auswählen. In diesem Fall müssen die Einstellungen im Dialogfeld möglicherweise nicht geändert werden.
Allgemeine Einstellungen: Zeichensatztabelle, Absatztrennung und Referenzdateien
Auf der Registerkarte Allgemein können Sie die Zeichensatztabelle für den Import und Export eines Dokuments festlegen. Zudem können Sie angeben, wie Absätze getrennt werden, und Sie können Referenzdateien hinzufügen, die zum Anzeigen der Vorschau auf der Registerkarte Vorschau in memoQ verwendet werden.
Im Abschnitt Zeichensatztabelle und Zeilenumbruch können Sie die Zeichensatztabelle für den Import und Export festlegen:
•Dropdown-Liste Zeichensatztabelle importieren: Wählen Sie die Codierung der Ausgangsdatei aus. Die Standardeinstellung lautet Unicode (UTF-8); die betreffende Datei weist jedoch möglicherweise eine andere Codierung auf. Unter Umständen müssen Sie sich die Datei zuerst in einem Texteditor ansehen. Wenn die Datei jedoch mit einer sogenannten Bytereihenfolge-Marke (Byte Order Mark, BOM) beginnt, kann die Codierung darüber in memoQ ermittelt werden. Aktivieren Sie das Kontrollkästchen Dies überschreiben, wenn Unicode-Codierung von BOM erkannt wird (standardmäßig aktiviert), wenn Sie dies in memoQ zulassen möchten. •Dropdown-Liste Zeichensatztabelle exportieren: Wählen Sie aus, welche Codierung in memoQ verwendet werden soll, wenn das übersetzte Dokument exportiert wird. Standardmäßig wird die gleiche Codierung verwendet. Möglicherweise müssen Sie jedoch eine andere Codierung auswählen – beispielsweise wenn die Codierung der Ausgangsdatei nicht Unicode ist und Sie aus dem Französischen ins Japanische übersetzen. •Dropdown-Liste Zeilenumbruchstyp: Wählen Sie aus, nach welcher Art von Zeilenumbruch in der Ausgangsdatei gesucht werden soll. Normalerweise werden in memoQ alle Arten von Zeilenumbrüchen (für Windows, Linux/Unix und Mac jeweils unterschiedlich) erkannt. Möglicherweise möchten Sie jedoch einen bestimmten Typ auswählen, sodass nicht alle Zeichenfolgen, die wie ein Zeilenumbruch aussehen, als solcher importiert werden.
Im Abschnitt Absatztrennzeichen können Sie festlegen, wie in memoQ Absätze voneinander getrennt werden:
•Optionsfeld Neue Zeile: Wählen Sie dieses Optionsfeld aus, wenn eine Zeile in der Datei einem Absatz entspricht. In den meisten Fällen trifft dies auf strukturierte Textdateien zu. •Optionsfeld Leere Zeile: In einigen Formaten strukturierter Textdateien (z. B. LaTEX) bestehen Abschnitte aus mehreren Zeilen und enden mit einer leeren Zeile. Wählen Sie dieses Optionsfeld aus, sofern Ihnen eine Datei dieser Art vorliegt. •Optionsfeld Zeile nur mit Leerraum: Wählen Sie dieses Optionsfeld aus, wenn Absätze aus mehreren Zeilen bestehen und mit einer leeren Zeile enden, aber diese leere Zeile Leerraumzeichen (Leerzeichen, Tabstopps) enthalten darf. •Optionsfeld Benutzerdefinierter regulärer Ausdruck: Wählen Sie dieses Optionsfeld aus, wenn Absätze nicht durch Zeilenumbrüche oder leere Zeilen getrennt sind. Stattdessen können Sie einen regulären Ausdruck angeben, der das Ende bzw. den Anfang eines Absatzes markiert. Wenn Sie dieses Optionsfeld auswählen, müssen Sie in den Textfeldern Absatzende und Absatzanfang reguläre Ausdrücke angeben. Stellen Sie sicher, dass der reguläre Ausdruck speziell zum Ende bzw. Anfang des Absatzes passt. Das Textfeld Absatzende darf keine Muster enthalten, die sich mit dem Anfang des nächsten Absatzes überschneiden, und das Textfeld Absatzanfang darf keine Muster enthalten, die sich mit dem vorherigen Absatz überschneiden.
Im Abschnitt Referenzdateien können Sie Dateien hinzufügen, die auf der Registerkarte Vorschau angezeigt werden. Die Dateien, die Sie für den Import ausgewählt haben, werden automatisch hinzugefügt.
•Klicken Sie auf Datei hinzufügen, um der Liste eine neue Datei hinzuzufügen. •Wenn Sie eine Datei aus der Liste entfernen möchten, klicken Sie auf den Namen der Datei und anschließend auf Auswahl entfernen. |
Absatzeinstellungen: Wie sieht ein importierter Absatz aus?
Auf der Registerkarte Absatz können Sie Regeln für reguläre Ausdrücke angeben. Jede Regel muss einem ganzen Absatz entsprechen (das heißt, Sie müssen reguläre Ausdrücke angeben, die einen ganzen Absatz umfassen). Wenn eine Regel einem Absatz entspricht, wird Text daraus importiert. Auf der Registerkarte Absatz können Sie außerdem angeben, welcher Teil des Absatzes importiert wird.
Wenn Sie auf dieser Registerkarte keine Regeln angeben, werden alle Absätze zur Übersetzung importiert.
Verwenden Sie die Tabelle Absatzregeln, um die regulären Ausdrücke aufzulisten, die ganzen Absätzen entsprechen:
•Wenn Sie einen neuen regulären Ausdruck hinzufügen möchten, geben Sie ihn im Textfeld Regel ein, und klicken Sie auf Hinzufügen. •Wenn Sie einen vorhandenen regulären Ausdruck in der Liste ändern möchten, klicken Sie in der Tabelle auf die Regel, nehmen Sie die Änderungen im Textfeld Regel vor, und klicken Sie auf Ändern. •Wenn Sie einen regulären Ausdruck aus der Tabelle entfernen möchten, klicken Sie auf die Regel und anschließend auf Löschen. •Wenn Sie eine Regel in der Liste nach oben bzw. nach unten verschieben möchten, markieren Sie die Regel, und klicken Sie auf Aufwärts bzw. Abwärts. Dies kann hilfreich sein, wenn zwei Muster demselben Absatz entsprechen, aber die Inhaltsgruppen verschieden sind. In diesem Fall ist die Reihenfolge der Verarbeitung wichtig. Hinweis: Wenn Sie die regulären Ausdrücke eingeben, verwenden Sie Klammern (), um in den Ausdrücken Inhaltsgruppen zu erstellen. Wenn Sie ein Muster mit Klammern umschließen, wird damit eine Inhaltsgruppe definiert, und Sie können sich später mit Zahlen ($0, $1 usw.) darauf beziehen.
Wenn Sie in der oberen Tabelle eine Regel auswählen, können Sie mithilfe der Einstellungen im Abschnitt Auswirkung der ausgewählten Regel bestimmen, was mit dem Absatz geschehen soll. In diesem Abschnitt können Sie Inhaltsgruppen aus der ausgewählten Regel auflisten. Bei einer Inhaltsgruppe handelt es sich um einen Teil des Absatzmusters, der im regulären Ausdruck in Klammern () eingeschlossen ist. Sie können sich anhand der Zahl auf die Inhaltsgruppe beziehen: $0, $1, $2 usw.
Aus den angegebenen Inhaltsgruppen wird Text zur Übersetzung importiert.
•Wenn Sie der Liste eine Inhaltsgruppe hinzufügen möchten, geben Sie die entsprechende Zahl im Textfeld Inhaltsgruppe ein, und klicken Sie auf Hinzufügen. Wenn Sie Kontext und Kommentare für die Inhaltsgruppe benötigen, können Sie diese Informationen in den Feldern Kontext und Kommentar eingeben (bevor Sie auf Hinzufügen klicken). Dabei kann es sich um konstanten Text handeln. Sie können dort aber auch Inhaltsgruppen-Referenzen ($0, $1 usw.) verwenden. •Wenn Sie die Einstellungen für eine Inhaltsgruppe ändern möchten, klicken Sie in der Liste auf die Inhaltsgruppe, nehmen Sie die Änderungen in den Textfeldern Inhaltsgruppe, Kontext und Kommentar vor, und klicken Sie auf Ändern. •Wenn Sie eine Inhaltsgruppe aus der Liste entfernen möchten, klicken Sie in der Liste auf die Inhaltsgruppe und anschließend auf Löschen. |
Einstellungen zum Ein-/Ausschließen: Angeben der zu importierenden Texte aus einem Absatz
Auf der Registerkarte Ein-/ausschließen können Sie den Import anpassen. Auf der Registerkarte Absatz konnten Sie bereits angeben, welche Teile von welchen Absätzen importiert werden. Danach werden die Einstellungen für Ein-/ausschließen auf den Text angewendet, der aus den Absätzen importiert wird.
Für den Text, der durch die Einstellungen für Absatz zugelassen wurde, können Sie angeben, was übersetzt werden soll und was nicht.
Geben Sie zuerst mithilfe der Optionsfelder an, ob Sie Regeln für Inhalt angeben, der importiert werden soll, oder ob Sie Regeln zum Ausschließen von Textteilen angeben.
•Klicken Sie auf Regeln legen den auszuschließenden Inhalt (externe Tags) fest, wenn Sie Muster für Teile angeben, die im importierten Text nicht enthalten sein sollen. •Klicken Sie auf Regeln legen den zu importierenden Inhalt fest (nichts weiter wird importiert), wenn Sie Muster für Teile angeben, die importiert werden sollen.
In einer Regel können Sie reguläre Ausdrücke für den Inhalt an sich sowie für Inhalt, der vor und hinter dem einzuschließenden bzw. auszuschließenden Teil vorkommt, angeben.
•Wenn Sie eine Regel hinzufügen möchten, geben Sie im Textfeld Regel und optional in den Textfeldern Vor und Nach einen regulären Ausdruck ein, und klicken Sie auf Hinzufügen. •Wenn Sie eine Regel ändern möchten, klicken Sie in der Liste auf die Regel, nehmen Sie in den Textfeldern Regel, Vor und Nach Änderungen vor, und klicken Sie auf Ändern. •Wenn Sie eine Regel löschen möchten, klicken Sie in der Liste auf die Regel, und klicken Sie auf Löschen. •Wenn Sie eine Regel in der Liste nach oben bzw. nach unten verschieben möchten, klicken Sie auf die Regel und anschließend auf Aufwärts bzw. Abwärts. Dies ist hilfreich, wenn eine Regel dem gleichen Text entspricht, die Texte sich aber überschneiden (z. B. wenn ein Text mehr Zeichen umfasst als der andere). In diesem Fall ist die Reihenfolge der Verarbeitung wichtig. |
Vorschau: Anzeigen der importierten bzw. nicht importierten Texte
Auf der Registerkarte Vorschau wird Text aus einer der Referenzdateien angezeigt, die Sie auf der Registerkarte Allgemein angegeben haben. Speziell wird in der Vorschau der Text angezeigt, der aus dem Dokument importiert wird. Mithilfe der Vorschau können Sie Folgendes überprüfen:
•Ist die Zeichencodierung richtig? (Werden alle Zeichen richtig angezeigt?) •Sind die Absätze richtig getrennt? (Jede Zeile zwischen zwei horizontalen Linien entspricht einem Absatz.) •Ist der importierte Text richtig hervorgehoben? Wenn alle drei Fragen mit "ja" beantwortet werden, können Sie auf OK klicken, um die Datei zu importieren.
Wichtig: Im Screenshot unten ist ein reales Beispiel für das Importieren einer INI-Datei dargestellt. Diese Vorschau wird in memoQ nicht standardmäßig angezeigt.
In der Dropdown-Liste Referenzdatei können Sie auswählen, welche Referenzdatei angezeigt werden soll. Standardmäßig wird die erste Referenzdatei angezeigt.
Über das Drehfeld Textlimit können Sie angeben, wie viel Text angezeigt wird. Normalerweise werden die ersten 16 Kilobyte der Datei angezeigt. Dies entspricht in Abhängigkeit von der Zeichencodierung der Datei etwa 4.000 bis 16.000 Zeichen.
Auf der Registerkarte Vorschau werden die Absätze durch horizontale Linien getrennt angezeigt. Es wird farblich angegeben, was importiert wird und was nicht:
•Wenn eine Textstelle mit grauem Hintergrund (in schwarzen oder roten Buchstaben) angezeigt wird, wird sie nicht importiert. Wenn die Buchstaben schwarz sind, wird der Inhalt aufgrund der Regeln auf der Registerkarte Absatz übersprungen. Wenn der Text rot ist, wurde er aufgrund der Regeln auf der Registerkarte Ein-/ausschließen ausgeschlossen. •Wenn eine Textstelle mit grünem Hintergrund angezeigt wird, wird sie importiert. •Bei Text mit weißem Hintergrund handelt es sich entweder um einen Kommentar (fett gedruckte Buchstaben) oder um Kontext (kursiv gedruckte Buchstaben) für den Absatz.
Siehe auch:
•Regex-Tagger •Reguläre Ausdrücke •Knowledge Base-Artikel zum Importieren von mehrzeiligem Text |
|