Regex-Textfilter - Strukturierte Textdateien
Mit dem Regex-Textfilter können in memoQ strukturierte Textdateien importiert und aus diesen Dateien zu übersetzende Inhalte extrahiert werden. Zudem können Kommentare und Kontext für die importierten Inhalte extrahiert werden.
Hier ein einfaches Beispiel einer strukturierten Textdatei:
Den Regex-Textfilter steuern Sie in erster Linie über reguläre Ausdrücke.
Mit dem Regex-Textfilter werden strukturierte Textdateien in drei Schritten verarbeitet:
- Die Dateien werden in Absätze aufgeteilt.
- Die Absätze, die zu übersetzenden Text enthalten, werden ermittelt und extrahiert.
- Aus den extrahierten Absätzen werden zu übersetzende Texte sowie optional Kommentare und Kontext extrahiert.
Die Optionen des Filters entsprechen diesen drei Schritten.
- Sie müssen angeben, wie Absätze getrennt werden.
- Sie legen fest, wie ein importierter Absatz aussieht.
- Sie listen die Teile auf, die tatsächlich übersetzt werden müssen.
Für dieses Verfahren müssen reguläre Ausdrücke angegeben werden. Dies kann durch Ausprobieren erfolgen. Dabei wird eine Registerkarte mit einer Vorschau angezeigt, in der Sie sehen können, welche Teile importiert werden und welche nicht.
Reguläre Ausdrücke sind erforderlich: Mit regulären Ausdrücken können Sie Muster beschreiben, denen Absätze oder Teile von Absätzen entsprechen müssen. In memoQ werden reguläre Ausdrücke gemäß Microsoft .NET verwendet. Eine allgemeine Beschreibung der regulären Ausdrücke von .NET finden Sie in der Microsoft-Dokumentation. Beispiele zur Verwendung von regulären Ausdrücken in memoQ finden Sie in unserem Artikel über reguläre Ausdrücke.
Navigation
- Importieren Sie eine strukturierte Textdatei.
- Wählen Sie im Fenster Dokument-Importoptionen die Textdateien aus, und klicken Sie auf Filter und Konfiguration ändern.
- Das Fenster Einstellungen für Dokumentenimport wird angezeigt. Wählen Sie in der Dropdown-Liste Filter die Option Regex-Textfilter aus.
Möglicherweise erhalten Sie Einstellungen: Wenn Sie von einem anderen Benutzer vordefinierte Einstellungen für reguläre Ausdrücke erhalten haben oder eine Filterkonfiguration auf einem memoQ TMS verfügbar ist, können Sie die Filterkonfiguration in der Dropdown-Liste Filterkonfiguration auswählen. In diesem Fall müssen die Einstellungen im Dialogfeld möglicherweise nicht geändert werden.
Möglichkeiten
Auf der Registerkarte Allgemein können Sie die Zeichensatztabelle für den Import und Export eines Dokuments festlegen. Zudem können Sie angeben, wie Absätze getrennt werden, und Sie können Referenzdateien hinzufügen, die in memoQ zum Anzeigen der Vorschau auf der Registerkarte Vorschau verwendet werden.
Im Abschnitt Zeichensatztabelle und Zeilenumbruch können Sie die Zeichensatztabelle für den Import und Export festlegen:
- Dropdown-Liste Zeichensatztabelle für Import: Wählen Sie die Codierung der Ausgangsdatei aus. Normalerweise wird Unicode (UTF-8) verwendet, die jeweiligen Dateien können jedoch eine andere Codierung aufweisen. Unter Umständen müssen Sie sich die Datei in einem Texteditor ansehen. Wenn die Datei jedoch mit einer Bytereihenfolge-Marke (Byte Order Mark, BOM) beginnt, wird die Codierung darüber ermittelt. Wenn Sie die Codierung selbst festlegen möchten, deaktivieren Sie das Kontrollkästchen Dies überschreiben, wenn Unicode-Codierung von BOM erkannt wird.
- Dropdown-Liste Zeichensatztabelle für Export: Wählen Sie aus, welche Codierung in memoQ verwendet wird, wenn das übersetzte Dokument exportiert wird. Normalerweise wird dieselbe Codierung wie im Ausgangsdokument verwendet. Möglicherweise müssen Sie jedoch eine andere Codierung auswählen. Dies ist beispielsweise der Fall, wenn der Ausgangstext nicht in Unicode codiert ist und Sie aus dem Französischen ins Japanische übersetzen.
- Dropdown-Liste Zeilenumbruchstyp: Wählen Sie aus, nach welcher Art von Zeilenumbruch in der Ausgangsdatei gesucht werden soll. Normalerweise werden in memoQ alle Arten von Zeilenumbrüchen erkannt (für Windows, Linux/Unix und Mac jeweils unterschiedlich). Möglicherweise möchten Sie einen bestimmten Typ auswählen, sodass nicht alle Zeichenfolgen, die wie ein Zeilenumbruch aussehen, als solcher importiert werden.
In Texteditoren wird die Codierung der exportierten Datei möglicherweise nicht erkannt: Notieren Sie die Codierung für den Export, da die exportierte Datei in Texteditoren unter Umständen zunächst falsch geöffnet wird. Dies erfolgt, da die Codierung einer Nur-Text-Datei nicht leicht zu erkennen ist. Sie können die Codierung in den meisten Texteditoren manuell festlegen, wenn sie Ihnen bekannt ist.
Im Abschnitt Absatztrennzeichen können Sie festlegen, wie die Absätze getrennt werden sollen:
- Optionsfeld Neue Zeile: Klicken Sie auf dieses Optionsfeld, wenn eine Zeile in der Datei einem Absatz entspricht. In den meisten Fällen trifft dies auf strukturierte Textdateien zu.
- Optionsfeld Leere Zeile: In einigen Formaten strukturierter Textdateien (z. B. LaTEX) erstrecken sich Absätze über mehrere Zeilen und enden mit einer leeren Zeile. Klicken Sie auf dieses Optionsfeld, wenn Sie eine Datei mit mehreren Absätzen verwenden.
- Optionsfeld Zeile nur mit Leerraum: Klicken Sie auf dieses Optionsfeld, wenn Absätze aus mehreren Zeilen bestehen und mit einer leeren Zeile enden, aber die leere Zeile Leerraumzeichen (Leerzeichen, Tabstopps) enthalten kann.
-
Optionsfeld Benutzerdefinierter regulärer Ausdruck: Klicken Sie auf dieses Optionsfeld, wenn Absätze nicht durch Zeilenumbrüche oder leere Zeilen getrennt sind. Für komplexe Absätze können Sie einen regulären Ausdruck angeben, der das Ende und den Anfang eines Absatzes markiert.
Wenn Sie auf dieses Optionsfeld klicken, müssen Sie auch in den Textfeldern Absatzende und Absatzanfang reguläre Ausdrücke angeben. Die regulären Ausdrücke müssen speziell zum Ende und Anfang des Absatzes passen. Das Textfeld Absatzende darf keine Muster enthalten, die sich mit dem Anfang des nächsten Absatzes überschneiden, und das Textfeld Absatzanfang darf keine Muster enthalten, die sich mit dem vorherigen Absatz überschneiden.
Wenn Sie Hilfe benötigen, öffnen Sie den RegEx-Assistent: Klicken Sie auf das Symbol auf der rechten Seite und erstellen Sie einen regulären Ausdruck bzw. wählen Sie einen aus der RegEx-Bibliothek. Klicken Sie dann auf die Schaltfläche Insert regex. memoQ fügt Ihren regulären Ausdruck nach Bedarf in die Textfelder ein.
Im Abschnitt Referenzdateien können Sie Dateien hinzufügen, die auf der Registerkarte Vorschau angezeigt werden. Die importierten Dateien werden in memoQ automatisch hinzugefügt.
Auf der Registerkarte Absatz können Sie Regeln für reguläre Ausdrücke angeben. Jede Regel muss einem ganzen Absatz entsprechen (d. h., Sie müssen reguläre Ausdrücke angeben, die einen ganzen Absatz umfassen). Wenn eine Regel einem Absatz entspricht, wird Text daraus importiert. Auf der Registerkarte Absatz können Sie außerdem angeben, welcher Teil des Absatzes importiert wird.
Wenn Sie Hilfe benötigen, öffnen Sie den RegEx-Assistent: Klicken Sie auf das Symbol auf der rechten Seite und erstellen Sie einen regulären Ausdruck bzw. wählen Sie einen aus der RegEx-Bibliothek. Klicken Sie dann auf die Schaltfläche Insert regex. memoQ fügt Ihren regulären Ausdruck nach Bedarf in die Textfelder ein.
Wenn Sie auf dieser Registerkarte keine Regeln angeben, werden alle Absätze zur Übersetzung importiert.
In der Tabelle Absatzregeln können Sie die regulären Ausdrücke auflisten, die ganzen Absätzen entsprechen:
-
So fügen Sie einen neuen regulären Ausdruck hinzu: Geben Sie ihn im Textfeld Regel an. Klicken Sie auf Hinzufügen.
Spezieller regulärer Ausdruck erforderlich: Der reguläre Ausdruck im Textfeld Regel muss mindestens eine Capture-Gruppe enthalten (d. h. etwas in Klammern) und darf nicht mit einem ^ (Caret) beginnen und mit einem $ (Dollarzeichen) enden.
Beispiel: Für den Text oben auf dieser Seite lautet der reguläre Ausdruck (\d+)=(.+). Damit wird in memoQ festgelegt, dass Absätze aufgenommen werden, die mit einer Zahlenfolge beginnen, auf die ein Gleichheitszeichen (=) und dann bis zum Ende des Absatzes beliebige Zeichen folgen.
-
So ändern Sie einen vorhandenen regulären Ausdruck in der Liste: Klicken Sie in der Tabelle auf die Regel. Nehmen Sie im Textfeld Regel Änderungen vor. Klicken Sie auf Ändern.
-
So entfernen Sie einen regulären Ausdruck aus der Tabelle: Klicken Sie auf die Regel. Klicken Sie auf Löschen.
-
So verschieben Sie eine Regel in der Liste nach oben oder nach unten: Markieren Sie sie, und klicken Sie auf Pfeil oben bzw. auf Pfeil unten. Dies ist hilfreich, wenn zwei Muster demselben Absatz entsprechen, aber die Inhaltsgruppen verschieden sind. In diesem Fall ist die Reihenfolge der Verarbeitung wichtig.
Markieren von Inhalten, Kontext und Kommentaren für den Import mithilfe von Inhaltsgruppen: Verwenden Sie im regulären Ausdruck Klammern ( ), um Inhaltsgruppen zu markieren. Dann können Sie anhand der Zahl auf eine Inhaltsgruppe verweisen. Die erste Inhaltsgruppe von links nach rechts lautet $1, die zweite $2 usw.
Für jede Regel können Sie festlegen, wie mit den verschiedenen Teilen des Absatzes verfahren werden soll. Klicken Sie auf eine Regel in der oberen Tabelle. Verwenden Sie dann die Einstellungen im Abschnitt Auswirkung der ausgewählten Regel, um festzulegen, welche Inhaltsgruppe dem Inhalt entspricht, welche dem Kontext usw. Geben Sie Inhaltsgruppen aus der ausgewählten Regel an.
- So fügen Sie der Liste eine Inhaltsgruppe hinzu: Geben Sie die entsprechende Zahl im Textfeld Inhaltsgruppe ein. Klicken Sie auf Hinzufügen. Diese Inhaltsgruppe wird in memoQ als zu übersetzender Text importiert. Wenn Sie Kontext und Kommentare für die Inhaltsgruppe benötigen, können Sie diese Informationen in den Feldern Kontext und Kommentieren eingeben (bevor Sie auf Hinzufügen klicken). Dabei kann es sich um konstanten Text handeln. Sie können aber auch Inhaltsgruppen-Referenzen ($0, $1 usw.) verwenden.
Im Beispiel oben muss für Inhaltsgruppe die Zahl 2 angegeben werden, da der zu übersetzende Text sich in der zweiten Inhaltsgruppe befindet. Für Kontext muss $1 angegeben werden, wenn Sie die Zahlen am Anfang der Zeilen als Kontext verwenden möchten.
- So ändern Sie die Einstellungen für eine Inhaltsgruppe: Klicken Sie in der Liste auf die Inhaltsgruppe. Nehmen Sie in den Feldern Inhaltsgruppe, Kontext und Kommentieren Änderungen vor. Klicken Sie auf Ändern.
- So entfernen Sie eine Inhaltsgruppe aus der Liste: Klicken Sie in der Liste darauf. Klicken Sie auf Löschen.
Auf der Registerkarte Ein-/ausschließen können Sie den Import anpassen. Auf der Registerkarte Absatz haben Sie bereits angegeben, welche Teile von welchen Absätzen importiert werden. Die Einstellungen für Ein-/ausschließen werden auf den Text angewendet, der aus den Absätzen importiert wird.
Für den Text, der durch die Einstellungen für Absatz zugelassen wurde, können Sie angeben, was übersetzt werden soll und was nicht.
Geben Sie zunächst mithilfe der Optionsfelder an, ob die Regeln den zu importierenden Inhalt festlegen oder ob durch die Regeln Teile des Texts ausgeschlossen werden.
- Klicken Sie auf Regeln legen den auszuschließenden Inhalt (externe Tags) fest, wenn Sie Muster für Teile angeben, die im importierten Text nicht enthalten sein sollen.
- Klicken Sie auf Regeln legen den zu importierenden Inhalt fest (nichts weiter wird importiert), wenn Sie Muster für Teile angeben, die importiert werden sollen.
In einer Regel können Sie reguläre Ausdrücke für den Inhalt an sich sowie für den Inhalt vor und nach dem einzuschließenden bzw. auszuschließenden Teil angeben.
Wenn Sie Hilfe benötigen, öffnen Sie den RegEx-Assistent: Klicken Sie auf das Symbol auf der rechten Seite und erstellen Sie einen regulären Ausdruck bzw. wählen Sie einen aus der RegEx-Bibliothek. Klicken Sie dann auf die Schaltfläche Insert regex. memoQ fügt Ihren regulären Ausdruck nach Bedarf in die Textfelder ein.
- So fügen Sie eine Regel hinzu: Geben Sie im Feld Regel einen regulären Ausdruck ein. In den Textfeldern Vor oder Nach können Sie optional weitere reguläre Ausdrücke für Zeichen vor oder nach dem Inhalt angeben. Klicken Sie auf Hinzufügen.
- So ändern Sie eine Regel: Klicken Sie in der Liste auf die Regel. Nehmen Sie in den Feldern Regel, Vor und Nach Änderungen vor. Klicken Sie auf Hinzufügen.
- So löschen Sie eine Regel: Klicken Sie in der Liste auf die Regel. Klicken Sie auf Löschen.
- So verschieben Sie eine Regel in der Liste nach oben oder nach unten: Klicken Sie auf die Regel und dann auf Pfeil oben bzw. auf Pfeil unten. Dies ist hilfreich, wenn eine Regel dem gleichen Text entspricht, die Texte sich aber überschneiden (z. B. wenn ein Text mehr Zeichen umfasst als der andere). In diesem Fall ist die Reihenfolge der Verarbeitung wichtig.
Auf der Registerkarte Vorschau wird Text aus einer der Referenzdateien angezeigt, die Sie auf der Registerkarte Allgemein angegeben haben. Speziell wird in der Vorschau der Text angezeigt, der aus dem Dokument importiert wird. Mithilfe der Vorschau können Sie Folgendes überprüfen:
- Ist die Zeichencodierung richtig? (Werden alle Zeichen richtig angezeigt?)
- Sind die Absätze richtig getrennt? (Jede Zeile zwischen zwei horizontalen Linien entspricht einem Absatz.)
- Ist der importierte Text richtig hervorgehoben?
Wenn alle drei Fragen mit "Ja" beantwortet werden können, können Sie auf OK klicken, um die Datei zu importieren.
Wichtig: Im Screenshot unten ist ein reales Beispiel für das Importieren einer INI-Datei dargestellt. Diese Vorschau wird in memoQ nicht standardmäßig angezeigt.
Wählen Sie in der Dropdown-Liste Referenzdatei die anzuzeigende Referenzdatei aus. Normalerweise wird die erste Datei angezeigt, die Sie für den Import ausgewählt haben.
Wählen Sie im Zahlenfeld Textlimit aus, wie viel Text angezeigt wird. Normalerweise werden die ersten 16 Kilobyte der Datei angezeigt. Dies entspricht in Abhängigkeit von der Codierung der Datei etwa 4.000 bis 16.000 Zeichen.
Auf der Registerkarte Vorschau werden die Absätze durch horizontale Linien getrennt angezeigt. Der importierte und der nicht importierte Text ist farblich gekennzeichnet:
- Wenn ein Textteil mit grauem Hintergrund (in schwarzen oder roten Buchstaben) angezeigt wird, wird er nicht importiert. Wenn die Buchstaben schwarz sind, wird der Inhalt aufgrund der Regeln auf der Registerkarte Absatz übersprungen. Wenn der Text rot ist, wurde er aufgrund der Regeln auf der Registerkarte Ein-/ausschließen ausgeschlossen.
- Wenn eine Textstelle mit grünem Hintergrund angezeigt wird, wird sie importiert.
- Bei Text mit weißem Hintergrund handelt es sich entweder um einen Kommentar (fett gedruckte Buchstaben) oder um Kontext (kursiv gedruckte Buchstaben) für den Absatz.
Abschließende Schritte
-
Gehen Sie folgendermaßen vor, um die Einstellungen zu bestätigen und zum Fenster Dokument-Importoptionen zurückzukehren: Klicken Sie auf OK.
Im Fenster Dokument-Importoptionen: Klicken Sie erneut auf OK, um die Dokumente zu importieren.
-
Gehen Sie folgendermaßen vor, um zum Fenster Dokument-Importoptionen zurückzukehren und die Filtereinstellungen nicht zu ändern: Klicken Sie auf Abbrechen.
-
Wenn es sich um eine Filterverkettung handelt, können Sie die Einstellungen eines anderen Filters in der Kette ändern: Klicken Sie oben im Fenster auf den Namen des Filters.