Filtre de texte regex - Fichiers de texte structurés
Avec le filtre de texte regex, memoQ peut importer des fichiers de texte structurés et en extraire du contenu à traduire. memoQ peut également extraire le contexte et les commentaires pour le contenu importé.
Voici un simple exemple d’un fichier texte structuré:
Vous pouvez principalement contrôler le filtre de texte regex à l’aide d’expressions régulières.
Le filtre de texte Regex traite les fichiers texte structurés en trois étapes:
- Cela divise les fichiers en paragraphes.
- Il identifie et extrait les paragraphes qui contiennent du texte traduisible.
- À partir des paragraphes extraits, il extrait le texte à traduire, ainsi que, de façon facultative, le contexte et les commentaires.
Les options du filtre suivent ces trois étapes.
- Vous devez préciser comment les paragraphes sont séparés.
- Vous décrivez à quoi ressemble un paragraphe importé.
- Vous énumérez les parties qui doivent vraiment être traduites.
Cette procédure nécessite d’écrire des expressions régulières, et c’est quelque chose que vous pouvez faire par essais et erreurs. Pendant que vous faites cela, memoQ vous offre un onglet d’aperçu qui montre ce qui sera importé et comment.
Vous avez besoin d’expressions régulières: Voici comment vous pouvez décrire les modèles que les paragraphes ou leurs parties doivent respecter. memoQ utilise des expressions régulières à la manière de Microsoft .NET. Pour une description générale des .NET expressions régulières, consultez la documentation de Microsoft. Pour des exemples d’utilisation des expressions régulières dans memoQ, consultez notre article sur les expressions régulières.
Comment se rendre ici
- Commencez à importer un fichier texte structuré.
- Dans la fenêtre Options d’importation de documents, sélectionnez les fichiers texte, puis cliquez sur Modifier le filtre et la configuration.
- La fenêtre Paramètres d’importation de document apparaît. Dans la liste déroulante Filtrer, choisissez le filtre de texte regex.
Vous pourriez recevoir des paramètres: Si vous avez reçu des paramètres d’expression régulière prédéfinis d’un autre utilisateur, ou s’il y a une configuration de filtre disponible sur un memoQ TMS à votre portée, vous pouvez sélectionner la configuration de filtre dans le menu déroulant de configuration du filtre. Dans ce cas, il peut être inutile de modifier les paramètres dans la boîte de dialogue.
Que pouvez-vous faire?

Dans l’onglet Général, vous pouvez définir la page d’importation et d’exportation du code pour le document. Vous pouvez également spécifier comment les paragraphes sont séparés, et vous pouvez ajouter des fichiers de référence que memoQ utilise pour afficher l’aperçu dans l’onglet Aperçu.
Dans la page de code et la section newline, vous pouvez définir la page de code d’importation et la page de code d’exportation:
- Import menu déroulant de page de code: Sélectionnez l’encodage du fichier source. Normalement, memoQ utilise Unicode (UTF-8), mais les fichiers réels peuvent être différents. Vous devrez peut-être consulter le fichier dans un éditeur de texte brut. Mais si le fichier commence par une marqueur de commande octet (BOM), memoQ l’utilise pour détecter l’encodage. Si vous souhaitez définir l’encodage vous-même, décochez la case Remplacer ceci si l’encodage Unicode peut être détecté à partir du BOM.
- Exporter la page de code déroulant: Choisissez l’encodage que memoQ utilise lors de l’exportation du document traduit. Normalement, memoQ utilise le même encodage que le document source. Mais vous devrez peut-être choisir un code différent. Vous en avez besoin si, par exemple, l’encodage source n’est pas Unicode, et que vous traduisez du français en japonais.
- Nouveau type de ligne menu déroulant: Choisissez quel type de newline memoQ devrait rechercher dans le fichier original. Normalement, memoQ détecte toutes sortes de nouveaux segments (Windows, Linux/Unix et Mac utilisent des segments différents). Vous devrez peut-être choisir un type particulier - si certaines séquences de caractères qui ressemblent à une nouvelle ligne ne doivent pas être considérées comme telles.
Les éditeurs de texte peuvent ne pas être en mesure de détecter l’encodage du fichier exporté. Notez l’encodage vers le bas car les éditeurs de texte peuvent ouvrir le fichier exporté incorrectement au départ. Cela se produit parce que l’encodage d’un fichier en texte brut ne peut pas être facilement détecté. Vous pouvez définir l’encodage manuellement dans la plupart des éditeurs de texte - si vous vous en souvenez.
Dans la section séparateur de paragraphes, vous pouvez indiquer à memoQ comment séparer les paragraphes:
- Bouton radio de nouvelle ligne: Cliquez ici si une ligne dans le fichier est identique à un paragraphe. Dans la plupart des cas, les fichiers texte structurés sont comme ça.
- Ligne vide bouton radio: Dans certains formats de fichiers texte structurés (comme LaTEX), les paragraphes s’étendent sur plusieurs lignes et se terminent par une ligne vide. Cliquez ici si vous traitez un fichier qui contient des paragraphes de plusieurs lignes.
- Ligne avec espaces vides uniquement bouton radio: Cliquez ici si les paragraphes peuvent se composer de plusieurs lignes et se terminer par une ligne vide, mais la ligne vide peut contenir des espaces (espaces, onglets).
-
Bouton radio regex personnalisé: Cliquez ici si les paragraphes ne sont pas séparés par des caractères de nouvelle ligne ou des lignes vides. Si les paragraphes sont compliqués, vous pouvez rédiger une expression régulière qui marque la fin et le début d’un paragraphe.
Si vous cliquez sur ce bouton radio, vous devez également écrire des expressions régulières dans la fin du paragraphe et les zones de texte de début du paragraphe. Les expressions régulières devraient correspondre spécifiquement à la fin et au début du paragraphe. La zone de texte de fin du paragraphe ne doit pas contenir de modèles qui chevauchent le début du paragraphe suivant, et la zone de texte de début du paragraphe ne doit pas contenir de modèles qui chevauchent le paragraphe précédent.
Si vous avez besoin d’aide, ouvrez l 'Assistant Regex : Cliquez sur l’icône
à droite, et créez une regex, ou choisissez-en une dans la bibliothèque de regex. Puis cliquez sur le bouton Insérer regex. memoQ insère votre regex dans les zones de texte au besoin.
Dans la section des fichiers de référence, vous pouvez ajouter des fichiers que memoQ affiche dans l’onglet Aperçu. memoQ ajoute automatiquement les fichiers que vous importez.
- Pour ajouter un nouveau fichier à la liste: Cliquez sur le lien Ajouter un fichier.
- Pour supprimer un fichier de la liste: Cliquez sur son nom, puis cliquez sur Supprimer le lien sélectionné.

Dans l’onglet Paragraphe, vous pouvez spécifier des règles d’expression régulière. Chaque règle devrait correspondre à un paragraphe entier (c’est-à-dire que vous devez écrire des expressions régulières qui couvrent un paragraphe entier). Si une règle correspond à un paragraphe, memoQ importera le texte à partir de celui-ci. Dans l’onglet Paragraphe, vous pouvez également spécifier quelle partie du paragraphe est importée.
Si vous avez besoin d’aide, ouvrez l 'Assistant Regex : Cliquez sur l’icône à droite, et créez une regex, ou choisissez-en une dans la bibliothèque de regex. Puis cliquez sur le bouton Insérer regex. memoQ insère votre regex dans les zones de texte au besoin.
Si vous ne spécifiez pas de règles dans cet onglet, memoQ importera tous les paragraphes pour traduire.
Utilisez le tableau des règles de paragraphe pour lister les expressions régulières qui correspondent aux paragraphes entiers:
-
Pour ajouter une nouvelle expression régulière: Écrivez-le dans la zone de texte des règles. Cliquez sur Ajouter.
Regex spécial requis: Le regex dans la zone de texte Règle doit avoir au moins un groupe de capture (c’est-à-dire quelque chose entre parenthèses), et ne doit pas commencer par un ^ (accent circonflexe) et se terminer par un $ (signe dollar).
Exemple : Pour le texte en haut de cette page, l’expression régulière est (\d+)=(.+). Cela indique à memoQ de sélectionner les paragraphes qui commencent par une séquence de nombres, suivie d’un signe égal (=), puis de tous les caractères jusqu’à la fin du paragraphe.
-
Pour modifier une expression régulière existante dans la liste: Cliquez sur la règle dans le tableau. Apportez des modifications dans la zone de texte Règle. Cliquez sur Modifier.
-
Pour retirer une expression régulière du tableau: Cliquez sur la règle. Cliquez sur Supprimer.
-
Déplacer une règle vers le haut et vers le bas dans la liste: Sélectionnez-la, et cliquez sur haut ou bas. Ceci est utile si deux modèles correspondent au même paragraphe, mais que les groupes de contenu sont différents. Dans ce cas, l’ordre de traitement est important.
Utilisez des groupes de contenu pour marquer le contenu, le contexte et les commentaires à importer: Dans les expressions régulières, utilisez des parenthèses ( ) pour marquer les groupes de contenu. Alors vous pouvez vous référer à un groupe de contenu par son numéro. Le premier groupe de contenu de gauche à droite est 1 $; le second est 2 $; et ainsi de suite.
Pour chaque règle, vous pouvez déterminer ce qui devrait arriver aux différentes parties du paragraphe. Cliquez sur une règle dans le tableau supérieur. Ensuite, utilisez les paramètres dans la section Effet de règle sélectionnée pour indiquer quel groupe de contenu est le contenu, lequel est le contexte, et ainsi de suite. Spécifiez les groupes de contenu de la règle sélectionnée.
- Ajouter un groupe de contenu à la liste: Tapez son numéro dans la zone de texte du groupe de contenu. Cliquez sur Ajouter. memoQ importera ce groupe de contenu en tant que texte à traduire. Si vous avez besoin de contexte et de commentaires pour le groupe de contenu, vous pouvez écrire ces informations dans les zones contextuelles et commentaires (avant de cliquer sur Ajouter). Cela peut être du texte constant. Mais vous pouvez également utiliser des références de groupe de contenu ($0,$1, etc.).
Pour l’exemple ci-dessus, le groupe de contenu serait 2 parce que le texte à traduire se trouve dans le deuxième groupe de contenu. Pour le contexte, vous avez besoin de 1 $ si vous voulez utiliser les chiffres au début des lignes comme contexte.
- Pour modifier les paramètres d’un groupe de contenu: Cliquez sur le groupe de contenus dans la liste. Apportez des modifications dans le groupe de contenu, lecontexte et les zones de texte des commentaires. Cliquez sur Modifier.
- Pour retirer un groupe de contenu de la liste: Cliquez dessus dans la liste. Cliquez sur Supprimer.

Dans l’onglet Include/Exclure, vous pouvez peaufiner l’importation. Dans l’onglet Paragraphe, vous avez déjà spécifié quelles parties de quels paragraphes sont importées. Les paramètres Inclure/Exclure fonctionnent sur le texte qui est importé des paragraphes.
À partir du texte qui a été autorisé par les paramètres du paragraphe, vous pouvez spécifier ce qui a besoin de traduction et ce qui ne l’a pas été.
Tout d’abord, utilisez les boutons radio pour indiquer si les règles ci-dessous décrivent un contenu qui doit être importé; ou si les règles excluent en fait des parties du texte.
- Cliquez sur Règles pour définir le contenu à exclure (balises externes) si vous rédigez des modèles pour des parties qui ne devraient pas apparaître dans le texte importé.
- Cliquez sur Règles pour définir le contenu importé (rien d’autre n’est importé) si vous rédigez des modèles pour des parties qui devraient être importées.
Dans une règle, vous pouvez écrire des expressions régulières pour le contenu lui-même, ainsi que pour le contenu qui se trouve avant et après la partie qui doit être incluse ou exclue.
Si vous avez besoin d’aide, ouvrez l 'Assistant Regex : Cliquez sur l’icône à droite, et créez une regex, ou choisissez-en une dans la bibliothèque de regex. Puis cliquez sur le bouton Insérer regex. memoQ insère votre regex dans les zones de texte au besoin.
- Ajouter une règle: Tapez une expression régulière dans la zone Règle. Optionnellement, dans les zones de texte Avant ou Après, écrivez d’autres expressions régulières pour les caractères qui apparaissent avant ou après le contenu. Cliquez sur Ajouter.
- Modifier une règle: Cliquez sur la règle dans la liste. Apporter des modifications dans la règle,avant, et après les zones de texte. Cliquez sur Ajouter.
- Supprimer une règle: Cliquez sur la règle dans la liste. Cliquez sur Supprimer.
- Déplacer une règle vers le haut ou vers le bas dans la liste: Cliquez sur la règle, puis cliquez sur haut ou vers le bas. Ceci est utile si une règle correspond au même texte, mais de manière chevauchante (par exemple, l’une couvre plus de caractères que l’autre). Dans ce cas, l’ordre de traitement est important.

L’onglet Aperçu affiche le texte d’un des fichiers de référence que vous avez spécifiés dans l’onglet Général. Plus précisément, l’aperçu montre le texte qui sera importé du document. Utilisez l’aperçu pour vérifier les éléments suivants:
- L’encodage des caractères est-il correct? (Est-ce que tous les caractères s’affichent correctement?)
- Les paragraphes sont-ils séparés correctement? (Chacun des segments entre deux barres horizontales correspond à un paragraphe.)
- Le texte importé est-il mis en évidence correctement?
Si votre réponse à toutes les trois questions est oui, vous pouvez cliquer sur OK pour importer le fichier.
Important: La copie d’écran ci-dessous montre un exemple réel d’importation d’un fichier INI. memoQ n’affiche pas cet aperçu par défaut.
Dans le menu déroulant du fichier de référence, choisissez le fichier de référence à afficher. Normalement, memoQ affiche le premier fichier que vous avez sélectionné pour l’importation.
Dans la boîte de limite de texte, choisissez combien de texte est affiché. Normalement, memoQ affiche les 16 premiers kilos du fichier. Cela représente environ 4 000 à 16 000 caractères, selon l’encodage du fichier.
L’onglet Aperçu affiche les paragraphes, séparés par des barres horizontales. Les couleurs montrent ce qui est importé et ce qui ne l’est pas:
- Si un texte apparaît avec un fond gris (en noir ou en rouge), n’est pas importé. Si les lettres sont noires, le contenu a été omis en raison des règles de l’onglet Paragraphe. Si le texte est rouge, le texte a été exclu en raison des règles sur l’onglet Include/Exclure.
- Si un élément de texte apparaît avec un fond vert, il est importé.
- Le texte avec un fond blanc est soit un commentaire (lettres en gras) soit un contexte (lettres en italique) pour le paragraphe.
Lorsque vous avez terminé
-
Pour confirmer les paramètres et revenir à la fenêtre Options d’importation de documents: Cliquez sur OK.
Dans la fenêtre Options d’importation de documents: Cliquez à nouveau sur OK pour commencer l’importation des documents.
-
Pour revenir à la fenêtre des options d’importation de documents, et ne pas changer les paramètres du filtre: Cliquez sur Annuler.
-
Si c’est un filtre en cascade, vous pouvez modifier les paramètres d’un autre filtre dans la chaîne : Cliquez sur le nom du filtre en haut de la fenêtre.