コーパスのアップロード

globalese by memoQでコーパスとして使用するために、2種類のファイルをアップロードできます:XMLベースのファイルおよび区切り文字付きファイル (CSV/TSV)。

一度にアップロードできる最大数値は20で、ファイルのサイズは600 MBを超えることはできません。アップロードされたファイルのエンコーディングはUTF-8である必要があります。

使用可能なファイル形式

XMLベースのファイル

ソースとターゲット言語は、ファイル自体の情報から自動的に検出されます。

XMLベースのファイルをglobalese by memoQでコーパスとして使用するために準備する際は、CATツールに準備を任せるか、TMX 1.4b仕様に従うことが重要です。標準のTMXファイルから書式設定やプレースホルダタグを削除する必要はありません。

以下のXMLベースのファイル形式が使用できます:

  • .mqxliff

  • .mxliff

  • .sdlxliff

  • .tbx

  • .tmx

  • .txlf

  • .xliff / .xlf

  • .xlz

区切りテキストファイル

区切り付きファイルは、ソースとターゲットのセグメントが同じ行にあり、タブ文字(.bi.tsv)、セミコロン(.csv)、またはカンマ(.csv)で区切られたバイリンガルテキストファイルでなければなりません。

言語を自動的に検出する方法がないため、ファイルをアップロードする前に言語を指定する必要があります。ソース言語はアップロードされたファイルの最初の列の言語であり、ターゲット言語は2列目の言語です。

次の区切りファイル形式を使用できます:

  • .bi

  • .csv(区切り文字としてコンマまたはセミコロンを使用)

  • .tsv

新しいコーパスをアップロードする

  1. コーパスに移動します。

  2. アップロードボタンをクリックします。

  3. アップロードされたファイルを割り当てるために、少なくとも1つのグループを選択します。

  4. 任意でメタデータを指定します。

  5. CSV、TBX、およびTSV形式のコーパスは、「キーワードリスト」チェックボックスを有効にすることでキーワードとしてマークできます。

  6. アップロードするファイルを少なくとも1つ選択します。ファイルをドロップゾーンにドラッグアンドドロップすることもできます。

  7. 選択されたファイルのうち1つ以上が区切り付きファイル形式(すなわちXMLベースでない)である場合、ソースとターゲット言語を指定する必要があります。

  8. アップロードボタンをクリックします。

既存のコーパスの新しいバージョンをアップロードする

globalese by memoQでコーパスのコンテンツをアップデートしたい場合、2つの選択肢があります:CATツールからのものであれば、再インポートするか、変更されたコーパスを手動でアップロードします:

  1. 更新したいコーパスに移動します。

  2. 更新ボタンをクリックします。

  3. 言語とファイル形式は事前に選択されます。

  4. モーダルウィンドウで新しいファイルを参照するか、ドロップします。

  5. アップロードボタンをクリックします。

既存のコーパスを更新するたびに、コーパスのバージョン番号が自動的に増加します。コーパスのバージョン履歴は、適切な名前のバージョンタブで確認できます。

既存のコーパスを更新しても、以前にそのコーパスでトレーニングされたエンジンには影響しません。追加、削除、および変更を有効にするには、エンジンを再トレーニングする必要があります。