分野特定のニューラル機械翻訳エンジンを作ってみた 〜 データ収集とパフォーマンス検証を中心に(その2)
分野特定NMTエンジンのパフォーマンス検証
分野特定のニューラル機械翻訳エンジンを作ってみた 〜 データ収集とパフォーマンス検証を中心に(その1)で集めたIT分野の中日対訳データを利用して、分野特定した日中・中日NMTエンジンを実際に試作してみました。
翻訳エンジンのモデルを作るには、OpenNMTというツールを利用しました。
では実際に、テスト文(IT分野)を翻訳し、IT分野NMTのパフォーマンスを見てみましょう。
ここに、比較対象となる汎用NMTは業界最先端のGoogle翻訳に設定しました。
テーブルの中の数字は自動評価基準であるBLEU値(4-gram)です。 (BLEUの説明)
中日 | 日中 | |
IT分野NMT | 40.79 | 35.35 |
37.53 | 28.43 |
結果のBLEU値から、IT分野のテストの場合、IT分野NMTは、少量と思われるデータ量でも、汎用のGoogle翻訳より良い評価を得られることがわかりました。
実際にIT分野NMTは汎用のGoogle翻訳よりどのような優れた訳を出したでしょうか。
以下に例を挙げます。
原文 | 参考訳 | IT分野NMT訳 | Google訳 |
过渡权重 | 移行重み | 移行重み | 移行重量 |
中国語「权重= weight」に対して、IT分野NMTの日本語訳は正しく「重み」になりましたが、Googleは誤って「权重 = weight」の汎用意味の「重量」を出力してしまいました。
このように、汎用NMTが抱えている専門用語訳の問題は、IT分野NMTを用いると改善できます。
十分でない対訳データ量でも、汎用NMTに勝る可能性のある分野特定NMT
今回は、分野特定のNMTエンジンを作るために、対訳データの収集方法を検討しました。本文で紹介した他のデータ収集手法は、別の機会があれば、紹介したいと思います。
また、パフォーマンス検証では、用いた対訳データ量が十分と言えなくても、分野特定NMTが最先端の汎用NMTに勝る可能性を示しました。
分野特定のNMTを確保した上で、ようやく顧客の期待に応える翻訳サービスを提案できるのです。その翻訳の流れは以下のような仕組みになります。
1. 入力文の分野を自動判定する機能
2. 各分野特定のNMTエンジンに渡す
3. 適切な分野エンジンからの訳文を出力
いかがでしたでしょうか。
分野特定したNMTのイメージを少し掴めましたでしょうか。
これからNMT関係の内容をさらに紹介していく予定ですので、お楽しみに!