機械翻訳・自動翻訳の現在 : T-4OO について

4月 23rd, 2018 | Posted by admin in お知らせ | 小ネタ
'photo by geralt

最近のテレビのニュース報道やインターネット上のニュース記事で、人工知能(AI)機械学習の話題を聞かない日はありません。インターネットではもうずいぶん前から話題になっていましたが、テレビでも大きく話題になったのは、ソフトバンクの Pepper の登場あたりからでしょうか。他にもソニーの aibo もバージョンアップして話題になりました。こうしたヒト型ロボットペット型ロボットへの導入はかなりわかりやすい例ですが、もっと安価でシンプルなものとして、Google の Google Home や Amazon の Amazon Echo などのスマートスピーカ―も話題です。

こうした目に見える形がないものでも、コンピュータが膨大なデータを学習する機械学習は大きく発展しています。中国の監視カメラと連動した犯罪者追跡システム・天網など AI の画像認識技術が応用されています。やわらかめのトピックとしては Google の機械学習を応用してデカ盛りラーメンで有名な二郎で提供されるラーメンの画像から、どの店舗のラーメンなのかを 95% の精度で判定することに成功したという発表がありました。二郎ラーメンの大好きなジロリアンにも話題になったのではないでしょうか。
Cf. Google : Noodle on this: Machine learning that can identify ramen by shop(英語記事)

機械翻訳(自動翻訳)でも AI は大活躍している

こうした機械学習は、みなさんもお使いになられているであろう機械翻訳(自動翻訳)の世界でも活躍しています。Google 翻訳のサービスにも 2016/11 に機械学習をベースにした仕組みがリリースされ、精度が飛躍的に向上して話題になりました。ニューラルネットワークディープラーニングといった技術を応用して、これまでの機械翻訳(自動翻訳)とは比較にならない流暢さで翻訳をおこなってくれるようになりました。これまでは、ルールベース機械翻訳RBMT : Rule Based Machine Translation)や統計的機械翻訳SMT : Statistical Machine Translation)といった手法、あるいはその組み合わせでした。

  • ルールベース機械翻訳(RBMT) : 言語ごとの文法・辞書データと構文解析・意味解析などの自然言語処理で訳文を生成する(ルール / 辞書などのデータ作成に多大なコスト・時間がかかる)
  • 統計的機械翻訳(SMT) : 膨大な対訳データを元に統計学的に訳文を生成する(膨大な対訳データ – コーパスデータ – が必要なため、ハードウェアの高度な処理能力が求められる)

機械翻訳(自動翻訳)の歴史 : ルールベース機械翻訳

ルールベース機械翻訳は、CD-ROM(あるいはフロッピーディスク)からパソコンにインストールする翻訳ソフトの時代に全盛を極めた手法でした。Windows 95 の登場で一般家庭にもパソコンがあっという間に普及し、家電量販店に大きなソフトウェア販売フロアが出現した時代です(いまは、ずいぶん売場面積が狭くなってしましいましたね)。ちょうどインターネットも民間でも利用されはじめたころでもあります ※。ただし、パソコンにインストールする翻訳ソフトでは、原稿の登録から、翻訳処理、翻訳結果の出力までをパソコンで処理します。そのため、その当時のパソコンの処理能力に大きく依存するというネックを抱えていました。
※ 国内の某翻訳ソフトのベンダーの関係者の方に、当時有償だったブラウザソフト(現在の Firefox の前進の Netscape)とその会社の翻訳ソフトをバンドル販売したら、おもしろいように売れた……というエピソードをうかがったことがあります(インターネット黎明期は、日本語のサイトがすくなく、海外のサイトを見ることが多かったため、翻訳ソフトを介して、海外のサイトを閲覧していたわけです)

近年の機械翻訳(自動翻訳) : 統計的機械翻訳からニューラル機械翻訳へ

近年では、CPU / メモリ / 分散処理技術の向上にともない、統計的機械翻訳が台頭してきました。さらにハードウェア(特に GPU / GPGPU)の進歩とともに、機械学習 / 深層学習が発展し、Google が提供するようなニューラル機械翻訳NMT : Neural Machine Translation)が、それまでの機械翻訳と比較して、翻訳結果が格段に向上していることから、非常に注目されています。ただし、どれが一番か?ということではなく、それぞれルールベース機械翻訳の得手不得手、統計的機械翻訳の得手不得手があるように、ニューラル機械翻訳の得手不得手もあります。ニューラル機械翻訳の翻訳結果にも注意を払う必要があります。ルールベース機械翻訳や統計的機械翻訳では、こなれていない(不自然な / 流暢でない)翻訳結果になることがよくありました。翻訳結果の流暢さで注目されているニューラル機械翻訳の欠点としては、まれに訳抜けが発生したり、訳語が重複したりする……という問題があります(技術の発展とともに解消されていくのではないかと思います)。こうした問題点を受けて、ニューラル機械翻訳と既存のルールベース機械翻訳 / 統計的機械翻訳とのハイブリッドのような手法も同時進行で研究・開発されているようです。

こうした機械翻訳市場は、Google の独占市場ではなく、Microsoft や SYSTRAN といった大企業からスピード翻訳が傘下に入っている株式会社ロゼッタまで市場参入している群雄割拠の世界です。株式会社ロゼッタでは、日本語(英日・日英)をベースとした熟考という機械翻訳サービスに始まり、採用企業単位でカスタマイズ可能な T-4OO の開発・販売をおこなっています。その T-4OO では、医学・化学・法務・IT・金融の分野において、英日翻訳で精度 95%、日英翻訳で精度 90% をマークした旨のプレスリリースを発表させていただきました(2017/11/27)。

Google 翻訳には世界のあらゆる言語をあらゆる言語に翻訳する……というミッションがありますが、T-4OO は、日本語(英日・日英)をベースとして、国内の企業活動に役立てる機械翻訳サービスに特化しています。T-4OO には、以下の特徴があります。

  • 専門分野データベース :
    ロゼッタが独自に構築したデータベース。データベースは 2,000分野に細分化されており、分野ごとの専門用語・公的文書等が登録されている。分野に合わせて、その分野の適訳を得ることが可能
    ※ ロゼッタが長年蓄積してきた翻訳精度に大きく貢献できる秘伝のタレのようなものです
  • 企業別データベース :
    ご採用いただいた企業内の英語・日本語の文書を企業別データベースに登録することで、社内表現や言い回しをAIが学習し、翻訳結果に反映可能
    ※ インターネット上の翻訳サービスではできない、企業ごとのカスタマイズができる機能
  • セキュアな環境で利用可能 :
    インターネット上で無料で利用可能なサイトは情報漏えいのリスクを常に抱えているが、T-4OO では機密情報を含む重要な企業内文書の翻訳を、常にセキュアな環境で利用可能(ISMS 認証取得の設備にて外部の不正なアクセスから保護)
    ※ インターネット上のサービスの利用を禁止されている企業の方からご評価いただいています
  • さまざまなファイルタイプに対応 :
    Microsoft Word / Excel / PowerPoint / PDF などビジネスシーンでよく使われるソフトウェアで保存されたファイルをそのまま翻訳することが可能
    ※ Microsoft Word の原稿を、原文のレイアウト / スタイルを保ったままの Microsoft Word 形式で翻訳します

このあたりが、ご採用いただいた企業さまより、高評価を受けています。

T-4OO に関するお問い合わせはこちらからお寄せください(スピード翻訳株式会社は、T-4OO の販売代理店です)。上記のフォームからお問い合わせの際は、お問い合わせ対象サービスセクションで、T-4OO をお選びください。
※ T-4OO の導入には、ライセンスの費用が必要です。とりあえず、試してみたいというお客さまには、アイちゃんという T-4OO のエッセンスを都度従量課金でご利用いただけるサービスも提供しています

スピード翻訳では、これまでどおりの翻訳事業に加え、機械翻訳と翻訳者を橋渡しする事業に今後取り組んでいきます。


You can follow any responses to this entry through the RSS 2.0 Both comments and pings are currently closed.