Transformerを用いた古文→現代文の�ニューラル機械翻訳
武蔵野大学データサイエンス学部データサイエンス学科 佐々木・ウィラット・ソムゼミ
中城裕之 / 武蔵野大学データサイエンス学部1年 / 佐々木・ウィラット・ソムゼミ
2022年度 未来創造プロジェクト 成果発表会(2023/2/3)
研究概要
深層学習モデル「Transformer」を用いた機械翻訳システムを構築し、
古文から現代文へのニューラル機械翻訳を行う。
学習データには源氏物語約1万5000文対を使用する。
背景
古文の機械翻訳研究は外国語より大幅に遅れている。古文翻訳システムを広く普及させるためには、この遅れを取り戻す必要がある。
目的
今後の課題
↓
成功例(紫式部日記) | |
原文 | 御帳の東⾯は、内裏の⼥房参り集ひてさぶらふ |
人手翻訳 | 御帳台の東面の間には、主上付きの女房たちが参集して伺候する |
翻訳結果 | 御帳台の東面は、宮中の女房を参集して伺候する |
失敗例(平家物語) | |
原文 | この⼀⾨にあらざらむ⼈は、みな⼈⾮⼈なるべしとぞ宣ひける |
人手翻訳 | この⼀⾨でない⼈は、みな、⼈でないとおっしゃった |
翻訳結果 | この一門にはならない人は、皆非難されるのであった |
まとめ
システム
構成図
古文
現代文
翻訳モデル
↓
↓
Transformer
学習データ(源氏物語)
MeCab
MeCab
活用