立命館大学
情報理工学研究科 D2
社会知能研究室
西村 一球

Research

背景
近年、機械翻訳の翻訳精度がTOEIC900点レベルの話者と同程度まで向上し、多言語コミュニケーションの支援環境が構築されつつある。しかしながら、文化や言語の違いによって、話者間で会話に齟齬が生まれることがある。例えば、“団子”とその英訳の“dumpling”がある。dumplingは団子よりも広義な概念を表し、日本で言う饅頭や小籠包もdumplingに含まれる。一方で、概念範囲が同じでも想起されるイメージが異なる場合がある。“ゴボウ”と“burdock”は正しい対訳関係にあるが、その植物の根を食べる文化を持つ日本人は根菜のイメージを想起する。このような二言語間で単語の表す概念の違いや単語から想起されるイメージの違いを、本研究では概念の非対称性、イメージの非対称性と呼び、このような非対称性を含んだコミュニケーションを非対称コミュニケーションと定義する。

イメージベースによる提案手法
ゴボウのように翻訳結果はあっているにも関わらず、話者間でイメージの差が生まれる非対称性に対し、単語から取得できる画像の類似性に基づき文化差検出を行う手法を提案している。具体的には、日英それぞれの単語をキーワードに画像検索で取得される上位10枚ずつの画像から、CNN(畳み込みニューラルネットワーク)を用いて画像の特徴ベクトルを抽出する。抽出した10枚分の画像特徴ベクトルを単純平均によって、その単語の平均特徴ベクトルを生成する。そして、二つの単語の平均特徴ベクトルの類似度を算出することで文化差を検出する。もし、類似度が低い場合、二つの単語のイメージが異なるとして文化差ありとして検出を行う。

概念ベースによる文化差検出手法
団子の例のように翻訳結果があっているにも関わらず、言語によって表現する概念の範囲に差がある問題に対して、単語と概念が対応づいた概念辞書を用いることで文化差検出手法を提案している。具体的には、概念辞書に含まれている概念をノード、概念間のis-a関係をエッジとして概念辞書のデータをグラフ構造に落とし込む。次に、グラフから対象とする単語が対応づけられている概念の集合を取り出すことでその単語の概念範囲を定量化する。この取り出した集合の要素が異なる場合を概念範囲に差がある場合として、異言語の単語間で概念範囲が異なる単語を検出する。
Publication
国際会議
- Ikkyu Nishimura, Yohei Murakami, Mondheera Pituxcoosuvarn. Evaluation Dataset for Cultural Difference Detection Task, in Proc. of the HCI International 2022 (HCII 2022), pp. 357–369, 2022.
- Ikkyu Nishimura, Yohei Murakami, Mondheera Pituxcoosuvarn. Image-Based Detection Criteria for Cultural Differences in Translation, in Proc. of the 26th International Conference on Collaboration Technologies and Social Computing (CollabTech 2020), pp. 81-95, 2020.
国内会議
論文誌
Skill
- Python
- Java
- C言語
- HTML/CSS
- JavaScript
- R
- TOEIC:780