📖+30 XP
🎧+20 XP
✅+35 XP
レベル B1 – 中級CEFR B1
4 分
190 語
スタンフォード大学人間中心人工知能研究所(HAI)が2025年に発表した論文は、多くの人気の大規模言語モデルが英語以外での性能が低いと指摘しました。研究は、オンラインが英語で支配されていることと、開発者が英語データに頼る傾向が格差の原因だとしています。
研究者らは、GoogleやMetaが一部関わった公共のモデルも含め、世界の多数派のニーズに合わない応答を生成することがあると述べます。報道では、クルド語やスワヒリ語を話す何百万もの人々が実質的に優先されていないと書かれています。
さらに、Wiredはタミル語でメールを書かせると英語が混ざったまとまりのない下書きが出る例を示しました。MIT Technology Reviewは、低リソース言語のウェブデータに機械翻訳の誤りが多いと報告し、誤りが学習データに取り込まれる問題も指摘しています。
難しい単語
- 大規模言語モデル — 大量 の テキスト で 学ぶ 言語 モデル
- 性能 — 機械 や ソフト の 動き の 良さ
- 格差 — 扱い や 状況 に 違い が ある こと
- 優先する — 先 に 大事 に する こと優先されていない
- 低リソース言語 — 利用 できる データ が 少ない 言語
- 機械翻訳 — コンピューター が 自動で 翻訳する こと
- 学習データ — モデル を 学ぶ ため の 入力 情報
- 生成する — 新しい 文章 や 応答 を 作る 行為
ヒント:記事中の強調表示された単語にマウスオーバー/フォーカス/タップすると、その場で簡単な意味が表示されます。
ディスカッション用の質問
- 自分の母語は大規模言語モデルで十分に扱われていると思いますか?理由を述べてください。
- 研究が指摘する格差を減らすために、どんな取り組みが必要だと思いますか?具体例を一つ挙げてください。
- 機械翻訳の誤りが学習データに取り込まれると、どんな影響が出ると思いますか?自分の考えを書いてください。