📖+40 XP
🎧+25 XP
✅+45 XP
レベル B2 – 中上級CEFR B2
7 分
374 語
スタンフォード大学人間中心人工知能研究所(HAI)が2025年に発表した論文は、多くの人気の大規模言語モデル(LLM)が英語以外の言語で性能が低いと結論づけました。研究は、オンラインの情報が英語で支配されていることと、モデル開発が英語データに依存している点が、この言語間の格差を生んでいると示しています。
研究者らは、GoogleやMetaが一部開発に関わった公共のLLMを含め、多くのモデルが世界の多数派のニーズに合わない応答を生成する場合があると指摘しました。AI企業やデータがシリコンバレーなど富裕な地域に集中していることも、格差を広げる要因だと報じられています。報道では、クルド語やスワヒリ語などを話す何百万もの人々が事実上優先されていないと伝えられています。
実用面では、Wiredがタミル語でメールを書くよう依頼した結果、英語が混ざったまとまりのない下書きが出ると報告しました。MIT Technology Reviewは、ウェブから集めた低リソース言語の多くのテキストに機械翻訳の誤りが含まれており、善意の寄稿者に正確さを検証する技能が欠けているために誤りが学習データとして強化されるケースがあると指摘しています。
The Atlanticなどは、AIの出力が資源の豊かな国の英語話者の規範や価値観を反映しやすく、非英語の視点がツールの中で見えなくなると警告しました。専門家は被害を減らすため、周縁化されたコミュニティや草の根のAIリーダーと協働し、現地の意見を取り入れ、出力の正確性や真正性を検証し、文化の違いを尊重することを提案しています。
- 地域コミュニティと協働する
- 多言語データを検証する
- 草の根開発者と連携する
難しい単語
- 大規模言語モデル — 大量のテキストで学習する言語モデル
- 格差 — 人々や地域の間の扱いの違い
- 低リソース言語 — オンラインデータや資料が少ない言語
- 機械翻訳 — コンピューターが自動で翻訳する技術
- 検証する — 正しさや正確さを確かめること検証し
- 周縁化する — 社会や制度の外に追いやること周縁化された
- 草の根開発者 — 地域や市民から出た開発者や活動者
- 真正性 — 情報や表現が本物であること
ヒント:記事中の強調表示された単語にマウスオーバー/フォーカス/タップすると、その場で簡単な意味が表示されます。
ディスカッション用の質問
- あなたの国や地域で、AIが特定の言語や方言を無視するとどんな影響がありますか。具体例を挙げて説明してください。
- 記事は地域コミュニティや草の根の関係者と協働することを提案しています。実際に協働する際の利点と課題は何だと思いますか。
- 企業や研究者が多言語対応を進めるために、どのような優先順位や方法が現実的だと考えますか。理由も述べてください。