レベル B2 – 中上級CEFR B2
6 分
333 語
ワシントン大学の新しい研究は、AIが人間の行動を観察することで文化的な価値観を学べるかを調べました。研究チームは、自分を白人と識別する190人の成人と、自分をラテン系と識別する110人の成人のデータを集め、各グループごとに別々のAIエージェントを訓練しました。
エージェントの訓練には逆強化学習(逆報酬を推定する手法、inverse reinforcement learning、IRL)が使われました。通常の強化学習では明確な報酬が与えられますが、IRLではAIが人の行動を見て、その行動を動機づける目標や報酬を推定します。著者はこの方法が人が他者から学ぶ仕方に近いと述べています。
主要な実験は改変版のビデオゲーム「Overcooked」を用い、プレイヤーが玉ねぎスープを調理し配達する間に、別のプレイヤーがより長く歩かなければならない状況を観察しました。参加者は二番目のプレイヤーがボットだとは知らされておらず、自分の玉ねぎを渡すことで他者を助けるかどうかを選べました。ラテン系データで訓練したエージェントはゲーム中により多くを渡し、別の金銭寄付の試験でもより利他的に振る舞いました。
著者の一人ラジェシュ・ラオ氏は、AIに普遍的な価値観をハードコードすべきではないと述べ、開発者が文化別データの量と多様性を増やせば導入前に微調整できる可能性があると指摘しました。研究はPLOS Oneに掲載され、追加の共著者にはワシントン大学とサンディエゴ州立大学の研究者が参加しています。
難しい単語
- 逆強化学習 — 人の行動から報酬や目的を推定する方法
- エージェント — 自律的に行動するソフトウェアやプログラムAIエージェント
- 推定する — 不明な値や原因をデータから判断すること
- 利他的 — 自分より他人の利益を優先する性質利他的に
- 微調整する — 小さな変更を加えて性能を改善すること微調整できる
- 価値観 — 人や集団が重要だと考える信念や考え方文化的な価値観
ヒント:記事中の強調表示された単語にマウスオーバー/フォーカス/タップすると、その場で簡単な意味が表示されます。
ディスカッション用の質問
- 文化別データを増やすことはAIの行動や判断にどんな影響を与えると思いますか?具体例や理由を挙げて説明してください。
- この研究で使われたOvercookedの実験は、現実の協力行動をどれほどよく反映していると思いますか?理由を述べてください。
- AIに価値観を学ばせるとき、どのような倫理的または技術的な注意点があると思いますか?具体的に説明してください。