AIは文化的価値を学べるか (日本語, レベル B2)

ワシントン大学の新しい研究は、AIが人間の行動を観察することで文化的な価値観を学べるかを調べました。研究チームは、自分を白人と識別する190人の成人と、自分をラテン系と識別する110人の成人のデータを集め、各グループごとに別々のAIエージェントを訓練しました。

エージェントの訓練には逆強化学習（逆報酬を推定する手法、inverse reinforcement learning、IRL）が使われました。通常の強化学習では明確な報酬が与えられますが、IRLではAIが人の行動を見て、その行動を動機づける目標や報酬を推定します。著者はこの方法が人が他者から学ぶ仕方に近いと述べています。

主要な実験は改変版のビデオゲーム「Overcooked」を用い、プレイヤーが玉ねぎスープを調理し配達する間に、別のプレイヤーがより長く歩かなければならない状況を観察しました。参加者は二番目のプレイヤーがボットだとは知らされておらず、自分の玉ねぎを渡すことで他者を助けるかどうかを選べました。ラテン系データで訓練したエージェントはゲーム中により多くを渡し、別の金銭寄付の試験でもより利他的に振る舞いました。

著者の一人ラジェシュ・ラオ氏は、AIに普遍的な価値観をハードコードすべきではないと述べ、開発者が文化別データの量と多様性を増やせば導入前に微調整できる可能性があると指摘しました。研究はPLOS Oneに掲載され、追加の共著者にはワシントン大学とサンディエゴ州立大学の研究者が参加しています。

難しい単語

逆強化学習 — 人の行動から報酬や目的を推定する方法

エージェント — 自律的に行動するソフトウェアやプログラム

AIエージェント

推定する — 不明な値や原因をデータから判断すること

利他的 — 自分より他人の利益を優先する性質

利他的に

微調整する — 小さな変更を加えて性能を改善すること

微調整できる

価値観 — 人や集団が重要だと考える信念や考え方

文化的な価値観