等级 B2 – 中高级CEFR B2
6 分钟
354 字
拉丁美洲的多个组织正在打造开放且在地化的人工智能系统,旨在研究并减少性别不平等与暴力,并为政府与民间组织提供更可靠的证据。行动者指出,许多大型科技公司提供的算法存在偏见,反映的世界观不符合本地区在性别、种族、年龄和能力方面的现实,因此需要本地化的解决方案和更强的数据保护。
在阿根廷,女权活动者伊娃娜·费尔德费伯创立了DataGénero,并开发了开源程序AymurAI用于在法院判决文书中检索性别暴力信息。AymurAI在ChatGPT出现之前便已开发,2021年推出后在阿根廷、智利和哥斯达黎加的法院使用,系统安装在本地服务器上以保障安全与保密;它只收集原始材料并将准确检索结果存入数据库。截至目前,数据来自超过10,000份法院裁决。该项目得到加拿大国际发展研究中心(IDRC)和Patrick McGovern Foundation资助,团队计划引入音频转文字功能,以保存证词并减少受害者的二次伤害。
其他组织从政策和设计层面应对问题。智利的Derechos Digitales由贾米拉·文图里尼领导,她警告许多人工智能系统在地区外构建,因此在隐私、正义与公平方面需要在设计阶段就被纳入考量。墨西哥的PIT Policy Lab在与瓜纳华托州合作时发现有4,000名年轻人被错判为“不处于风险中”,团队随后引入开源偏见检测工具并为官员提供关于人工智能与人权、性别问题的培训。
Fundar的丹尼尔·杨克列维奇强调,行为因文化而异,预测系统必须用本地信息训练以避免“出口”偏见。各项目下一步的共同方向包括:
- 改善训练数据质量与代表性
- 增加音频转写等技术功能
- 强化数据保护和治理框架
- 推动相关公共政策并建立在地合作
难词
- 在地化 — 适合本地环境和文化在地化的
- 偏见 — 对某些群体的不公平看法
- 开源 — 公开发布源代码的软件开源程序, 开源偏见检测工具
- 检索 — 在大量文本中查找相关信息检索性别暴力信息, 检索结果
- 数据保护 — 防止数据泄露或被滥用的措施数据保护和治理框架
- 二次伤害 — 受害者在处理过程中再次受伤
- 代表性 — 样本是否能反映群体特征
- 训练数据 — 用来训练模型的输入数据训练数据质量
提示:在文章中将鼠标悬停、聚焦或轻触高亮词语,即可在阅读或听音频时快速查看简要释义。
讨论问题
- 把人工智能系统在地化可能有哪些好处和挑战?请结合文中例子说明。
- 文章提到引入音频转文字功能以保存证词并减少二次伤害。你认为在实现这一功能时应注意哪些隐私或安全问题?
- 文中提到改进训练数据的代表性和质量。作为政策制定者,你会采取哪些措施来推动这些改变?