AI决策中的性别差异现象
当要求人工智能以女性身份做决策时,它会突然对风险变得更加谨慎;而让同一个AI以男性身份思考时,它却会以更强的信心选择冒险。伊朗德黑兰阿拉梅塔巴塔巴伊大学的最新研究论文揭示,大型语言模型会根据被赋予的性别身份,系统性改变其金融风险决策的基本模式。
实验设计与核心发现
这项测试了包括OpenAI、谷歌、Meta和深度求索等公司AI系统的研究显示,当被赋予不同性别身份时,多个模型的风险承受能力会发生显著变化。其中深度求索的Reasoner和谷歌的Gemini 2.0 Flash-Lite表现最为明显——当被要求以女性身份回应时,它们会表现出更强的风险规避倾向,这与现实世界中女性通常更谨慎的金融决策模式相吻合。
研究人员采用经济学经典的霍尔特-劳里实验法,让AI在10组安全选项与风险彩票选项间做出选择。随着选项推进,风险选项的获胜概率会逐步增加。参与者从安全选项转向风险选项的时机点,能准确反映其风险偏好。
当深度求索Reasoner被设定为女性时,其选择安全选项的频率显著高于男性设定。在每组性别提示的35次测试中,这种差异具有可测量的稳定性。谷歌Gemini也呈现类似模式,不过效应强度有所波动。
各AI系统的差异化表现
值得注意的是,OpenAI的GPT模型对性别提示基本无动于衷,无论设定为男性还是女性思维,都保持风险中立态度。Meta的Llama模型则表现不稳定,时而符合预期模式,时而又完全相反。而xAI的Grok更是特立独行,偶尔会完全反转脚本,在女性提示下反而显示出更低的风险厌恶。
研究团队负责人阿里·马兹亚基指出,这本质上是人类刻板印象的反映。研究论文中明确表示:"这种观测偏差与人类决策中既定的性别模式一致,大量研究表明女性通常比男性表现出更强的风险规避倾向。"
社会影响与伦理考量
这种现象可能带来深远的社会影响。许多行为模式对用户而言并不明显——如果AI根据对话中隐含的性别暗示微妙调整建议,就可能在不被察觉的情况下强化社会偏见。例如,贷款审批系统若对女性申请人采取更保守策略,或投资顾问为女性客户推荐更安全的组合,都可能在算法客观性的外衣下延续经济不平等。
随着AI系统越来越多地参与高风险决策(从医疗诊断到刑事司法),这种性别响应性可能产生实际后果。当医疗AI面对女性医患时过度谨慎,可能影响治疗方案;假释评估算法若根据案件文件中的性别化语言调整风险计算,则会加剧系统性不平等。
技术挑战与解决路径
研究测试了从5亿到70亿参数的各种规模模型,发现模型大小并不能预测性别响应强度。某些小型模型反而比大型模型表现出更强的性别效应,说明这并非单纯依靠提升算力就能解决的问题。
这本质上是个棘手的难题。毕竟用来训练这些模型的互联网知识库——更不用说人类历史本身——充斥着关于男性鲁莽英勇和女性谨慎周到的叙事。要教会AI不同的思维方式,或许首先需要人类自身改变既有的生活模式。