法学教授更青睐人工智能生成答案
斯坦福大学近期主导的研究显示,在进行法律推理任务时,法学教授对人工智能生成答案的偏好度超过了同行撰写的答案。该研究召集了来自全美14所法学院(包括斯坦福、耶鲁、纽约大学、芝加哥大学、乔治城大学、加州大学洛杉矶分校及弗吉尼亚大学等)的16位教授,共同设计了40道涵盖法律学说、判例法、假设情景与政策议题的合同法问题。研究团队认为,这是检验现代人工智能能力的理想方式。
研究设计与评估机制
研究指出:“大型语言模型正被日益推广为教育辅助工具,但现有评估多集中于具有单一标准答案的领域。事实上,许多学科依赖判断力:包括推理过程、权衡模糊性以及得出可辩护结论的能力。法学为此提供了精准的测试场景。”在总计2918次盲审比较中,教授们需要选择他们更倾向提供给学生的答案。谷歌Gemini 2.5 Pro版本在与人类教师的对比中以75.92%的胜率领先,同公司的NotebookLM则以74.75%的胜率紧随其后。综合来看,约四分之三的评估中人工智能生成的答案获得了更高认可。
为确认结果是否反映更广泛的专业共识,研究者分析了教授们在评价相同答案对时的一致性程度。数据显示:“观察到的共识度超过了完全基于个人特质的判断预期水平,表明大型语言模型的成功源于其与学科通用标准的契合性。”
人工智能的多维度优势
研究发现,在案例/法典/学说回溯问题、假设情景分析与政策讨论等多个类别中,人工智能模型的表现均优于人类教师。为探究这种优势是否源于表面写作风格而非实质内容,研究团队还构建了词汇-句法特征体系,包括答案长度、结构组织、推理细微度、法律依据援引、表述确信度、清晰度及教学支持性等维度,以此检验这些特征对偏好模式的解释力。
在内容安全性方面,人工智能生成答案被标记为有害内容的频率显著低于教授撰写的答案。Gemini的有害内容率为3.41%,NotebookLM为3.64%,而人类教师的相应数据为12.06%。在另行的扩展模型评估中,Anthropic的Claude Opus 4.7位列第一,OpenAI的ChatGPT 5.4与Gemini 2.5 Pro紧随其后,所有参与评估的人工智能模型平均表现均超越人类教师。
研究局限与行业展望
研究者强调,该研究并未衡量答案是否符合每位教授的个性化教学偏好,这意味人工智能生成的回应可能仅被视为普遍适用方案,而非针对特定教学风格的定制内容。报告补充说明:“虽然大型语言模型的回应整体更受青睐,但当前评估框架无法直接测量其对教师个体偏好的满足程度。理论上存在这种可能性:尽管人工智能通常能提供更出色的回答,但其生成的答案仍可能仅被视作‘足够好’的解决方案。”
此项研究发布之际,法院、律师事务所及法学院正持续探索人工智能在法律职业中的合理应用模式。今年三月,洛杉矶高等法院开始测试人工智能工具以协助法官处理日益增长的案件负荷,多所法学院也陆续增设人工智能培训课程。密西西比大学法学院院长曾指出:“这些新技术作为法律实践效能倍增器的潜力不容忽视。无论学生未来从事诉讼业务还是非诉业务,雇主都将期待他们熟悉人工智能工具。我们希望雇方确信每位毕业生都具备人工智能技术应用能力。”
然而与此同时,法律行业仍面临人工智能幻觉效应及其他错误生成内容带来的挑战。四月,某国际律师事务所在美国破产法院承认,其在高调案件中提交的法律文件包含了人工智能生成的虚假引注,这再度凸显了人工智能技术在法律领域应用中亟待完善的风险管控机制。

交易所
交易所排行榜
24小时成交排行榜
人气排行榜
交易所比特币余额
交易所资产透明度证明
去中心化交易所
资金费率
资金费率热力图
爆仓数据
清算最大痛点
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
ETF追踪
索拉纳ETF
瑞波币ETF
香港ETF
比特币持币公司
加密资产反转
以太坊储备
HyperLiquid钱包分析
Hyperliquid鲸鱼监控
大额转账
链上异动
比特币回报率
稳定币市值
期权分析
新闻
文章
财经日历
专题
钱包
合约计算器
账号安全
资讯收藏
自选币种
我的关注