当AI律师开始“背法条”:约翰斯·霍普金斯大学让大模型挑战真实法律推理,结果令人警醒

作者:飞雪漫天 | 发布时间:2026-04-17 06:57:33 | 阅读:3
化妆品禁用原料最新黑名单曝光,这个网红祛痘品牌上榜

每当我们谈到"人工智能能不能替代律师或税务顾问",背法条支持者往往会举出AI在律师资格考试或标准化测试中的当A大学亮眼表现。但考试题目和真实法律工作之间,律令人存在一道深深的师开始约鸿沟。现实中的翰斯霍普法律推理不是选择正确答案那么简单,而更像是金斯结果警醒在一座迷宫里按图索骥:你手里拿着一份密密麻麻的法规文件,面对一个具体的模型人的具体处境,必须一条条核对规定、挑战推理排除例外、真实计算数字,法律最终给出一个有据可查、背法条经得起追问的当A大学结论。

研究团队正是律令人抓住了这个痛点。他们构建了一个包含6232个真实任务的师开始约测试集,横跨美国联邦税法、翰斯霍普航空行李政策、美国移民行政裁决以及各州住房法律四个领域。这四个领域有一个共同特点:它们都充满了"如果……那么……除非……"式的条件嵌套,稍有疏漏就可能得出错误结论,而错误的后果往往不是无关紧要的小事,而是真金白银的罚款、被拒之门外的签证申请或者被驱逐的租户。

更关键的是,研究团队不仅仅测试AI能否给出正确答案,他们还探索了一种更严格的"可追溯"解题方式:让AI把法规和案件事实翻译成可以在电脑上实际运行的Prolog逻辑程序,由程序给出最终答案。这就好比不仅要求学生写出答案,还要展示完整的运算过程,并且这个过程必须严格正确、一步都不能错。测试结果对当前最强大的AI模型而言相当严峻,最好的模型在最难的子集上也只答对了不到一半的题目,而且增加"思考时间"也并不总能带来改善。

一、法律推理为什么难?从"背法条"到"懂法律"的天壤之别

理解这项研究的核心,得先明白一件事:知道一条法律规定的文字,和能够把这条规定正确地应用到千变万化的具体情况中,是两回事。

以联邦税法为例。法律条文规定,已婚纳税人如果符合"幸存配偶"身份,可以适用某个税率档次。但判断某人是否是"幸存配偶",需要确认其配偶去世的年份、该纳税人是否再婚、家里是否有符合条件的受抚养人、房子是否由该纳税人维持……这些条件每一个都有精确的定义,而且可能相互影响。一个真实案例里,还会夹杂着雇佣农业工人的情况,这又触发了联邦失业保险税的计算。要把所有这些因素都正确地识别出来,准确地应用到具体的人身上,并最终算出一个精确到美元的税额,需要的不仅仅是"知道"这些规则,而是系统、严密地"运用"它们。

研究团队把这种推理能力称为"义务推理"(deontic reasoning),意思是推理关于"义务、许可和禁止"的问题。日常语言里,"你必须申报所有收入""你可以申请此类豁免""你不得在未申请许可的情况下驱逐租客"这类表述,正是义务推理的对象。现有的AI测试大多聚焦于数学题或百科知识,而DeonticBench专门针对这种在真实高风险场景下、依据明确规则进行的推理,是目前这一方向上规模最大的公开基准。

相比已有的类似测试集,DeonticBench有几个显著的不同之处。其一,规模更大,6232个任务约是此前最接近的同类测试集RuleArena的七倍以上。其二,领域更真实,四个领域都是普通人可能真实遭遇的场景,而非人工合成的逻辑题。其三,每个任务都配有一套经过人工验证的参考Prolog程序,这既可以作为AI学习的"标准答案",也可以用来分析AI犯错的具体原因。

二、四个考场,四种为难

DeonticBench的四个领域各有侧重,像是四种不同难度和类型的法律考场。

联邦税法部分沿用了一个叫SARA的已有数据集,并做了重要改进。原始版本里,税法规则已经提前编写成Prolog背景程序,AI只需要应用;而在DeonticBench里,AI必须从头根据自然语言写成的法律条文生成完整的Prolog程序,这更接近真实的工作情景。这部分分为两类题目:一类要求计算具体的税额(SARA Numeric),另一类要求判断某个关于税法的陈述是"与法条相符"还是"与法条矛盾"(SARA Binary)。

航空行李政策部分来自另一个已有数据集RuleArena,考的是数值计算能力。给定一位乘客的舱位级别、行李的数量和尺寸重量,以及具体的航空公司政策,AI需要算出旅客总共应该支付多少费用。听起来不复杂,但当行李既超重又超尺寸,还要考虑商务舱免费托运额度和最优化选择时,正确答案的获取需要严格按照规则一步步推算。

住房法律部分来自一个法律检索领域的研究,包含了五千多个二元问答题,每题都基于具体州的住房法规。模型必须理解条文、识别相关规定,并给出是或否的判断。这部分的挑战在于:不同州的法律各不相同,而且题目往往需要从多条法规中综合推断,而不是直接照搬某一条文。

最值得关注的是全新构建的移民行政裁决部分(USCIS-AAO)。研究团队从美国公民及移民服务局行政上诉办公室公开发布的2022至2025年裁决文件中筛选出6483份有效案例,最终经过分层抽样和人工平衡,形成包含242个案例的数据集,其中"裁决接受"和"裁决驳回"各121个。每个案例由法律依据、分析论证和最终裁定三部分构成,研究团队特别用AI辅助提取了不含法律分析结论的"纯事实叙述",确保AI在解题时无法从案例文本中直接"偷看"答案。这个新数据集要求模型综合运用多重法律标准,判断一次移民申请上诉应当被接受还是驳回。

三、Prolog这把"验证之尺"是什么

在深入理解测试结果之前,有必要介绍一下Prolog这种工具,因为它在这项研究中扮演了关键角色。

Prolog是一种逻辑编程语言,诞生于1970年代。与Python或Java那种按步骤告诉计算机"先做这个再做那个"的语言不同,Prolog的工作方式更像是数学推导:你告诉程序一些事实和规则,然后提出一个问题,程序会自动推导出答案。举个例子,你告诉程序"所有哺乳动物都是温血动物","狗是哺乳动物",然后问"狗是温血动物吗",程序会自动回答"是"。

把这个逻辑扩展到法律推理,就是:把法律条文翻译成"如果……那么……"形式的规则,把案件事实翻译成具体的事实陈述,然后向程序提问,由程序严格按照规则推导出结论。这种方式有两个显著优点:其一,答案是由逻辑推导得出的,每一步都有据可查;其二,只要规则和事实被正确翻译,结论就一定正确。这就好比用计算器算账,只要你输入的数字和公式都对,结果就不会错。

DeonticBench的独特之处在于为每一个任务配备了经过人工验证的参考Prolog程序。研究团队用OpenAI的o3模型为每个任务生成Prolog代码,由SWI-Prolog解释器验证能否正确运行并得到正确答案,对失败的案例给一次重试机会,再失败则丢弃。生成的代码还要经过人工验证,检查以下几点:规则覆盖是否完整、案件事实是否准确无泄露、代码能否正常运行,以及答案是否与标准答案一致。这套流程产出的参考程序,既是评测标准,也是供模型学习的训练素材。

正是因为有了这套可以实际运行的程序,研究团队能够对AI的错误进行精细的解剖分析,而不只是知道"答对了还是答错了"。

四、"最难的那批题"与评测方法

在整个DeonticBench中,最让研究团队引以为豪的是一批精心筛选的"难题子集"(hard set)。这批题目的产生方式颇有意思:首先让三个最强的前沿模型——OpenAI o3、GPT-5.2和Claude 4.5 Sonnet——各对每道题目进行两次尝试,只要其中任何一次失败,这道题就被标记为"潜在难题";然后经过人工审核,去掉其中本身有歧义或表述不清的问题,保留真正有挑战性的那些。最终,这批难题被分成两部分:一部分放入评测集,另一部分放回训练集,确保评测时模型看到的都是没练习过的题目。

之所以强调难题子集,是因为随着AI能力不断提升,很多原本"有挑战性"的基准已经接近饱和,成绩差异越来越小,很难区分模型的真实水平。把精力集中在少量真正棘手的题目上,既省钱又更能说明问题。

评测中,每道题目会被模型回答多次(税法和移民题各4次,行李和住房题各3次),通过对这些答案进行统计分析来估计模型的稳定性,并给出带有置信区间的成绩。评分标准方面,数值计算类题目(税额和行李费)允许1美元的误差,二元判断题(法条符合还是矛盾、申请接受还是驳回、是还是否)使用宏平均F1分数,确保即使类别不均衡也能公平评估。

五、三种解题策略:直接回答、零样本和少样本

每个模型都以三种方式面对题目,分别对应三种解题策略,犹如三种不同的备考方式。

最直接的方式是让模型仅凭思维链推理给出最终答案,不生成任何Prolog程序。这就像让考生直接给出答案,不需要写出演算过程。这种方式最简洁,但也最不透明,出错了也难以追究原因。

第二种方式是"零样本Prolog生成":给模型看法规文本和案件事实,让它从头生成一个完整的Prolog程序,然后实际运行这个程序来得到答案,整个过程没有任何示例可以参考。这像是给考生一份题目和一本规则手册,然后要求他们用这本手册写出一套可以在计算机上运行的推理机器。

第三种方式是"少样本Prolog生成":在上述基础上,额外提供几个已经写好的示例程序,供模型参考和模仿。这是其中门槛最高的一种,因为生成的程序必须能实际运行、能调用正确的法律条款,并且输出正确的结论。

六、成绩单:最强大模型也只答对不到一半

研究团队一共测试了八个通用大语言模型,包括GPT-4.1、GPT-5.1、GPT-5.2、O3、Claude 4.5 Sonnet、Gemini 2.5 Flash、Kimi K2 Instruct以及Qwen3-235B,另外还有三个专门的代码生成模型。测试结果在难题子集上颇为惨淡。

以最直观的数值来看:在税法数值计算(SARA Numeric)这道"算算Alice今年要交多少税"的题目上,o3在零样本Prolog生成策略下取得了44.4%的准确率,这是所有模型和所有策略中的最高分;而GPT-5.1在零样本策略下也达到了44%。在住房法律判断题(Housing)上,GPT-4.1和GPT-5.1的少样本策略分别达到了46.6和46.8的宏平均F1,同样是各自的最高水平。换句话说,即便是当今最强大的模型,在这些真实法律推理任务的难题部分,成功率也仅仅勉强接近一半。

还有一些现象令人深思。o3在行李费计算题的少样本策略下表现惊人,达到了90.8%的准确率,但在税法数值计算的同样策略下只有15.2%。这说明模型的能力是高度任务特定的,擅长处理一种结构的规则计算,不代表在另一种同样基于规则的任务上也会表现良好。

更有趣的是不同策略之间的巨大差距。以Qwen3-235B为例,在税法数值计算上,少样本策略只有0.7%,几乎完全失效;零样本策略稍好一点,也只有8.7%;但切换到直接回答策略(不生成Prolog),成绩跳升至32.1%。类似的情况在Kimi K2上也出现了:在税法二元判断题上,直接回答策略取得了68.4的F1,是该模型该领域的最高水平。这说明不同模型对不同提示方式有截然不同的敏感度,没有一种策略能在所有模型和所有领域上都取得最好的效果。

开源模型与前沿闭源模型之间的差距也相当明显。开源模型在少样本和零样本Prolog生成策略上普遍表现较差,而且对提示方式更为敏感,成绩波动更大。在二元判断题上,这种差距有所收窄,直接回答策略能让开源模型取得相对有竞争力的分数,但在需要精确计算的数值题上,开源模型依然明显落后。

还有一个关于"更多思考"是否有帮助的专项测试值得一提。研究团队对o3、GPT-5.1、GPT-5.2等支持调节思考深度的模型,分别在低、中、高三个推理强度下测试了税法数值计算题,结果发现增加推理强度并不能稳定提升成绩,有时甚至出现负面效果。这意味着,靠让模型"想得更久"来解决这类问题,并非可靠的策略。

七、把错误放到显微镜下:四种犯错方式

因为每个任务都有参考Prolog程序,研究团队得以对GPT-5.1、GPT-5.2和o3在难题上的失败案例进行逐一分析,将错误归入四个类别。

第一类错误是"选错法条":模型应用了错误的法律条款、错误的子条款,或者在行李费计算中查错了费率表。这类错误在住房法律题中占据压倒性优势,少样本策略下高达96.8%的失败案例属于这一类;零样本策略下也有93.5%。在移民行政裁决题中,零样本策略的失败案例中有77.3%属于选错法条。这说明,在需要从大量条文中识别最相关规定的任务上,模型的检索和对应能力是最大的瓶颈。

第二类错误是"事实编码失误":法条找对了,但案件中的具体信息没有被正确提取和编码。比如,婚姻状况、抚养关系、行李类型等事实细节被错误地表示。这类错误在税法任务中尤为突出,在税法数值计算的零样本策略下,52%的失败案例属于这一类。

第三类错误是"数值计算错误":法条找对了,事实也提取正确了,但在具体的数学运算上出了差错,比如超出限额的计算、行李数量最优化选择等。行李费计算任务的少样本策略下,100%的失败案例都属于这一类,零样本策略下也有75%。这说明即便规则和事实都对了,精确的算术运算对模型来说仍然是一道难关。

第四类错误是"程序实现缺陷":Prolog代码本身在语法或运行时出现了低级错误,与推理逻辑无关。这类错误在移民行政裁决题的少样本和零样本策略下各占42.3%和22.7%,说明这个领域的任务对代码生成质量的要求也特别高。

由此可以得出一个重要判断:不同领域的问题有不同的瓶颈,不存在一个能一次性解决所有问题的通用改进方案。要提升住房法律题的成绩,关键是改善规则检索和匹配;要提升税法题的成绩,关键是改善信息提取;要提升行李费计算题的成绩,关键是改善数值计算的可靠性。

八、能通过训练弥补差距吗?

研究团队还尝试了通过训练来改善模型在这类任务上的表现,选择的基础模型是Qwen2.5-32B-Instruct,这是一个性能均衡的开源模型。训练方式包括三种:监督微调(SFT)、直接偏好优化(DPO)和一种改进版的强化学习方法(Dr. GRPO)。

监督微调的原理是让模型反复看正确的Prolog程序,学习如何从法规文本生成正确的代码。DPO则是在此基础上,同时给模型看"好的答案"和"差的答案",让模型学会区分和偏向正确解法。Dr. GRPO是一种强化学习方法,通过让模型生成多个答案,然后用实际运行结果作为奖励信号来引导模型改进:如果生成的程序能正确运行并给出正确答案,给满分奖励;如果代码无法运行但使用了正确的谓词结构,给一个小额部分奖励;其他情况得零分。

训练确实带来了改进,特别是在二元判断类任务上。以移民行政裁决题为例,基础模型在少样本策略下只有10.3分,经过SFT训练后提升到35分,再加上DPO后提升到45.7分。这说明训练对模型的分类判断能力有明显帮助。

然而,税法数值计算题几乎没有从任何训练方式中受益,所有方法在所有策略下都维持在个位数水平。这个强烈的对比说明,精确的规则计算是一个比分类判断困难得多的问题,当前的训练方法还不能可靠地解决它。

强化学习方法虽然在某些任务上(如航空行李和税法二元判断)达到了最好成绩,比如GRPO+DPO+SFT在行李费计算上达到了60.4,在税法二元判断上达到了54.0,但这些提升并不稳定,跨任务表现参差不齐。更值得注意的是,训练之后的模型对提示方式依然高度敏感:行李费计算最好用少样本策略,但移民行政裁决最好用直接回答策略,这种对提示方式的依赖性在训练前后并没有得到根本改变。

九、专门代码模型表现如何?

研究团队还额外测试了三个专门针对代码生成优化的模型:GPT-5.2-Codex、Qwen3-Coder-Next以及Qwen3-Coder-480B。

GPT-5.2-Codex的表现最为突出,在行李费计算的少样本策略下达到了95.5%的惊人准确率,在税法数值计算的零样本策略下也达到了45.8%,是所有模型中的最高分之一。然而,它的表现同样对提示方式极为敏感,而且置信区间很宽,说明结果的稳定性存疑。

Qwen系列代码模型则在许多设置下几乎完全失效,给出零分或接近零分的成绩,说明这些模型在生成符合法律推理需要的Prolog代码方面存在严重困难。研究团队指出,尽管这些模型具备强大的通用代码生成能力,但将这种能力迁移到高度特定的法律逻辑推理场景,仍然是一个尚未解决的难题,而且细微的提示变化就可能导致灾难性的失败。

由此可见,DeonticBench揭示了一个值得警惕的现象:在标准编程任务上表现卓越的代码模型,并不能自然地转化为可靠的法律推理工具,两者所需的能力有实质性差异。

归根结底,这项研究用扎实的数据回答了一个每个人都可能关心的问题:当AI说它能"帮你处理法律事务"时,它真正擅长的是什么,又在哪里力不从心?答案是清醒而具体的:即便是当今最强大的模型,在真实法律推理的困难情况下,正确率也只能勉强达到五成上下。错误的来源是多样的,有时是找错了法条,有时是提取事实出了偏差,有时是数学算错了,有时干脆就是代码写出了低级错误。通过训练可以有所改善,但改善幅度有限,而且进展不均衡。

DeonticBench的价值不在于给AI打了一个低分,而在于它清晰地揭示了"哪里出了问题"以及"问题各不相同"。这对于真正想要改进AI在法律、税务、政策领域应用的研究者和开发者而言,提供了一张有用的路线图。研究团队明确提醒,他们发布这个基准纯粹用于研究和评估,模型的输出不应被视为专业的法律、税务或政策建议,任何真实的高风险决策都应有人类专业人士的监督。

对于普通读者而言,这项研究传递了一个实际而有用的信息:AI在法律和政策问题上目前仍然不够可靠,特别是当问题比较复杂、需要多条规则交叉应用时,出错的概率相当高。用AI来快速了解法规的大致内容,可能是有帮助的;但真正依赖AI给出一个精确的法律结论——比如你今年到底该交多少税,或者你的签证申请能否被接受——风险依然很高。

这项研究的完整内容可通过arXiv平台以论文编号arXiv:2604.04443查阅。

Q&A

Q1:DeonticBench测试的是AI的什么能力,和普通AI测试有什么不同?

A:DeonticBench专门测试AI在真实法律和政策场景下按照明确规则进行推理的能力,覆盖美国税法、航空行李政策、移民行政裁决和住房法律四个领域。与大多数只考数学或百科知识的AI测试不同,DeonticBench要求模型在长篇法规文本和具体案件事实之间建立精确对应,还可选择把推理过程转化为可实际运行的Prolog逻辑程序,这让出错的地方得以被精确追踪和分析。

Q2:DeonticBench的测试结果中,当前最强的AI大概能答对多少题?

A:在最难的题目子集上,成绩最好的情况是OpenAI o3在税法数值计算的零样本Prolog策略下达到44.4%的准确率,GPT-4.1和GPT-5.1在住房法律判断题上达到约46.6到46.8的宏平均F1分数。换句话说,即便是当今最顶尖的模型,在这些真实法律推理难题上也只能答对不到一半,而且不同任务和提示方式之间的成绩波动很大。

Q3:DeonticBench为什么要用Prolog语言来验证AI的推理过程?

A:Prolog是一种逻辑编程语言,可以把法律规则和案件事实翻译成计算机可以严格推导的程序,由此得到的答案每一步都有明确依据。用Prolog验证有两个好处:一是答案由逻辑推导产生,不是凭感觉猜测,可靠性高;二是当程序运行失败或答案错误时,研究者能精确定位是法条选错了、事实提取有偏差、数值计算出错了,还是纯粹的代码语法问题,从而找到有针对性的改进方向,而不是只知道"答错了"。