当AI律师开始“背法条”：约翰斯·霍普金斯大学让大模型挑战真实法律推理，结果令人警醒-虎狼之国网

每当我们谈到"人工智能能不能替代律师或税务顾问"，背法条支持者往往会举出AI在律师资格考试或标准化测试中的当A大学亮眼表现。但考试题目和真实法律工作之间，律令人存在一道深深的师开始约鸿沟。现实中的翰斯霍普法律推理不是选择正确答案那么简单，而更像是金斯结果警醒在一座迷宫里按图索骥：你手里拿着一份密密麻麻的法规文件，面对一个具体的模型人的具体处境，必须一条条核对规定、挑战推理排除例外、真实计算数字，法律最终给出一个有据可查、背法条经得起追问的当A大学结论。

研究团队正是律令人抓住了这个痛点。他们构建了一个包含6232个真实任务的师开始约测试集，横跨美国联邦税法、翰斯霍普航空行李政策、美国移民行政裁决以及各州住房法律四个领域。这四个领域有一个共同特点：它们都充满了"如果……那么……除非……"式的条件嵌套，稍有疏漏就可能得出错误结论，而错误的后果往往不是无关紧要的小事，而是真金白银的罚款、被拒之门外的签证申请或者被驱逐的租户。

更关键的是，研究团队不仅仅测试AI能否给出正确答案，他们还探索了一种更严格的"可追溯"解题方式：让AI把法规和案件事实翻译成可以在电脑上实际运行的Prolog逻辑程序，由程序给出最终答案。这就好比不仅要求学生写出答案，还要展示完整的运算过程，并且这个过程必须严格正确、一步都不能错。测试结果对当前最强大的AI模型而言相当严峻，最好的模型在最难的子集上也只答对了不到一半的题目，而且增加"思考时间"也并不总能带来改善。

一、法律推理为什么难？从"背法条"到"懂法律"的天壤之别

理解这项研究的核心，得先明白一件事：知道一条法律规定的文字，和能够把这条规定正确地应用到千变万化的具体情况中，是两回事。

以联邦税法为例。法律条文规定，已婚纳税人如果符合"幸存配偶"身份，可以适用某个税率档次。但判断某人是否是"幸存配偶"，需要确认其配偶去世的年份、该纳税人是否再婚、家里是否有符合条件的受抚养人、房子是否由该纳税人维持……这些条件每一个都有精确的定义，而且可能相互影响。一个真实案例里，还会夹杂着雇佣农业工人的情况，这又触发了联邦失业保险税的计算。要把所有这些因素都正确地识别出来，准确地应用到具体的人身上，并最终算出一个精确到美元的税额，需要的不仅仅是"知道"这些规则，而是系统、严密地"运用"它们。

研究团队把这种推理能力称为"义务推理"（deontic reasoning），意思是推理关于"义务、许可和禁止"的问题。日常语言里，"你必须申报所有收入""你可以申请此类豁免""你不得在未申请许可的情况下驱逐租客"这类表述，正是义务推理的对象。现有的AI测试大多聚焦于数学题或百科知识，而DeonticBench专门针对这种在真实高风险场景下、依据明确规则进行的推理，是目前这一方向上规模最大的公开基准。

相比已有的类似测试集，DeonticBench有几个显著的不同之处。其一，规模更大，6232个任务约是此前最接近的同类测试集RuleArena的七倍以上。其二，领域更真实，四个领域都是普通人可能真实遭遇的场景，而非人工合成的逻辑题。其三，每个任务都配有一套经过人工验证的参考Prolog程序，这既可以作为AI学习的"标准答案"，也可以用来分析AI犯错的具体原因。

二、四个考场，四种为难

DeonticBench的四个领域各有侧重，像是四种不同难度和类型的法律考场。

联邦税法部分沿用了一个叫SARA的已有数据集，并做了重要改进。原始版本里，税法规则已经提前编写成Prolog背景程序，AI只需要应用；而在DeonticBench里，AI必须从头根据自然语言写成的法律条文生成完整的Prolog程序，这更接近真实的工作情景。这部分分为两类题目：一类要求计算具体的税额（SARA Numeric），另一类要求判断某个关于税法的陈述是"与法条相符"还是"与法条矛盾"（SARA Binary）。

航空行李政策部分来自另一个已有数据集RuleArena，考的是数值计算能力。给定一位乘客的舱位级别、行李的数量和尺寸重量，以及具体的航空公司政策，AI需要算出旅客总共应该支付多少费用。听起来不复杂，但当行李既超重又超尺寸，还要考虑商务舱免费托运额度和最优化选择时，正确答案的获取需要严格按照规则一步步推算。

住房法律部分来自一个法律检索领域的研究，包含了五千多个二元问答题，每题都基于具体州的住房法规。模型必须理解条文、识别相关规定，并给出是或否的判断。这部分的挑战在于：不同州的法律各不相同，而且题目往往需要从多条法规中综合推断，而不是直接照搬某一条文。

最值得关注的是全新构建的移民行政裁决部分（USCIS-AAO）。研究团队从美国公民及移民服务局行政上诉办公室公开发布的2022至2025年裁决文件中筛选出6483份有效案例，最终经过分层抽样和人工平衡，形成包含242个案例的数据集，其中"裁决接受"和"裁决驳回"各121个。每个案例由法律依据、分析论证和最终裁定三部分构成，研究团队特别用AI辅助提取了不含法律分析结论的"纯事实叙述"，确保AI在解题时无法从案例文本中直接"偷看"答案。这个新数据集要求模型综合运用多重法律标准，判断一次移民申请上诉应当被接受还是驳回。

三、Prolog这把"验证之尺"是什么

在深入理解测试结果之前，有必要介绍一下Prolog这种工具，因为它在这项研究中扮演了关键角色。

Prolog是一种逻辑编程语言，诞生于1970年代。与Python或Java那种按步骤告诉计算机"先做这个再做那个"的语言不同，Prolog的工作方式更像是数学推导：你告诉程序一些事实和规则，然后提出一个问题，程序会自动推导出答案。举个例子，你告诉程序"所有哺乳动物都是温血动物"，"狗是哺乳动物"，然后问"狗是温血动物吗"，程序会自动回答"是"。

把这个逻辑扩展到法律推理，就是：把法律条文翻译成"如果……那么……"形式的规则，把案件事实翻译成具体的事实陈述，然后向程序提问，由程序严格按照规则推导出结论。这种方式有两个显著优点：其一，答案是由逻辑推导得出的，每一步都有据可查；其二，只要规则和事实被正确翻译，结论就一定正确。这就好比用计算器算账，只要你输入的数字和公式都对，结果就不会错。

DeonticBench的独特之处在于为每一个任务配备了经过人工验证的参考Prolog程序。研究团队用OpenAI的o3模型为每个任务生成Prolog代码，由SWI-Prolog解释器验证能否正确运行并得到正确答案，对失败的案例给一次重试机会，再失败则丢弃。生成的代码还要经过人工验证，检查以下几点：规则覆盖是否完整、案件事实是否准确无泄露、代码能否正常运行，以及答案是否与标准答案一致。这套流程产出的参考程序，既是评测标准，也是供模型学习的训练素材。

正是因为有了这套可以实际运行的程序，研究团队能够对AI的错误进行精细的解剖分析，而不只是知道"答对了还是答错了"。

四、"最难的那批题"与评测方法

在整个DeonticBench中，最让研究团队引以为豪的是一批精心筛选的"难题子集"（hard set）。这批题目的产生方式颇有意思：首先让三个最强的前沿模型——OpenAI o3、GPT-5.2和Claude 4.5 Sonnet——各对每道题目进行两次尝试，只要其中任何一次失败，这道题就被标记为"潜在难题"；然后经过人工审核，去掉其中本身有歧义或表述不清的问题，保留真正有挑战性的那些。最终，这批难题被分成两部分：一部分放入评测集，另一部分放回训练集，确保评测时模型看到的都是没练习过的题目。

之所以强调难题子集，是因为随着AI能力不断提升，很多原本"有挑战性"的基准已经接近饱和，成绩差异越来越小，很难区分模型的真实水平。把精力集中在少量真正棘手的题目上，既省钱又更能说明问题。

评测中，每道题目会被模型回答多次（税法和移民题各4次，行李和住房题各3次），通过对这些答案进行统计分析来估计模型的稳定性，并给出带有置信区间的成绩。评分标准方面，数值计算类题目（税额和行李费）允许1美元的误差，二元判断题（法条符合还是矛盾、申请接受还是驳回、是还是否）使用宏平均F1分数，确保即使类别不均衡也能公平评估。

五、三种解题策略：直接回答、零样本和少样本

每个模型都以三种方式面对题目，分别对应三种解题策略，犹如三种不同的备考方式。

最直接的方式是让模型仅凭思维链推理给出最终答案，不生成任何Prolog程序。这就像让考生直接给出答案，不需要写出演算过程。这种方式最简洁，但也最不透明，出错了也难以追究原因。

第二种方式是"零样本Prolog生成"：给模型看法规文本和案件事实，让它从头生成一个完整的Prolog程序，然后实际运行这个程序来得到答案，整个过程没有任何示例可以参考。这像是给考生一份题目和一本规则手册，然后要求他们用这本手册写出一套可以在计算机上运行的推理机器。

第三种方式是"少样本Prolog生成"：在上述基础上，额外提供几个已经写好的示例程序，供模型参考和模仿。这是其中门槛最高的一种，因为生成的程序必须能实际运行、能调用正确的法律条款，并且输出正确的结论。

六、成绩单：最强大模型也只答对不到一半

研究团队一共测试了八个通用大语言模型，包括GPT-4.1、GPT-5.1、GPT-5.2、O3、Claude 4.5 Sonnet、Gemini 2.5 Flash、Kimi K2 Instruct以及Qwen3-235B，另外还有三个专门的代码生成模型。测试结果在难题子集上颇为惨淡。

以最直观的数值来看：在税法数值计算（SARA Numeric）这道"算算Alice今年要交多少税"的题目上，o3在零样本Prolog生成策略下取得了44.4%的准确率，这是所有模型和所有策略中的最高分；而GPT-5.1在零样本策略下也达到了44%。在住房法律判断题（Housing）上，GPT-4.1和GPT-5.1的少样本策略分别达到了46.6和46.8的宏平均F1，同样是各自的最高水平。换句话说，即便是当今最强大的模型，在这些真实法律推理任务的难题部分，成功率也仅仅勉强接近一半。

还有一些现象令人深思。o3在行李费计算题的少样本策略下表现惊人，达到了90.8%的准确率，但在税法数值计算的同样策略下只有15.2%。这说明模型的能力是高度任务特定的，擅长处理一种结构的规则计算，不代表在另一种同样基于规则的任务上也会表现良好。

更有趣的是不同策略之间的巨大差距。以Qwen3-235B为例，在税法数值计算上，少样本策略只有0.7%，几乎完全失效；零样本策略稍好一点，也只有8.7%；但切换到直接回答策略（不生成Prolog），成绩跳升至32.1%。类似的情况在Kimi K2上也出现了：在税法二元判断题上，直接回答策略取得了68.4的F1，是该模型该领域的最高水平。这说明不同模型对不同提示方式有截然不同的敏感度，没有一种策略能在所有模型和所有领域上都取得最好的效果。

开源模型与前沿闭源模型之间的差距也相当明显。开源模型在少样本和零样本Prolog生成策略上普遍表现较差，而且对提示方式更为敏感，成绩波动更大。在二元判断题上，这种差距有所收窄，直接回答策略能让开源模型取得相对有竞争力的分数，但在需要精确计算的数值题上，开源模型依然明显落后。

还有一个关于"更多思考"是否有帮助的专项测试值得一提。研究团队对o3、GPT-5.1、GPT-5.2等支持调节思考深度的模型，分别在低、中、高三个推理强度下测试了税法数值计算题，结果发现增加推理强度并不能稳定提升成绩，有时甚至出现负面效果。这意味着，靠让模型"想得更久"来解决这类问题，并非可靠的策略。

七、把错误放到显微镜下：四种犯错方式

因为每个任务都有参考Prolog程序，研究团队得以对GPT-5.1、GPT-5.2和o3在难题上的失败案例进行逐一分析，将错误归入四个类别。

第一类错误是"选错法条"：模型应用了错误的法律条款、错误的子条款，或者在行李费计算中查错了费率表。这类错误在住房法律题中占据压倒性优势，少样本策略下高达96.8%的失败案例属于这一类；零样本策略下也有93.5%。在移民行政裁决题中，零样本策略的失败案例中有77.3%属于选错法条。这说明，在需要从大量条文中识别最相关规定的任务上，模型的检索和对应能力是最大的瓶颈。

第二类错误是"事实编码失误"：法条找对了，但案件中的具体信息没有被正确提取和编码。比如，婚姻状况、抚养关系、行李类型等事实细节被错误地表示。这类错误在税法任务中尤为突出，在税法数值计算的零样本策略下，52%的失败案例属于这一类。

第三类错误是"数值计算错误"：法条找对了，事实也提取正确了，但在具体的数学运算上出了差错，比如超出限额的计算、行李数量最优化选择等。行李费计算任务的少样本策略下，100%的失败案例都属于这一类，零样本策略下也有75%。这说明即便规则和事实都对了，精确的算术运算对模型来说仍然是一道难关。

第四类错误是"程序实现缺陷"：Prolog代码本身在语法或运行时出现了低级错误，与推理逻辑无关。这类错误在移民行政裁决题的少样本和零样本策略下各占42.3%和22.7%，说明这个领域的任务对代码生成质量的要求也特别高。

由此可以得出一个重要判断：不同领域的问题有不同的瓶颈，不存在一个能一次性解决所有问题的通用改进方案。要提升住房法律题的成绩，关键是改善规则检索和匹配；要提升税法题的成绩，关键是改善信息提取；要提升行李费计算题的成绩，关键是改善数值计算的可靠性。

八、能通过训练弥补差距吗？

研究团队还尝试了通过训练来改善模型在这类任务上的表现，选择的基础模型是Qwen2.5-32B-Instruct，这是一个性能均衡的开源模型。训练方式包括三种：监督微调（SFT）、直接偏好优化（DPO）和一种改进版的强化学习方法（Dr. GRPO）。

监督微调的原理是让模型反复看正确的Prolog程序，学习如何从法规文本生成正确的代码。DPO则是在此基础上，同时给模型看"好的答案"和"差的答案"，让模型学会区分和偏向正确解法。Dr. GRPO是一种强化学习方法，通过让模型生成多个答案，然后用实际运行结果作为奖励信号来引导模型改进：如果生成的程序能正确运行并给出正确答案，给满分奖励；如果代码无法运行但使用了正确的谓词结构，给一个小额部分奖励；其他情况得零分。

训练确实带来了改进，特别是在二元判断类任务上。以移民行政裁决题为例，基础模型在少样本策略下只有10.3分，经过SFT训练后提升到35分，再加上DPO后提升到45.7分。这说明训练对模型的分类判断能力有明显帮助。

然而，税法数值计算题几乎没有从任何训练方式中受益，所有方法在所有策略下都维持在个位数水平。这个强烈的对比说明，精确的规则计算是一个比分类判断困难得多的问题，当前的训练方法还不能可靠地解决它。

强化学习方法虽然在某些任务上（如航空行李和税法二元判断）达到了最好成绩，比如GRPO+DPO+SFT在行李费计算上达到了60.4，在税法二元判断上达到了54.0，但这些提升并不稳定，跨任务表现参差不齐。更值得注意的是，训练之后的模型对提示方式依然高度敏感：行李费计算最好用少样本策略，但移民行政裁决最好用直接回答策略，这种对提示方式的依赖性在训练前后并没有得到根本改变。

九、专门代码模型表现如何？

研究团队还额外测试了三个专门针对代码生成优化的模型：GPT-5.2-Codex、Qwen3-Coder-Next以及Qwen3-Coder-480B。

GPT-5.2-Codex的表现最为突出，在行李费计算的少样本策略下达到了95.5%的惊人准确率，在税法数值计算的零样本策略下也达到了45.8%，是所有模型中的最高分之一。然而，它的表现同样对提示方式极为敏感，而且置信区间很宽，说明结果的稳定性存疑。

Qwen系列代码模型则在许多设置下几乎完全失效，给出零分或接近零分的成绩，说明这些模型在生成符合法律推理需要的Prolog代码方面存在严重困难。研究团队指出，尽管这些模型具备强大的通用代码生成能力，但将这种能力迁移到高度特定的法律逻辑推理场景，仍然是一个尚未解决的难题，而且细微的提示变化就可能导致灾难性的失败。

由此可见，DeonticBench揭示了一个值得警惕的现象：在标准编程任务上表现卓越的代码模型，并不能自然地转化为可靠的法律推理工具，两者所需的能力有实质性差异。

归根结底，这项研究用扎实的数据回答了一个每个人都可能关心的问题：当AI说它能"帮你处理法律事务"时，它真正擅长的是什么，又在哪里力不从心？答案是清醒而具体的：即便是当今最强大的模型，在真实法律推理的困难情况下，正确率也只能勉强达到五成上下。错误的来源是多样的，有时是找错了法条，有时是提取事实出了偏差，有时是数学算错了，有时干脆就是代码写出了低级错误。通过训练可以有所改善，但改善幅度有限，而且进展不均衡。

DeonticBench的价值不在于给AI打了一个低分，而在于它清晰地揭示了"哪里出了问题"以及"问题各不相同"。这对于真正想要改进AI在法律、税务、政策领域应用的研究者和开发者而言，提供了一张有用的路线图。研究团队明确提醒，他们发布这个基准纯粹用于研究和评估，模型的输出不应被视为专业的法律、税务或政策建议，任何真实的高风险决策都应有人类专业人士的监督。

对于普通读者而言，这项研究传递了一个实际而有用的信息：AI在法律和政策问题上目前仍然不够可靠，特别是当问题比较复杂、需要多条规则交叉应用时，出错的概率相当高。用AI来快速了解法规的大致内容，可能是有帮助的；但真正依赖AI给出一个精确的法律结论——比如你今年到底该交多少税，或者你的签证申请能否被接受——风险依然很高。

这项研究的完整内容可通过arXiv平台以论文编号arXiv:2604.04443查阅。

Q&A

Q1：DeonticBench测试的是AI的什么能力，和普通AI测试有什么不同？

A：DeonticBench专门测试AI在真实法律和政策场景下按照明确规则进行推理的能力，覆盖美国税法、航空行李政策、移民行政裁决和住房法律四个领域。与大多数只考数学或百科知识的AI测试不同，DeonticBench要求模型在长篇法规文本和具体案件事实之间建立精确对应，还可选择把推理过程转化为可实际运行的Prolog逻辑程序，这让出错的地方得以被精确追踪和分析。

Q2：DeonticBench的测试结果中，当前最强的AI大概能答对多少题？

A：在最难的题目子集上，成绩最好的情况是OpenAI o3在税法数值计算的零样本Prolog策略下达到44.4%的准确率，GPT-4.1和GPT-5.1在住房法律判断题上达到约46.6到46.8的宏平均F1分数。换句话说，即便是当今最顶尖的模型，在这些真实法律推理难题上也只能答对不到一半，而且不同任务和提示方式之间的成绩波动很大。

Q3：DeonticBench为什么要用Prolog语言来验证AI的推理过程？

A：Prolog是一种逻辑编程语言，可以把法律规则和案件事实翻译成计算机可以严格推导的程序，由此得到的答案每一步都有明确依据。用Prolog验证有两个好处：一是答案由逻辑推导产生，不是凭感觉猜测，可靠性高；二是当程序运行失败或答案错误时，研究者能精确定位是法条选错了、事实提取有偏差、数值计算出错了，还是纯粹的代码语法问题，从而找到有针对性的改进方向，而不是只知道"答错了"。