中国审判-《中国审判》2019.07期美国刑事诉讼“算法预测”的风险与回报

《中国审判》2019.07 221 出版日期:2019-04-15


3 上一篇	放大缩小默认

美国刑事诉讼“算法预测”的风险与回报

编译 | 北京市海淀区人民法院洪嘉君

在审前进行风险评估是为了向法官提供更多的信息，以便法官更好地决策及作出尽可能的改进。

在研究了司法程序的发展新趋势后，不难发现，风险评估算法在美国各地法院中越来越受欢迎。算法为法官提供了一种预测工具，同时算法的使用又引发了一系列有关刑事司法系统适当性问题、费用问题和保释问题的广泛讨论。

预测算法究竟在关注什么

在美国，每年约有1200万人被关进监狱。其中，大多数人被捕的原因涉及毒品或公共秩序犯罪等多方面。而超过60％的被捕者属于少数民族或种族。

在风险评估算法出现之前，法官通常根据由保释计划、逮捕报告、犯罪记录说明或是访谈调查问卷所形成的个人直觉来作出保释与否的决定。不容忽视的是，包括法官在内的所有人都有意无意地对他人存在隐含的偏见。而许多检察官的标准做法是，以公共安全为名，反对几乎所有的保释。

一般情况下，保释听证会仅召开几分钟。此外，由于法官们超负荷工作、法庭工作人员经常受到骚扰恐吓等一系列其他因素的存在，也导致部分研究机构得出了“高风险被告往往被释放，而低风险被告仍在监狱中”的结论。是否可能释放了错误的被告，美国社会对此普遍感到焦虑。

20世纪初，犯罪预测工具首次被引入美国，国籍和种族等成为犯罪预测中的重要决定因素。算法主要集中于识别被告是否有潜逃风险。其从数千名被告身上收集到的一系列数据，可以帮助法官就被告是否存在潜逃风险及风险的大小作出更准确的判断。

算法的作用

实际上，法院、社区和刑事司法系统都能从风险评估算法中受益。

风险评估算法有助于法官预测审前保释人员的行为，帮助法官就被告是否能被保释、保释条件是高额保释金还是人身担保等问题作出决定。尽管我们讨论的是审前保释风险评估的效果，但实际上这些算法可以帮助法官在更多领域进行预测。例如，包括弗吉尼亚州在内的多个州都致力于创建专门用于量刑的算法，还有一些州允许法官根据预审风险评估的分数来作出判决。

统计显示，风险评估算法减少了在监狱中待审人员的数量，并缩短了监禁时间。由此，有效地降低了系统成本，减少了法院听证会的数量。此外，算法还可以提高被告维持家庭关系和保住工作的能力，从长远角度来看，算法能够加强社区安全。

然而，尽管风险评估算法有以上这些优势，但也有人提出不同看法，认为算法在设计中直接构建了系统性偏见，其用基于定量数据的歧视取代了法官的隐性歧视。

算法适用中存在的问题

既然算法可以提高整体刑事司法系统的有效性，那么为什么不在所有地方都适用？法庭管理人员应该将算法当作审前释放的新工具进而向法官推荐吗？此外，如果算法存在着系统性偏见，那么根据算法所提供信息而作出的决定，是否含有比法官原有的隐性偏见更严重的歧视？又是否能在设计中排除掉系统偏见？

普遍认为，造成系统性偏见的原因之一是算法对大数据的依赖。基于效能最大化的目的，执法机构使用了数十万条记录，进而建立了预测性警务系统，以用来查看警方在何处可以发挥最大效能。在此过程中，过去的犯罪事件自然成为预测未来犯罪的主要参考因素之一，而警务巡逻也更多集中在以往犯罪率较高的地方进行。

另一个问题是，算法是跟踪所有犯罪，还是只跟踪暴力犯罪？在过去的20年里，“破窗理论”重新被人们所重视。一些研究者称赞其减少了纽约市的监狱人口数量。从“破窗理论”的思路来看，如果警方不再需要追查破坏废弃建筑物窗户这类的轻微犯罪，那么最终严重犯罪也将随之减少。“破窗理论”提出，如果警察频繁地巡逻特定地区，生活在这些地区的人们就会与警方有更多的接触，这将导致当地更多的人被逮捕，反过来又会促使巡逻力量的加强。

能否去除算法中的偏见？

在不到30年的时间里，美国的监狱人口从30万增加到200多万，超过了俄罗斯，成为世界上监禁率最高的国家。据估计，维持如此规模的监禁工作所需要花费的成本约为每年140亿美元。

在美国数量庞大的被监禁人口中，有色人种占相当大的比例。在过去的40年中，“大规模监禁”这一术语变得流行起来。

有人将算法看作是新模式的先驱，认为它是“学习的系统”。因为算法通过输入各种数值（或权重），进行加权计算后，从而得出风险评分结果。最新、最复杂的算法需要根据持续更新的信息流来修改权重。例如，通过“学习”来提高“药物使用量”的权重，给予被认定吸毒的被告较高的风险评估分数，进而降低其被释放的机会。

值得注意的是，因为风险评估算法受到前面提到的自我循环的影响，较高风险评估分数的被告不能自由地走出监狱，极可能因为被继续羁押而失去工作与和谐的家庭关系及一系列的原有物质条件。对此，他们更可能为了获释而认罪。承认重罪的被告需要在工作申请中注明犯罪记录，从而几乎不可能获得稳定的工作。而缺乏就业机会又是犯罪的一个主要原因。由此可见，法院使用算法来判刑，可能的结果之一就是出现更长的监禁刑期和被告再犯的更大可能性。

因此，必须承认算法只是用经验数据作为补充，并不能取代法官的独立裁量权。同时，由于许多风险评估算法是专用的，不会轻易共享内部逻辑、数据或数据权重，仅会专注于改进自己的算法，因此，还需要对算法得出的结果进行公正的监督和审查。

专业受访者意见

美国预审服务机构协会主席Penny Stinson、佐治亚州克拉克郡缓刑事务处首席缓刑官Dale Allen、新泽西州高级法院首席缓刑官GregLambard、纽约市布朗克斯区捍卫者政策改革总监Craig Levine及佛罗里达州坦帕市第13司法巡回机构助理Sarah Couture曾作为受访者，对审前风险评估算法进行讨论。

第一个问题是，当使用这些算法时，法官是否能作出更明智的决定？

对此问题，受访者大都表示算法为法官提供了更多信息，并帮助他们更好地作出决策。Penny Stinson评论说，测试表明，风险评估算法多次作出了超越专业的判断。这些算法评估有助于制定最简便的、符合法律要求的释放条件。Sarah Couture在表示同意的同时稍显谨慎。她说：“算法可以提供更详细的信息，但它也不会消除法官带有的种族和族裔偏见的可能性。”

Craig Levine则认为，风险评估算法不应在保释决定中发挥作用。他说：“应该把重点放在需解决的问题上。过度监禁，特别是对有色人种的监禁，才应该是将风险评估算法纳入更广泛的刑事司法改革的原因。”

第二个问题是，风险评估算法是否带有偏见？

Craig Levine认为，算法的不良影响是不可避免的，并牵涉到种族和民族平等以及正当的法律程序等基本问题。他表示，风险评估算法带来了科学客观性的诱人幻想，但并不现实。实际上，风险评估算法与其中的数据一样，如果输入的数据带有结构性种族偏见，那么算法的产出（风险决定）也将反映出相同的偏见。

Sarah Couture推断，在某种程度上，数据驱动的风险评估算法并不能帮助法官得出因人而异的个性化决策，“因为算法在运行过程中无法考虑到每个人的故事。”

Penny Stinson回应说，研究分析表明，风险评估本身并不存在内在的偏见。“犯罪历史”无疑是一个缓和的变量，它可以解释种族与高风险水平之间的关系。

Dale Allen和Greg Lambard也认为，算法比单独的司法决策更公正。他们提出，新泽西州的研究人员发现，公共安全评估的数据体现了对性别和种族的中立判断。此外，算法只是报告数据，对这些数据的解释可能有偏差，但之后的人为跟进将有助于保持系统的规范和“诚实”。

第三个问题是，法院管理人员是否有义务倡导改进风险评估算法？

Sarah Couture和Greg Lambard表示，作为法院管理人员，必须继续倡导改进这些算法，以满足更精细化的需求。Dale Allen说：“法院管理人员、缓刑事务负责人和任何其他直接支持司法系统的工作人员，都应该倡导每一个有助于法官作出日常重要决策的系统。”

Penny Stinson还提示称，虽然风险和需求评估可以帮助前端和后端的决策，但这些评估也可能会被滥用。决定使用风险评估的地区需要选择适当的算法，投入必要的时间和资源对其适用的人群进行验证，并承诺定期进行重新验证以确保算法的持续有效。同时，法院必须确保给管理人员提供频繁的初始培训和定期培训，以支持所收集的信息和评分结果的有效性。在这一过程中，法院管理人员处于独特的地位，他们需要确保司法人员、律师、被告和公众都接受有关评估算法重要性的教育。

关于算法的思考

对于如何使用算法，有三个方面问题，需要未来多加关注。

第一，算法的出现是一种进步，但目前仍有很多工作要做。尽管并非每个人都认为算法是一种改进，但其似乎确实可以减少预审监禁的人员数量，并提高对监禁对象的预测准确性。美国国家惩教机构报告指出，算法的“累犯预测”指标的准确率通常为73％。这一数字比仅单独使用司法裁量权时的55％有显著提高。但这也意味着，在使用算法的情况下，仍有27％的错误发生。因此，法院管理者必须不断推进算法的完善。

此外，法官应该能够重写算法。对此，法院管理人员必须收集更详细的数据，记录法官根据这些算法作出决策的时间、重写算法的时间、重写算法过程中的推理以及推理是否可量化等问题。同时，还需要收集被告获释后在工作中的经历、被告监禁期间的家庭情况、被告认罪的原因是否是为了获释等信息。

第二，系统偏见可能并非源自种族或民族，而是社会经济差异。很多关于偏见的文章都没有明确区分种族偏见和社会经济阶层的偏见，两者往往相混淆。即使这两个组件有所重叠，但它们也是不同的，需要对其进行独立分析。许多算法都正竭尽全力地消除种族和民族偏见，而关于如何对待社会经济偏见的探讨却少得多。

第三，法院必须积极主动。法院管理人员在决策方式上往往倾向于保守，习惯将行动推迟到问题完全出现之后，这种风格在未来将不能延续。

此前，新泽西州立法机关改变了枪支持有人犯罪的审前风险评估权重因子。虽然从政治上改变输入权重（如拥有枪支）是可以理解的，但算法是客观的定量概率模型。可以类比概率论的“硬币原则”，即从长期来看，一个反复翻转的硬币正反面出现的概率是相同的。外部机构基于政治目的改变输入算法权重的举动，就类似于宣称一枚硬币某一面出现的概率将多出20％，而这仅仅是基于主观意愿，却并非客观事实。

被如此修改的算法将成为一个隐藏在经验数据幌子之下的政治模型，而非客观的定量模型。这种对权重的政治性修改最终会抹煞整个算法发展和普及的过程，并迫使法官回到仅使用司法决策的时代。对此问题，法院管理者必须慎重对待，及时并有勇气进行处理。