本文来源于微信公众号:机器之能(almosthuman2017),撰文:微胖;采访:高静宜,微胖 。授权36氪转载。
Luis Salazar 是迈阿密一家 5 人小型律师事务所的一名合伙人。在搜索在线法律数据库 10 个小时后,他发现了一宗与他手头案件极为相似的破产案例。在输入一个法律问题后,系统表示将在一天后给出答案,其中包括一小段总结,以及两页的解释备忘录。后来,他发现这个结果与律师撰写的备忘录并无二致。
Luis Salazar 使用的这个系统就是 ROSS Intelligence,世界上第一个人工智能法律助理。目前,Ross 客户包括诸如 Latham & Watkins、Dentons、 BakerHostetler 和 Briesen & Roper 这样的 AM Law 200。去年 11 月,Salazar 开始在破产案件中使用 Ross Intelligence 的软件,「确实有点吓人。如果它做得更好,许多人可能会因此失业。」他说。1999 年是美国律师行业的黄金时期。当时一宗大型专利案件,可能需要 3 名合伙人、5 名合作人和 4 名法律助理。如今,相同的案件只需要 1 名合伙人、2 名合作人和 1 名法律助理。
近期,麦肯锡全球研究院(McKinseyGlobal Institute)研究发现,虽然当前技术足以让近半数工作自动实现化,但是,只有 5% 的工作岗位完全自动化。研究预计 23% 的律师工作能被自动化。中国法律行业也开始这一领域的探索,并随着 2014 年 1 月 1 日起开始实施的裁判文书全部公开而加速。
7 月 28 日,国内外共 600 余人参加了由杭州钱塘智慧城管委会与上海百事通信息技术股份有限公司(以下简称「百事通」)主办的「2017 『法律+科技』领军者国际峰会」。来自不同领域的学术领袖、商业机构用户代表、司法机关实践者、法律互联网精英、优秀律师以及顶级法务经理人,共同探讨了人工智能、科技与法律行业创新发展。
上海百事通创始人冯子豪
「美国法律服务市场规模很大,中国现在只有 800 亿的规模,美国是 14000 亿美金,差距很大。」方广资本管理合伙人兼CEO 洪天峰说,「我们觉得未来十年,中国市场会迅速成长,规模会达到 5000 亿。」
每天世界上创造的信息量是 2.4 兆亿。也就是说,每天早上醒来,打开门,你会发现门外堆着 340 份报纸,这是我们每天必须要接触的信息量。「中国有 257 部现行国家级法律,9915 部地方级法规,642 部行政法规,5500 件司法解释,还有 2000 万裁判文书。在美国,除了联邦法,50 个州也有自己法律。」百事通智能产品研发负责人夏澎举例说。
「律师就比奴隶稍微好一点。」美国德杰律师事务所中国管理合伙人陶景洲感慨道。文档电子化减轻了物理负重,但是,以电子证据开示为例(E-Discovery),很多案件中,需要分析的数据量超过 100GB,经常只有 5% 到 10% 与案件真正相关。
从法律服务消费者角度来看,服务供给也存在不少问题。「诉讼案子每年稳步提升,但是非诉讼案子很少。寻求法律服务过于麻烦,抑制了大量需求。」洪天峰说。
「在美国,百分之八十的法律需求方付不起法律服务的账单。世界上的其他地方也存在类似情况。这个数字很惊人。如果历史性回顾法律服务价格,它是在上升的,但这并不该发生。新的技术和创新理应在降低成本。」Ross Intelligence CTO Jimoh Ovbiagele 曾告诉机器之心。
方广资本管理合伙人、CEO 洪天锋
「法律服务,跟现在非常多的公共服务一样,昔日王谢堂前燕,需要飞入寻常百姓家,怎么飞入寻常百姓家,需要借助 IT 这样的工具。」洪天峰认为。
法院是法律服务的另一供给方。「我们的诉讼法是前互联网时代制定的,不管是法学院学生还是一些老百姓,观看法院庭审,都觉得非常复杂,非常无趣、非常枯燥、非常慢。」最高人民法院司改革办公室规划处处长何帆说,「随着人工智能的推进,诉讼法会被互联网改写。比如,我们可以在开庭前解决身份识别。」
「种种不满意和差距其实就是最大机会。我们做投资,寻找机会,往往都是从差距开始。」洪天峰表示。初创公司可以将法律复杂性转化为创造价值的机会,为个人、企业提供简化解决方案。
目前,法律科技使用到技术包括自然语言处理、机器学习、专家系统、区块链、云计算、视觉化、大数据分析等。算力、数据开放与爆发、深度学习技术等因素,是法律 AI 创业的根本推动力。
「人工智能的第二个浪潮基于数据。它们可以做出各种各样不同的预测,分析各种各样不同文档,然后能够分析各种不同相关数据。在合规调查中,在诉讼中,能够帮助我们准备最准确的文档,系统还能帮我们分析各种各样危险因素,在不同组织体系之中发现法律诉讼潜在危险因素。」英国大法官首席信息技术顾问、 人工智能和法律科技方面领军学者 Richard Susskind 说。
英国大法官首席信息技术顾问 Richard Susskind
最新斯坦福大学 CodeX(美国第一个法学与计算机科学实验室) 数据库显示,其跟踪的全世界法律技术创业公司已达 717 家。不过 Richard Susskind 告诉我们,「就在两年前,这样的创新公司并不很多,现在可能超过 2 千家,数量还在增加。」有报道称,自 2012 年以来,已有超过 280 家法律科技初创公司募集到 7.57 亿美元资金。目前,法律创业公司客户包括消费者、法律事务所、公司法务、法院以及法学院和公共部门。
在会上,东南大学教授漆桂林向大家介绍了知识图谱技术在法律领域中的应用。在刑事案件中,知识图谱技术可以帮助我们从裁判文书网 2000 多万份裁判文书中,快速提取受害人、嫌疑人,律师、法官各种信息,形成各种模型。「比如,一位律师代理的案件中,法院分布如何,原告、公诉人、案件类型情况如何,我们可以做一个律师推荐。」漆桂林介绍,知识图谱技术还可用于辅助案件处理、类案推荐、(犯罪)团伙挖掘、证据链生成等方面。
东南大学教授漆桂林
「我们为各种专家和律师提供一个软件平台,帮助这些律师和专家进行线上审判、线上阅读信息和线上阅读各种不同证据。」美国法律科技企业 Neota Logic 亚太区总裁 Julian Uebergang 在会上介绍说。Neota Logic 是一个综合了专家系统与人工智能技术(自然语言处理技术和机器学习)的推理平台。在「决策树」技术的支持下,它会向用户提出问题,并且根据用户的回答提出后续问题,一步步锁定用户面对的真正问题并且给出答案。思维方式和推理过程与电话咨询律师得到的分析思路完全一致。
Neota Logic 已经帮助 6 家律所开发了 APP 和其他就基本合规问题为客户快速提供自动答案的网络平台,包括全美最大劳动法专业律所之一——Littler Mendelson。后来,Littler 与 Neota 联合成立 ComplianceHR,帮助公司法务和人力资源专员做出符合本州或者联邦就业法规的与职位相关决定。比如,一个人究竟属于雇员还是独立合同工。
自助合规审查,是法律 AI 一个非常重要的应用场景。除了合规审查,大会嘉宾汤森路透法律市场情报部总监 David Curle 曾分析指出,合同管理领域同样也很成熟,适于创新和注入新技术。许多公司也在从事这方面的工作,起草、数据提取和分析,一直到基于区块链的自动智能合同系统。接下来,这会是一个涌现创新的大领域。
汤森路透法律市场情报部总监 David Curle
合同管理主要涉及风控和成本降低这些被公司法务总监置于首位的工作。自然语言处理、机器学习和其他人工智能技术可被用于合同周期的多个环节,包括发现、分析、合规审查。Kira Systems,KM Standards 、RAVN 的认知计算平台以及应用认知引擎(Applied Cognitive Engine,ACE)以及 Seal Software 这些公司和产品比较受关注。
据报道,英国欧华律师事务所与 Kira Systems 合作,推出了一款并购交易中文件审核的人工智能工具。该软件能够处理标准和非标准合同和条款,包括超过 60 种格式的文件。在此之前,Kira Systems 和四大会计师事务所之一的德勤也达成了一笔类似交易。Kira Systems 首席技术官胡德克曾告诉媒体,他用了整整两年半的时间对软件进行了改善,让它能够识别类似竞业禁止合同条款和变更控制权这样的概念。虽然这家公司的软件目前已能够飞快的挑选出相关文档,但审阅工作仍需要工作人员来完成。不过,律师需要评审合同时间仍被缩短了 20% 至 60%。
其他主要的法律 AI 应用场景还包括法律研究、电子证据开示和结果预测。
「『怎么做』之后,我们要问为什么。比如,很多时候我们会问法官到底基于哪些原因做出裁决,如何进行裁决。通过 AI,我们可以知道法官裁决,也可以知道原被告双方的动议。除此之外,我们还可以抽出所有这些文件当中最为核心的信息,最重要的高质量信息。」IBM Watson Legal 的联合创始人和首席专家 Brian Kuhn 说。
IBM Waston Legal 联合创始人、首席专家 Brian Kuhn
Ross 是法律研究应用场景下的产品。为了让机器「阅读理解」法律,他们使用了许多不同的自然语言和机器学习技术,比如深度神经网络、依存解析(dependency parsing)、命名实体识别等(name entity recognition),language model(比如词嵌入)等。
输入「过去 5 年内,在纽约,破产后学生贷款债务可以被清偿吗?」
ROSS 系统明白你想知道纽约过去 5 年的法律,将搜索范围限制到相关法院。接下来,深度自然语言处理技术会对问题进行分解、分析词之间的关系、扩展词含义,并应用公司的语言模型等等。所有这些均发生在几秒之内。
之后,用户会得到 10 个可以回答所输入问题的相关文章段落。用户可以点击展开查看相关段落在原始案例文本中的前后文。系统还会显示相关预测结果,高亮标出其认为用户可能会需要的部分。
「这个过程类似于让一个助手帮忙找到答案。不过,一般来说,只有高级合伙人才有可能雇得起这样的助手。」Jimoh Ovbiagele 曾告诉机器之心。
Lexis 和 Westlaw 将自然语言处理技术用于法律研究已有 10 多年的历史。Bloomberg BNA 也是如此。Fastcase 和 RaveLaw 也是法律研究应用场景下比较重要的法律 AI 创业公司。Ravel 主要有案件分析、裁决分析、案件可视化搜索 3 大功能模块。
在结果预测领域,比较重要的玩家有 Lex Machina、LexPredict、Legal Operations Company 等。Lex Machina 在打造了大型知识产权案例库后,使用数据挖掘和预测性分析技术,预测诉讼结果。他们甚至不考虑企业和私人机构的数据,但最终被证明同样有效又实惠,甚至超过专家或律师服务,现已被 LexisNexis 收购。LexPredict 建模预测最高法院的判决结果,准确度堪比经验丰富的人员。
David Curle 预测,所要解决的问题和需求规模最大的应用场景下的创业公司,最有可能在市场中胜出。比如,使用大数据集的大规模处理加工领域,各种形式的文档审查。「任何可以让重复性劳作节约数天数小时的技术,都可能是赢家。」他曾撰文指出。
电子证据开示就属于这一应用场景:在信息类型是电子版的法律诉讼过程中,使用自然语言处理和机器学习技术,发现查找数据(比如起诉,政府调查等)的过程。电子版文件经常搭配难以在纸质版文件中发现的元数据,例如文件纪录、分享的日期和时间等,这些细节在法律诉讼过程中很重要。这些工具可以让检索数据工作更加迅速、便宜和前后一致。目前,比较重要的公司包括 Recommind, Equivio (被微软收购), Content Analyst。
大会嘉宾联合利华法务副总监刘赵君对现有法律 AI 产品并不满意。这些产品大多由外部机构自行研发和投资,数据和案例都是市场上可以拿到的,因此定制性不够。
刘赵君拿前几年制药公司 GSK 的最大商业贿赂案件举例称,对这些具体案例进行深入分析后,可以形成一套针对潜在客户同类问题的统一方案。在这种情况下,如果联合利华及其竞争对手都需要在营销环节中避免商业贿赂风险,作为公司律师不会愿意看到一个统一化方案。
「需要为我们特制一套适合我们公司的 AI。我会要求整个团队去分析整理联合利华中国以往的案件,这是非常有倾向性的,因为我们的处理经验与事务所律师、竞争对手律师的判断是不一样的,这时候的私人定制化会非常有效,这是我非常期待的。」刘赵君说。
百事通也遇到过类似问题。「我们和微信团队合作,使用了微信的一些 API。这个行业目前水平就这样,这也是为什么当我们做到这一步以后,感觉下一步需要更高技术能力的切入,所以我们找到漆教授共同研究知识图谱。」夏澎说。
不过,法律 AI 要满足刘赵君这样的客户需求,还有很多有待突破的课题。
大会嘉宾感受最深的一点是,没有好的项目经理。「目前为止,我们没有遇到过任何一家公司,他们已经有非常好的项目经理来处理技术和法律两方面的问题。」Brian Kuhn 说。「技术方搞不清楚法院需求;法院的人不知道怎么将自己的需求告诉技术方。」何帆说。
最高人民法院司法改革办公室规划处处长何帆
「每到一个领域都有自己的逻辑。司法领域、法律领域也有自己的逻辑,我们要去理解它的逻辑,没有这个逻辑,我们是很难去真正做好一个知识图谱的。」漆桂林解释说,「任何一个工程都是需要由需求驱动,知道这个工程用来做什么。实现法律的智能化,比如同案同判或者导讼机器人,我们要构建什么图谱,都要从这些需求出发。」
「现在,很多法院都希望开发一种裁判文书自动生成软件,自动协助法官进行证据或者法律分析,但实际上推动得都不是非常理想,因为法官参与太少。工程师很多,但是,工程师并不知道法官的要求,不知道律师的要求。还没有太多法律人参与进来,一个一个地攻克罪名,做一个能够涵盖所有法律知识的图谱,至少还需要两三年时间。」何帆说。
在法律领域很多数据是公开的,关键是如何从数据里面找到对专家有价值的信息。专家方法比较容易描述成规则,描述成人们可以理解的法律条文,但数据本身是黑盒子,黑盒子和白盒子在一个系统之下如何融合也是一个很大的课题。IBM 中国研究院研究总监、大数据及认知计算研究方向首席科学家苏中曾告诉机器之心。
深度学习需要海量数据。在标注数据问题上,让专业的人士来手动标注文档成本非常昂贵。这也是一个难题。IBM 内部有一个项目 BlueSCAN,可以帮助审核合同,去找合同关键条款是否和标准条件有冲突或是存在风险的地方。在这里,让律师帮忙全部标注出来具体一段话是什么意思,风险点在哪儿,基本不可能。研究人员希望在小样本级中,通过用户不断使用来不断提高系统从而解决这个问题。两三年前,这个项目给到 IBM 全球采购部,让部门律师使用这个系统,刚开始的时候,这个系统只能做一些简单的处理,现在已经可以做非常复杂的比对。
另一方面,很多时候专家知识和对数据本身的洞察之间是相辅相成的,但是从技术角度来讲两个架构是不一样的。在云平台上 IBM 也有一些数据,比如 IBM 收购天气公司预报 The Weather Company 和 Twitter 合作。但是,原始数据本身不一定能够带来很多价值,甚至可能带来负担。把这些数据加工成知识,同时把知识以一种可以使用的方式,让这个行业用户或者专业人士可以在他们的日常工作中用到,这才是在整个环节里最重要的一部分。
应该开放更多数据。现在,裁判文书网点击量已有 100 多亿,公布的裁判文书已达 3000 多万,已经是世界上最大的裁判文书数据库。何帆说,「但是,我们觉得这还不够。下一步,一方面继续加强裁判文书上网,同时完善裁判文书解锁功能,让所有大数据公司手上有足够资源做一些研究分析。另一方面,我们也在考虑逐步开放类似于庭审视频和其他数据,只有把人员的数据和案件的数据打通,把流程的数据、信息的数据和裁判文书的数据都打通,才能迎来一个更加开放、更有希望的未来。」
技术仍然是巨大挑战之一。ROSS 面对的主要难题来自法律文本的复杂性,比如在美国,五年级阅读水平可以看一些公共出版的新闻,但是,阅读大部分法律文件需要相当于十年级的阅读水平。由于法律的复杂性,一般情况下,ROSS 为了回答一个问题所需要的信息非常宽泛,需要从很多地方提取相应信息,用自然语言来理解,这是一个挑战。ROSS 现在所做的研究之一,就是用神经元网络加上长期记忆相关技术,快速阅读相关法律文本,这样系统就可以知道在阅读这些文本的时候哪些东西应该存储下来,哪些东西忘掉就可以。
过去几年,法律科技垂直领域出现了许多创业公司,许多公司尚处早期阶段。不过,许多公司可能熬不过 1 到 2 年就会消失,因为法律科技创业会面临一些比较大的困难。与金融科技、教育科技相比,这个领域的市场规模多少相形见绌。研发、销售周期也十分漫长(进而导致资金紧张)。据报道,汤森路透(拥有丰富数据)与 Watson(拥有先进技术)合作一年多的时间,才推出 Beta 版的人工智能法律研究产品。研发技术,需要时间,人类专家,努力搜集有用的数据组,分析内容,训练模型并测试结果。野心越大,花费的努力越多。
何帆在 2017「法律+科技」领军者国际峰会上勾勒出上海 206 工程的典型适用场景。「公检法之间,所有数据办案系统打通。一个警察破获一个案件,想逮捕这个人时,系统会自动提示他,你有三份关键证据是缺失的,另外两份证据有瑕疵。同样,检察官要起诉,系统会提示他有 80% 类似案件是不起诉的。法官写好判决书放到系统里面,系统会自动提示,判决与本院以及上级法院近 85% 类似情况下的判决不一样,是否坚持这么做,法官说坚持要这样做,于是,系统自动把判决推送给庭长。」
「第三阶段是颠覆,我认为,2030 年我们会进入到这一个阶段。在颠覆阶段,我们会看到越来越多的人工智能和技术来完成法律、完成我的工作,这样的转变会发生在所有领域,包括律所以及法律学院等等。」Richard Susskind 说,「我相信,这个科技(AI)一定会在未来变得无所不在,我也相信就像很多金融行业 CEO 或者是这些金融行业律所也将认识到,如果他们不使用 AI,损失会非常高昂。」Brian Kuhn 说。未来,每个法律组织都要有自己的数据战略、抓取清晰和规范化数据用来解决各种任务、将数据部署到特定应用中。
2016 年 1 月,在一份题为《法律科技将如何改变法律业务》的报告中,波士顿咨询集团(BCG)预测并描述:
为了应对科技竞争,法律和立法咨询企业必须考虑其成本结构和服务定价。法律界人士从一开始就被迫转向以固定价格来抵御价格透明的初创企业。这种价格调整让成本受到限制,越来越多的自动化法律服务被推给了第三方。为了生存,律师将需要求助于机器人,专注自己长项。未来,我们将见证一个『竞争环』,在这个被搅动的行业中,先前玩家将被迫同样使用那些颠覆其自身的数字服务。
AI,就像美国亚太法学院研究院执行长孙远钊谈到的那口智能锅,也会对现有法律产生深刻影响。
「在物联网时代,锅都变成了智能锅。锅怎么用,锅怎么弄,要与炉子对上话,火候怎么调,怎么弄,完全可以按照数据来做。也就是说,这个锅的功能基本上是靠里头的芯片和一个遥远、陌生的某个云计算,以及某一家制造锅甚至合作企业写的软件。有趣的是,这么一个锅,每三个月就要更新一下,软件更新,也许三年以后,它突然通知你说,这个锅,对不起,我不再支持了,必须要换。明明可以用十年的锅,现在三年要换一个。」
这个变革早就发生了,日后将会铺天盖地。「未来,是授权、许可的未来。」孙远钊说。