新加坡学者林国恩:如何用人工智能实现“智慧查案”

 

32_副本.jpg

近日,以“深度视野,对话未来”为主题的首届“中新人工智能高峰论坛”在新加坡·南京生态科技岛召开。本届高峰论坛由南京市人民政府、新加坡企业发展局、江苏省经信委、江苏省商务厅、江苏省人民政府外事办公室作为指导单位,南京市商务局、南京市建邺区政府、中国人工智能学会主办。

论坛上,南洋理工大学计算机科学与工程学院教授、跨学科研究生院主任(安全领域)、智慧国家研究中心主任林国恩带来了主题演讲:人工智能“智慧查案”。在演讲中,林国恩详细介绍了他所在的团队如何根据法院的各种实际情况,打造定制化的、有针对性的人工智能。

以下是林国恩的演讲全文。

我们这个项目是在南洋理工大学里面,我们智慧国家转化研究中心的一个项目。这个项目是跟新加坡的法院合作的,主要是通过利用最新的人工智能的技术来解决一些法官在办案的时候,他们的决策过程里面需要的一些流程里面需要很多人手的工作,看有什么通过人工智能的手段来提高法院办案的效率。

首先,就是我们这个研究中心,是在大概一年半前,是新加坡国家研究基金支持的一个项目,主要的任务是通过转化研究来达到智慧国家的一些应用的实施。

我大概介绍一下我们这个研究中心里面有什么方面的一些定位。

第一,我们这个中心,因为我们在NTU(Nanyang Technological University,南洋理工大学)里面,今天早上部长也说了,我们的NTU里面,现在在人工智能方面的研究,在世界排名还是挺强的。主要的问题,怎么样通过有效的转化成果变成一个实际解决问题的一个系统。

所以我们的这个定位,在之前我们大学里面投入很多的基础研究方面,我们说TRL所谓的1到3。但是我们也有一些实验室,主要是做应用研究的,但是我们离这个应用研究更高一点,主要是做转化的研究。

在这个过程里面,在我们的项目过程里面,我们主要是终端的用户直接交流。就好像今天早上有一些专题的演讲里面也提到,我们要做这个AI,可能更重要的是先了解实际现实世界的问题,怎么去直接解决这个问题。其实技术的一个手段,或者你们在国内所谓的AI+的,通过AI的手段再加上一个行业的专业知识,来达到一个AI最终要达到的目的。

当然,因为我们是智慧国家的转化研究,所以我们的伙伴主要是政府部门。我们一般看到一个典型的智慧国家的系统,都是我们所谓的智能系统,都是通过感知,然后在后台做认知的处理,这是一般传统AI的算法或者是模块,一般在后台做认知的过程。然后再作为一个决策的手段,再把实际的行动送到另外一个子系统。

而我们一般的做法就是基于这样一个大数据的模型,我们在后台做认知过程。但是我们也看到,我们的团队里面有一些老师是做视频分析,用深度学习来做视频图像的分析,比如说异常的检测,动作的识别或者人员的跟踪,这是我们团队里面一些老师的工作。

比如说也有一些是做对象的分类,比如说我们在一个视频里面,我们希望通过这些AI的引擎去分析一个视频里面有什么人物,有什么的物件,他们做了什么动作。这个是我们常常能看到的一些AI的应用。

但是我们开始觉得有兴趣做这个法院项目,原来的意思,其实不是纯粹为了辅助法官办案。主要是我当时觉得我们现在看到很多视频的分析,分析了以后,我们其实基本上会有一个文本。就是说通过所有的AI的引擎,可以最后有一个文本去描述这个视频里面的内容。

但分析了以后,我在想如果我们下一步要真正做这个内容分析的话,我们肯定除了做这个视频,我们还需要做这个文本的分析,我们才可以更准确的,更有效地去告诉我们过去,比如说10天在所有的视频里面可能看到有什么值得我们去什么研究的地方或者深入考虑的地方。所以我当时去想做这个文本分析或者做这个法官办案项目的时候,主要是想到长远,除了这个视频分析,下一步肯定是文本分析,所以也是这样,我们就刚好在当时新加坡的司法部门有一个这样的项目,我们就决定跟他们合作。因为通过这个项目,当然我们直接马上可以解决一些实际的问题,也可以通过这个过程里面,就是提高我们在这个文本分析,或者是档案分析的这个科研的能力或者经验。

我们这个项目,是通过人工智能来做到一个决策支持的一个系统。这个也在新加坡法院的年报里面,去年也有提到我们这个项目,就是我们的最高法院跟南大合作的一个项目。

这个项目主要是有什么的人工智能呢?其实开始最简单的就是去了解这个系统,最简单的,就是我们知道一个法官他去判案的时候他都需要寻找相关的案例。而且以前来说,或者到现在为止,要找一个相关的案例其实不是一个简单的事情,需要挺多的人手。还有这些都是不便宜的人手,都是对相关的法律了解很深,认识很深,可以很快地去找到相关的案例,还需要很快地做一个摘要,总结一下,做一个概要去解释一下这些案例大概的内容。然后当法官用来作参考的时候,他就可以很快的,比如说我现在手头的案件是这样一个情况,我们需要通过一个高效的手段去把过去相关的案例找出来,把他们的概要自动地生成出来,这样的话我们可以大大提高法院处理案件的效率。

我们这个系统,我们叫ICRS,就是一个智能案件检索的系统。当然这个检索,其实智能的检索本身挺难,但更多的是自动做这个摘要。因为其实我们决定做这个项目才知道那么难,如果早知道那么难可能就不做。当时没想到原来一个法庭判一个案件文件那么厚,那么多,所以你可以想到如果人来看这个摘要,做这个摘要也不容易。

我们开始的时候,当然我们第一个任务是我们会看到很多AI理论的研究,很多的算法,到底哪一个算法,哪一类的引擎能解决什么的问题?可以应用到我们这个系统里面?当然我们做这个研究的时候,我们都知道这个算法可以解决这个问题,但从来没有一个文章说这个算法可以解决什么法庭里面哪一个环节。这也是一个我们需要深入地分析和研究的一个过程,所以我们在这个项目里面,我们开始的大概两个月大部分的时间是用来了解这个法官他们在处理案件的流程。

我们这个系统的人工智能,主要是我们一个叫主题建模。这个主题建模,就是我们看到一个案件的时候,我们可以看每一段文字,自动地去分析这段文字大概说的是什么题目。比如说它是描述一个案件的现场或者是说他们打架的情况,或者说受伤的情况,每一句话有不同的主题。我们在分类了以后,我们再按照这一类材料的引擎来做下一步的分析。比如说我们这个屏幕里面,我们看到这个实时的字幕的一个引擎,从语音转换成文本。我们想如果有一个引擎我说什么话都能转的,肯定是很厉害,但是准确率肯定不高。我想能不能做一个语言的识别,我们这个概念也差不多,我现在把这个文本里面每一段话先分类,然后把这一个话题,这个题目的引擎引进来,做一个更深入的分析。

另外一个,就是做关键词的推断,这个就是我们这个项目立项的时候,法官跟我们说他们用一些传统的检索的系统,如果他把现在的案件描述得太具体,可能什么都找不到。如果是太通用的词来描述的话,可能材料太多,看也看不完。所以我们现在是用一个智能的系统去让他可以很准确地,很具体地来描述,通过我们这个引擎,通过学习过去案例的引擎来推断它到底要找什么,然后我们再在档案库里面找。

我刚才提到的,最重要还是自动编译案件的概要。这是我们这个系统的一个流程,就是我们通过一些过去的案例,还有过去以前法官自己做的摘要的一些材料,来做这个机器学习。学习了以后,现在这个法官如果他要处理一个新的案件,他可以先把现在案件的情况通过一个自然语言文字的描述出来,然后这个信息系统会自动去找相关案例,然后再自动做一个摘要的生产。

基本上这个项目,他们上个礼拜做完摘要现场的验收,效果还是不错。

我觉得做这个项目最大的经验,第一,我们要看这个人工智能,我们基本上把它看成一个系统工程的过程。什么叫系统工程呢?我们要解决一个问题,不是单单纯粹用一个引擎或者一个算法,我们需要了解每一个算法能做什么,当然更重要的是需要了解这个算法不能做什么。如果不能做的话,我们就拿另外一个系统或者另外一个算法来解决这个问题。所以可能我们这个系统,你看一个屏幕后面可能有八个引擎在跑,通过把这个材料分类,然后再分不同的专用的引擎来解决这个问题。

就好像今天早上部长说到一些例子,一个车如果转左撞到一个小孩子,转右撞到一个老人家,到底撞哪边?从一个系统的角度,如果解决不了这个问题就别让这个问题发生。可能在前期自动导航的时候就解决这个问题,别弄到后面没法选择的时候才去选择。所以我们做系统工程,用系统工程的手段来做AI也是一样,我们要了解每一个引擎能做什么,还有它不能做什么,通过一个总和的做法来解决一个更复杂的问题。

在这个过程里面我们也用到一些特定领域的知识,因为我们新加坡的国家小,人很少,我们的数据没有那么多,要解决这个问题,我们要通过一些专业领域的知识来补充一些纯粹的数据分析做不到的一些任务,所以我们也使用了很多一些特定知识的人工智能。

当然也提到,其实人工智能先有人的智能才有人工的智能,所以我们先要了解这个法官到底在做什么,后来才知道一个法庭的判案文件里面,几百页的文件,他们也不是从头到尾每一页都看,好像我们看书一样,他们是跳的。所以我们这个人工智能的机器,为什么我们要分类?因为我们做深度分析的时候也是要跳的。所以我们分类以后知道从哪一类先分析,拿到结果会跑到另一类来分析,这个是通过人的智慧来指导我们设计这个人工智能的系统工程的一个过程。

最后,我觉得做人工智能的研究,就是做实际系统都会碰到这个问题,就是这个训练引擎数据的问题,因为很多传统的数据都是纸质的,我们如果要真正做这个机器学习的话,要把它做数字化,这个过程通常都会有很多人类的错误,这个暂时还是比较难解决的。这个就是我们在做系统的经验。

因为时间的关系,我先只能到这里,如果有兴趣的话,可以在下一步休息的时候做交流。

当然还有其他的应用,我刚才提到的,就是我们做执法的系统,或者做视频的分析或者是公共安全的系统,都有情报的分析,这些都是我们现在在其他的一些企业或者是政府部门在谈的一些相关应用的范围。

共同学习,提升自己,讨论请留言
原文地址:https://www.cnblogs.com/guanghuan33/p/9171575.html