会议重点介绍芯片设计中的人工智能

会议重点介绍芯片设计中的人工智能

Conference highlights AI in chip design, IoT

旧金山-谷歌正在试验机器学习(ML)来执行IC设计中的地点和路线,并取得了很好的效果。上周在这里举行的ISSCC会议上宣布的这一发现,对人工智能(AI)和电路设计同样重要。             

人工智能多年来一直是电子行业中规模最大的东西,推动了半导体研究的巨大发展(同时也带来了风险投资和头条新闻)。承认这一点是显而易见的,今年集成固态电路会议(ISSCC)的主题是“集成电路为AI时代提供动力”,开幕式全体会议旨在描绘人工智能在多大程度上扭曲了半导体空间。             

四位全会发言人解释了人工智能的需求如何推动一种新的处理器类别的发展,这些处理器是专门为人工智能应用而设计的(除了cpu和gpu);推动了结构的创新(例如芯片、多芯片封装、中间层);甚至影响了量子计算的发展。             

全体会议的第一位发言人是谷歌人工智能的负责人杰夫·迪恩。Dean发表了一份机器学习(ML)概述的更新,他已经以一种或另一种形式呈现了一年多,以引导对ML place and route工具的讨论。

人类专家在放置和布线ASIC设计方面的结果与低功耗ML加速器芯片的结果进行了比较。谷歌故意掩盖了部分图片。             

他首先简要回顾了人工智能和人工智能的历史,从1995年学会玩西洋双陆棋的机器开始,在学习国际象棋和围棋的机器上运行,现在可以处理复杂的电子游戏,如“星际争霸”,而且“非常成功”。ML还被用于医学成像、机器人技术,计算机视觉、自动驾驶车辆、神经科学(分析脑部扫描显微镜)、农业、天气预报等等。             

几十年来推动计算的基本思想是,问题越大,你投入的处理能力就越大,你拥有的处理能力越强,你能解决的问题就越大。有一段时间,这适用于用人工智能解决问题。             

当问题空间变得令人难以置信的巨大时,根本不可能积累足够的cpu(和/或gpu)来解决它们。             

然而,AI/ML并不需要典型的CPU/GPU电源。所需的数学可以更简单,要求的精度要少得多。这种实现带来了实际的后果:专用于AI/ML的处理器不必像cpu/gpu那样复杂。             

这是导致设计用于推理的专用处理器的基本见解之一,比如谷歌自己的TensorFlow处理器,现在已经是第三代了。顺便说一句,人们普遍认为谷歌会在最近的某一天推出第四代TensorFlow,但如果有人希望谷歌能在ISSCC上透露有关它的任何信息,那么这些希望就破灭了。             

在认识到推理需要较少的精度之后,认识到训练也需要更少的精度,这是相对较新的认识。《经济时报》编辑莎莉·沃德·福克斯顿(Sally Ward Foxton)在她最近的博客《人工智能获得自己的数字系统》中解释了这个概念。             

AI/ML处理器可以相对简单,因此相对便宜,而且我们现在拥有的AI/ML处理器功能强大,即使在庞大的数据集上也可以快速训练。迪恩解释说,所有这些都使机器学习更容易深入到网络边缘。语音识别就是一个具体的例子;迪恩说,截至2019年,谷歌已经有了一个相当紧凑的智能手机模型。             

每个人工智能应用程序-自动驾驶,医学成像,玩围棋-结果调整一个专用的AI/ML系统学习每一个。我们基本上每个应用程序都有一个人工智能。下一个问题是:有没有可能让一个学会了一件事的人工智能,然后看看它能否将所学知识应用到其他类似的任务中?             

迪恩说:“我提出这个问题是因为我们开始考虑在ASIC设计中使用它作为位置和路径。“地点和路线的游戏远比围棋的游戏大得多。问题的规模更大,尽管没有像go那样明确的目标。”             

Google为地点和路线创建了一个学习模型,然后开始寻找这个工具是否可以推广。它能把它在一个设计上学到的东西应用到一个从未见过的新设计上吗?答案是毫不含糊的“是”              

此外,迪恩说,“我们已经得到了超人的结果,所有的街区,我们已经尝试到目前为止。它做得稍微好一点,有时甚至比人类好得多。

Google比较了使用机器学习(ML)自学如何分配和路由ASIC组件的AI的性能。测试电路是几个不同的模块,包括一个Ariane RISC-vcpu。Google比较了同一个ML在进行渐进式的额外调优后的性能,所有这些都与商业工具的性能进行了比较。             

“更好”包括在非常短的时间内演示地点和路线。可能需要一个人类专家几周或几周才能完成这项任务。Dean报告说,ML放置器通常在24小时内完成同样的工作,其布局通常具有较短的线长度。ML分配在自动分配和路由工具上也做得很好。(阅读《EDA中的机器学习加速设计周期》(Machine learning in EDA accelerates design cycle)中有关ML和位置和路径的更多信息,请参阅《EE时报》姊妹刊物EDN中由Cadence的Rod Metcalfe撰写)             

Dean说,ML也可以扩展到IC设计过程的其他部分,包括使用ML来帮助生成测试用例,这些测试用例在ASIC设计验证中更充分地运用状态空间,也可能使用ML来改进高层综合,从而从高层描述中得到更优化的设计。             

然而,所有这些对于ML来说意味着什么,和它对加速IC设计进度的意义一样重要。如果一个ML可以在一个类别中进行泛化,那么它是否可以泛化为在其他类别中执行任务?             

“未来的ML模型会是什么样子?”迪恩问道。“我们能训练一个模型来概括类似的任务吗?理想情况下,我们需要一种能够学习完成数千或数百万项任务的模型。”

The artificial intelligence Internet of things (AIoT)

人工智能物联网             

联发科技高级副总裁兼首席战略官高鸿“劳伦斯”卢(音)谈到人工智能如何改变所有与互联网相连的事物,人工智能物联网(AIoT)将从今天的数百亿台设备迅速扩展到2030年全球约3500亿台设备。             

人工智能正在走向边缘,部分原因是它可以(正如迪恩在前面的课程中所提到的),而且在许多情况下,它不得不这样做,原因包括减轻数据中心日益增长的处理负担,最小化网络上的流量,以及因为一些应用程序需要或将最好地工作在本地处理上。             

局部处理必须很快,必须专门为人工智能计算而设计,而且必须非常节能。             

它们本质上是一种新的处理器类别。Loh称之为人工智能处理器单元(APU)。其他人把它们称为神经处理单元(NPU)、大脑处理单元(BPU)和其他名称。举例来说,APU可能不如CPU灵活,但由于是专门制造的,APU可以以比CPU低55倍的速度快20倍。             

Loh说,APU的开发者们正在开发一种能以3个TOPS/Watt达到1个TOPS的设备。他说他相信10个TOPS/W是可以实现的。他说,最终有可能以30个TOPS/W的速度达到100个TOPS。             

并非巧合的是,联发科的研究人员在ISSCC上发表了一篇单独的论文,提出了一个“3.4到13.3TOPS/w3.6的双核深度学习加速器,用于7nm 5G智能手机SoC中的多功能人工智能应用。”              

7nm。通过沿着摩尔定律曲线向更小的工艺节点至少多跑一步,从目前的7nm到5nm,可以获得性能改进。洛伊说,摩尔定律仍然适用。             

然而,并非没有警告。随着集成度的增加,晶体管数量也在增加,继续遵循经典的摩尔定律曲线,“但是每只晶体管的成本却没有遵循,”Loh说。此外,由于芯片设计的复杂性,以及工艺步骤变得越来越复杂,尖端设备的成本正在飙升,禁止小公司使用这项技术。还有收益率问题。             

Loh说,解决这些问题的一个常见方法是拆分模具。作为一个实际问题,这可能意味着使用诸如芯片技术之类的方法。他说:“这会导致比摩尔定律更好的结果。”。无论是芯片还是其他一些架构方法,这都意味着互连面临更多挑战。
System technology “co-optimization”

系统技术“协同优化”

Imec的项目总监Nadine collarert将全会的主题推进了下一步,讨论了分离芯片的必要性,并找出了未来集成电路的替代结构和体系结构。称之为系统技术协同优化,或STOC。             

摩尔定律很可能适用于未来几年,但CMOS的规模越来越具有挑战性,用一系列越来越复杂的器件结构的例子来说明这一点,包括(但不限于)finfet、纳米片和叉片。

Imec证明了在绝缘体上硅(SOI)背景上以纳米脊状生长未指定的III-V材料的能力。             

必须有所付出。我们需要一种新的方法,“我们相信3D技术是最好的方法。这包括多芯片封装,使用粘接,甚至在设备级,与其他标准单元进行精细级连接。”             

要想知道要使用哪种技术,需要将系统需求与可用选项的属性相匹配。“那将是一个复杂的练习,”科勒特说。这将对EDA供应商施加压力,要求他们提供工具,使设计者能够权衡他们的选择。             

无线通信系统的前端模块将是一个特殊的挑战。“一般来说,这些系统是最多样化的系统-它们有许多不同的组件,采用不同的技术,而且随着天线、功率放大器、滤波器的增加,这种复杂性将增加…”             

该行业正朝着更高频率和更高效率的方向发展。一种选择是将III-V材料(例如GaN和SiC)与CMOS结合,以获得这两种材料的优点。这可以通过3D集成来实现,展示了几个例子,包括在绝缘体硅(SOI)衬底上生长的带有III-V材料的3D纳米脊的图像,“但要实现这一点,还需要做很多工作。”             

至于回忆?Collarert说:“人工智能和ML等新应用正在推动路线图的发展。”。他们需要快速存取存储器。“内存计算是一种推动力,随着逻辑和内存的紧密结合,3D封装当然非常重要。”             

未来,在高级应用程序中使用flash将意味着堆砌更多的层。也有改善当前存储的希望。“要做到这一点,我们必须研究沟道移动性,这意味着要研究III-V材料。”并且,通过扩展,我们将研究一层硅和一层III-V材料堆叠在一起的三维结构。

与此同时,在DRAM中,电容器正从低矮的圆柱体发展到支柱,这是第三维度的又一次转变。其他内存选项包括用于缓存替换的磁存储器,以及3D存储类存储器-科勒特指出,Imec已经展示了一种垂直FEFEFET(铁电场效应晶体管),但仍需要更多的研究。             

所有这些存储的发展,“都是在机器学习的背景下进行的。人工智能正在蓬勃发展。其中很多都是在云端,但出于各种原因,我们希望将其移到边缘,在那里能源将受到限制。”             

与联发科一样,Imec als相信达到10K TOPS/W是可能的。             

“继续扩大规模。派对还没结束!”她总结道。“新的存储可能不会出现在路线图中,但它们可能在机器学习中有应用。”             

量子计算             

IBM研究部主任Dario Gil在全会结束时发表了“下一步是什么”的演讲,他说这是广义人工智能,几乎可以肯定这将在量子计算机上实现。也就是说,他演讲的主旨是最大的好处可能来自于比特(数字处理)、神经元(AI)和量子比特(量子计算)的互补使用。             

他指出,IBM在2016年通过云端开放了第一台量子电脑的接入,目前已经可以使用15台量子电脑,其中包括最新的53量子位机型。

原文地址:https://www.cnblogs.com/wujianming-110117/p/13270340.html