顶点小说网

顶点小说网>ai芯片前沿技术与创新未来 > 第 3 节 算法的设计和优化(第2页)

第 3 节 算法的设计和优化(第2页)

修剪神经网络的方法最早由YannLeCun在1990年发表的文章里提出。2016年,斯坦福大学的博士生韩松、清华大学毛慧子等人进行了一项关于深度压缩和修剪的简单研究,训练量化和霍夫曼编码,并给出了一些令人印象深刻的研究结论,说明如果调用适当的修剪和压缩方法,可能显著缩小神经网络,论文名为《深度压缩:用修剪压缩深度神经网络》?[23]?。

深度压缩可以大大减小存储器带宽,用片上SRAM就可以容纳所需的存储容量,并可把一个1GB规模的网络缩减到只有20~30MB,从而可用于移动应用(移动应用<100MB)。

除了使用霍夫曼编码来对神经网络进行压缩外,还可以使用更多的理论方法来解决这个问题,如使用VapnikChervonenkis维数?[24]

()

和Kolmogorov复杂度?[25]?之类的思想来分析神经网络,并定义出神经网络压缩的极限值。

二值和三值神经网络

把乘法精度降低,或通过丢弃连接而大大减少乘法量,可以大大降低计算成本?[26]?。有些研究论文还介绍了二值神经网络(BinaryNeuralNetwork,BNN)和三值神经网络(TernaryNeuralNetwork,TNN)。通常,通过实数值激活的实数值权重的相乘(在前向传播中)和梯度计算(在后向传播中)是DNN的主要操作。BNN是通过将前向传播中使用的权重二值化来消除乘法运算的技术,即仅约束为两个值(0和1,或-1和1)。结果,乘法运算可以通过简单的加法(和减法)来执行,这使得训练过程更快。有两种方法可以将实数值转换为相应的二值:确定方法和随机方法。确定方法是直接把阈值技术应用于权重,它可以用下式表示:

而随机方法是基于使用硬S形函数的概率将矩阵转换为二值网络,因为它在计算上是简便的。实验结果表明它具有良好的分类准确度。BNN有以下几个优点:

(1)GPU上运行二值乘法比CPU上运行传统矩阵乘法快7倍;

(2)在前向传播中,BNN大大减少了存储量和访问量,并且通过逐位操作取代了大多数算术运算,从而大大提高了能效;

(3)二值处理单元用于CNN时,可降低约60%的硬件复杂性;

(4)与算术运算相比,存储器访问通常消耗更多能量,并且存储器访问成本随着存储器容量的增加而提高,而BNN在两个方面都有改进。

过去几年中也有其他技术被提出?[27-30]?。最值得注意的是,如果将网络权重或权重和激活值两者都限制为+1和-1,从硬件角度来看,这尤其令人感兴趣,因为这种二值网络拓扑结构允许用节能的同或门(XNOR)操作替换所有昂贵的乘法运算。在基于XNOR的DNN实现中,卷积核和卷积层的输入都是二值的,这使得卷积运算速度提高了58倍,存储量降至原来的132。这样在CPU上就可以实现最先进DNN的实时使用,而无须用GPU。二值神经网络在ImageNet数据集上进行了测试,与全精度AlexNet相比,分类精度仅降低了2.9%,且功耗更小、计算时间更短。这使得专门的硬件实现加速DNN的训练过程成为可能?[31,32]?。研究人员最近成立了一家公司XNOR.ai(已于2020年1月被苹果收购)来进一步探索这种算法和处理工具,旨在于边缘侧装置中部署AI。

也有研究人员提出了三值网络?[33]?。这种方法可以将神经网络中的权重精度降低到三值(二位权重)。这种方法几乎没有降低精度,甚至可以提高CIFAR-10和ImageNet上AlexNet某些模型的准确性。这种三值网络也可以被视为稀疏型二值权重网络,可以通过定制电路加速。

可变精度和迁移精度

对于一个神经网络来说,所需的数值精度可能因应用的不同阶段而异,不是所有的应用都需要同样的精度。例如,有的通过使用较少的位宽在中间层实现DNN的最佳性能与输出精度之间的权衡,有的使用强化学习方法来发现一个具有每层不同量化的有效量化神经网络。

而每一层里面的数值精度要求也都会不同,矩阵相乘可能是8位和8位相乘,也可能是2位与4位相乘。同样,权重与激活值也可能具有不同的数值精度。因此,较好的解决方案是把芯片做成「可变精度」。

一般来说,硬件都是固定精度的结构,而软件的好处是可以做到可变精度。在芯片工作时,数值精度如果没有得到很好的匹配,会造成芯片面积浪费、性能下降及功耗提高。

虽然硬件是固化了的结构,但还是有办法来做到「可变」。图3.9展示了各种用硬件实现可变精度的方法:全覆盖架构是把各种精度的电路全部做在芯片里,通过选择器来选择所需精度的电路,这种架构利用率很低;动态重构架构可以动态地把电路改成所需精度的电路;第三种是「位串行(Bit-Serial)」架构。

图3.9用硬件实现可变精度的方法

近年来,位串行架构受到了研究人员的重视,并已在一些先进的AI芯片(如QUEST,见第4章)中得到应用。1951年之前的几乎所有数字计算机,以及大多数早期的大规模并行处理机都使用位串行架构。人们在20世纪60~80年代开发了用于数字信号处理的位串行架构。位串行的好处是一次只处理一位数字,数值精度可以按需求实时调节。通常,N个串行处理器将比单个N位并行处理器占用更小的面积,并具有更高的总体性能。

在使用位串行计算时,整数矩阵乘法表示为二值矩阵乘法的加权和?[34]?。位串行方案提供了使用一个有效的二值矩阵乘法加速器来计算任何精度矩阵乘法的可能性。研究人员提出了一种由软件可编程加权二值矩阵乘法引擎和相关硬件组成的方案,用于获取数据和存储结果。

这个方案基于FPGA实现,硬件架构可配置,并带有成本模型,用于估计给定参数集的资源使用情况。它的软件可编程性使其能够以任何矩阵大小和任何定点(整数)精度运行。该方案还引入了一种新的并行到串行(Parallel-to-Serial,P2S)加速器,采用传统的位并行矩阵并产生等效的位串行矩阵。

如前所述,如果系统从头到尾以同样的精度运行,将是非常浪费资源的。迁移精度方法?[34]?可以根据需求对各种不同的精度进行自适应,即按需变化精度,从而降低功耗或提高性能。它从大自然中获得灵感,来定义计算架构。这些架构在处于较宽且平滑的范围内的精度与成本之间进行权衡,如图3.10所示。

近似计算已经在AI芯片的设计中得到应用(见第8章)。但是,传统近似计算的主要障碍是缺乏从应用到硬件来管理精度而不影响应用质量的框架。更准确地说,缺乏输出精度保证和严格的误差控制是主要的问题。使用迁移精度的计算框架中,可通过细粒度硬件对精度进行分布式控制,使用可扩展的、基于反馈的运行方式,并以一种可在线跟踪误差的编程模型来调整操作参数。这在满足应用级不同质量要求的同时,大大降低了功耗。

图3.10「迁移精度」计算与传统计算的比较?[35]

按照自适应迁移精度的思路,也有研究人员提出类似的精度混合方法,即根据运行需求,混合使用二值、三值、16位浮点、8位整数等各种精度。

然而,不管是可变精度、迁移精度还是精度混合的方法,硬件实现都需要增加不少额外电路来支持,这就需要在由其得到的好处与硬件成本之间作出权衡。

简化卷积层

对卷积层使用低维卷积核,可以减少网络结构的内部操作和参数?[36,37]?。这种方法有很多好处:首先,改进的卷积操作使得运行过程更加清晰;其次,这种方法大大减少了计算参数的数量。例如,如果一个层具有5×5卷积核,可以用两个3×3卷积核替换(中间没有池化层)以便更好地进行特征学习;3个3×3卷积核可用作7×7卷积核的替代等。使用低维卷积核的好处是假设当前的卷积层都具有C个通道,对于3×3卷积核的3个层,参数的总数等于权重,即3×(3×3×C×C)=27C?2?个权重;而在卷积核的尺寸为7×7时,参数总数为(7

()

×7×C×C)=49C?2?,与3个3×3卷积核参数相比几乎多一倍。

增加和利用网络稀疏性

增加和利用网络稀疏性是一种重要设计方法。权重和激活矩阵中存在着大量的零,非零元素分散分布。任何数值与零相乘还是等于零,因此需要避免执行这类不必要的MAC运算。

稀疏性包括权重的稀疏性和激活值的稀疏性。要获得激活值的稀疏性,可以使用激活函数ReLU或者最大池化(用于反向传播);而对于权重的稀疏性,则有各种各样的选择,可以省略整行、整列、卷积核、通道或内核等来得到,如图3.11所示。粒度越粗,稀疏性的结构越明显,也就越容易硬件实现。对于权重和激活矩阵来说,非零值的数量可以分别减少到20%~80%和50%~70%。

稀疏性如果得到很好的利用,将会大大提高性能。不过,增加稀疏性会牺牲一定的输出精度,需要掌握平衡。另外,在硬件实现时,常常需要额外的逻辑电路来找出非零值并进行其他处理,这将会增加硬件成本。

图3.11CNN中的稀疏性?[38]

事实上,现代数据中心的工作负载很大且非常稀疏,其中大多数内容为零。因此,以大型稀疏矩阵为目标的矩阵乘法算法的关注度在不断提高。这种乘法称为稀疏矩阵-矩阵乘法(SparseMatrixMultiplication,SpMM),是目前流行的多种算法的重要组成部分。朴东贤(Dong-HyeonPark)等人专门为此设计了一种算法和架构?[39]?,把矩阵-矩阵乘法最常见的内积实现方法,改成了外积算法来最大限度地减少冗余内存访问。这种SpMM加速器芯片由48个异质核组成,并与交叉开关和可重构内存紧密耦合在一起。?备案号:YXX1rypmj2LH4nm423F56Ry

请勿开启浏览器阅读模式,否则将导致章节内容缺失及无法阅读下一章。

相邻推荐:有仙气:听说有神动凡心  繁华之间:名利场上的一夜沉浮  白色球鞋:他爱你的一百件小事  九秘神针:君临天下  2021 平板电脑推荐与选购:高效选品方法论  邂逅「诗和远方」:打开浪漫诗人的诗词世界  论文查重降重攻略:学术论文重复问题剖析  仙君他貌美如花  全世界都在砸钱养我  就怕小偷有文化:金融诈骗、空中抢劫与艺术品犯罪  忘记我姓名  古风甜饼,一生一世的赏味期限  2021 智能手机选购指南:看懂市场,做聪明的购机人  未来旅行家:跨越时空的科幻故事集  杀死女神  大话西方艺术史:艺术原来这么有趣  霍总,夫人的十个哥哥又来催离婚了  怪谈文学奖:现代都市恐怖病系列  二级建造师考试全攻略:从行业政策、备考规划到注册执业  我家院子可以去大明  

已完结热门小说推荐

最新标签