雨燕

选场景降成本,云知声自主造芯的思与辨

发布时间:2025/5/23 12:05:51   
中科爱心救助 http://nb.ifeng.com/a/20180410/6493214_0.shtml
年是云知声的历史转折点。在此之前,这家专注于物联网人工智能服务的初创企业一直以算法公司自居。但很快,团队愈发意识到算力和成本是不可化解的矛盾。当通用芯片的成本居高不下,批量生产遇到了成本瓶颈,于是云知声决定「自主造芯」。从决定「造芯」的第一天起,创始团队就非常笃定,AI芯片是成本问题的唯一解决办法,也为企业自身发展指明了一条通路。从年搭建团队,到年着重技术打磨,终于,云知声在年5月份宣布,其首款自研AI芯片「雨燕」得到成功验证,并于同年8月份正式量产。年4月份,第一批搭载云知声AI芯片的产品将在市场流通。这仅是云知声「自主造芯」的开始,若干款芯片「正在赶来的路上」。如何把握住巨大的市场,号准商业脉搏,对云知声来说既是机遇亦是挑战。在云之声OpenDay上,云知声副总裁李霄寒分享了自己对AI芯片的思考和心得。(云知声副总裁李霄寒

云知声)自主造芯的底层逻辑年,随着移动互联网时代的开启,移动智能设备的数量呈现了指数级的增长,数字化程度明显提高。当下,用户的个人位置、信用、货币都已基本实现数字化,为人工智能的落地和发展,奠定了坚实的数据基础。「而在即将进入的物联网时代,设备数量会再次大幅攀升」。李霄寒注意到,除了移动互联网所应用的传统数据之外,物联网囊括了家庭环境、位置、温度、语音、图像等数据维度。这些新数据是「弹药」,在产业界、资本界以及科研界都予以了高度重视。李霄寒认为,在物联网时代,人工智能的落地和挑战需要一个新的SOC,这其中包含芯片、云和人工智能技术。如今,云端不仅集成了很多AI能力,还集成了教育类、医疗类等知识,发展程度相对完备。当所有的知识与用户连接时,就需要一个载体。过去,这个载体是智能手机,但在物联网时代,这个载体可能是开关插座、音箱等智能设备。李霄寒认为,边缘AI芯片和服务端芯片同等重要。借助这些载体来承接云端的能力,并触达至用户,采用AI芯片是绝佳的解决方案,它是AIoT落地的核心关键。「我们现在处在一个非常牛的时代」,李霄寒感叹。当闻名遐迩的AlphaGo击败了围棋世界冠军李世石,无人不惊叹机器的强悍实力。有趣的是,早在年,深蓝击败了当时的国际象棋冠军时,有一种论调认为「国际象棋复杂度有限」,如果有一天机器能够在围棋赛场击败人类,才是人工智能时代的标志。近20年后,AlphaGo不负众望。它采用的是谷歌自研的TPU架构的人工智能芯片,与同期的CPU和GPU相比,TPU可以提供15-30倍的性能提升,以及30-80倍的效率(性能/瓦特)提升。「AI芯片可以分为两类,第一类是服务端芯片,即经过大规模的数据处理进行训练并形成AI模型;第二类是边缘AI芯片,云知声主攻这方面的芯片打造」,李霄寒表示。云知声以往在设计传统CPU的时候,更在意电路的设计是否足够好、足够强劲,能否降低成本和功耗。「通用芯片要面向所有的场景,有可能运行一款游戏,也有可能运行图像处理软件,它不需要考虑不同的需求,只需要把芯片设计得足够强劲。」但边缘AI芯片的设计,需要考虑的因素截然不同。因为不同的场景下的芯片需求不同,譬如电视端的芯片和风扇选用的芯片肯定不一样,前者要更加强大,能够做视频的检测,后者只需要控制电机和遥控感应即可。李霄寒总结说,云知声的特别之处在于,抛弃了传统芯片企业「先造芯再考虑卖给谁」的套路。他们认为正确的路径应该恰恰相反,先用方案解决某一个场景下的问题,验证成立后,再考虑如何生产降本。所以,先要有成熟的落地场景,清晰的需求和系统的AI算法,有了这三个前提之后,可以定义清楚芯片的SPEC,然后再考虑后面的芯片的研发步骤、架构设计等问题。这是云知声做芯片的逻辑和流程。(李霄寒表示,打破冯诺依曼的计算机架构已成为业内的共识

云知声)自主造芯的矛盾与挑战新时代自然会对传统的AI解决方案提出一些新要求。首先是通用架构在AI落地的过程中,需要更强大的边缘算力来测算边缘数据。比如降噪需要大量的计算,算力越强大,数据维度就越多,效果也会越好。但是企业不可能无止境地去满足它。这个约束来自于成本。「我们不可能为了解决智能音箱的拾音问题,造一款百元级的芯片,即便非常强大,但在商业上是不成立的。」必须要把它的成本控制在一个范围。这就构成了一种矛盾。这对云知声来说是一种巨大的挑战,李霄寒表示,「在新的场景和新的环境下,要基于场景,针对具体的应用,着眼AI算法,再加上芯片的应用,设计新的芯片。因此基于这种环境下,我们要考虑的因素要多得多。」另外一个挑战受制于上世纪四十年代,以冯诺依曼内存墙为代表的计算机架构。这一架构在芯片上明确了计算和存储分离的概念,「需要计算的时候,把大脑拉过来,在运算单元上处理,再从内存上不断获取数据,拿回去」。人们现在几乎使用的所有芯片,均是基于冯诺依曼架构运行的。显然,在AI芯片的架构下,它碰到了新的复杂问题。芯片在处理AI算法的时候,面临「需要处理的数据非常多」,以及「大量的数据拷贝需求」的问题。在这种情况下,CPU大部分的时间是在休息,带宽却频繁地在做传输工作。运算构件与存储构件之间大量的数据交换限制了系统的运算效率。打破冯诺依曼限制,拉紧计算单位和存储单位的距离,让二者尽可能的接近,已成为业内的共识。DeepNet是云知声的AI加速处理器,DeepNet1.0成功应用于去年5月份发布的「雨燕」芯片。「雨燕」相对传统的芯片来讲,计算效率获得了50倍的提高。这枚芯片贯彻了云知声「让冯诺依曼更矮」的核心思想。DeepNet2.0是云知声的多模态神经网络处理器,支持多种推理网络,可重构计算并支持某一系列计算公式的硬加速。它的原理是把乘法等价换算成加法,大幅提高计算效率。这样还不够,云知声期望让这堵墙变得更加低矮。在计算器内部,计算单元和行使单元基本结合在一起。当数据输送到第一个MACKJ的时候,计算完成完马上放到M1,然后再做相应的其他计算,保证在10个周期之内,完成全部计算,这样使计算效率得到大幅度的提高。在我们进行语音计算的时候,一般来讲CPU的利用率也就是10%左右,剩下的90%都是在搬运数据。这个架构可以把CPU的利用率提高60%以上,只剩下不到一半的数据搬运工作。此外,服务端有低功耗的需求,边缘侧对低功耗的需求更加旺盛。电池供电设备,手机、音箱、眼镜等所有这些便携式的设备都面临一个功耗的问题,但低功耗和大规模的并行计算是相互矛盾的,怎样在特定的功耗条件下,支持设备的算力,这是非常大的挑战之一。李霄寒认为,解决这个问题的必然方法是使用新的架构,来处理新的数据维度,因此需要在边缘侧(设备端)具有相应的算力。据了解,在云知声第一代AI芯片设计上,可以用2%的算力做动静检测,把98%的功能关掉。当设备被唤醒,机器判定动静之后,会做一个活体检测,整个初步的判断,仍然有90%的算力处于休眠状态。一旦检测到是人在发声,并判断发音和唤醒词是否匹配,至此需要20%的算力足矣。李霄寒表示,在实际情况中,绝大部分芯片在夜间都是处于休眠状态。追求效率的传统方式,是更灵活地控制功耗,「当芯片工作的时候会全力以赴的运行,不工作的时候就关闭。但AIoT时代的游戏规则变了,我们首先要从应用层面考虑,然后再考虑算法是否要为芯片本身改变。」所以,AI芯片不仅是硬件和芯片的设计问题,而且是芯片上层应用到整个场景的系统性问题。安全同样是一个绕不开的话题,云知声高度重视AI芯片的安全性。AI芯片的安全包含两方面,第一是防止软件放在芯片上「被拷贝」、「被倒卖」。一旦发生类似事件,企业的知识产权就没办法受到保护,蒙受巨大的金钱损失;第二是确保代码的完整性。当所有的设备都可以联网,意味着在开放的环境下,任何人都可以访问用户的芯片,一旦被黑客利用并被曝光,对于企业而言就是一场毁灭性的灾难。故此,云知声在芯片的所有设计工作中都考虑到了机密性和完整性,确保芯片的所有代码全部经过加密,确保所有在NTO内运行的代码不被人篡改。李霄寒最后强调,AI芯片的设计绝对不能被孤立。基于端云互动的思想提供了多模态处理的能力,在性能、功耗、面积上达到优异的平衡,并兼顾连接和安全的需求。责任编辑:克里斯图片来源:云知声

转载请注明:http://www.aideyishus.com/lkcf/9496.html

------分隔线----------------------------