平头哥的首颗 AI 芯片对阿里云来说意味着什么?
文 | 王毓婵
编辑 | 苏建勋
“去年四五月份,阿里内部设立做芯片的目标并开始做 PR 的时候,我们实际上一行代码都还没写,压力非常大。”谈及阿里首款 AI 芯片的诞生,阿里巴巴平头哥半导体公司研究员骄旸对包括36 氪在内的媒体说。
9 月 25 日,平头哥拿出了第一款 AI 芯片含光 800。酷爱花式起名的阿里没有错过这个机会——“含光”为上古三大神剑之一,与 2 个月前发布的嵌入式 CPU“玄铁”和 1 个月前发布的系统芯片平台“无剑”遥相呼应,武侠兵器阵营又添一员。
2018 年 4 月,中兴遭遇芯片危机。同月,阿里收购嵌入式 CPU 公司中天微,并宣布开始研发神经网络芯片 Ali-NPU,运用于图像视频分析、机器学习等 AI 推理计算。
2018 年 9 月的云栖大会上,阿里巴巴 CTO 张建锋宣布,Ali-NPU 团队已经完成所有的芯片指标检测验证。
从“一行代码没写”到“通过检测验证”,平头哥花了 5 个月;从“通过检测验证”到“正式亮相”,平头哥花了 1 年。这个进展速度甚至快于英特尔、英伟达等芯片大厂。阿里对芯片的急迫可见一斑。
云厂造芯成新趋势
根据张建锋的介绍,在业界标准的 ResNet-50 测试中,含光 800 推理性能达到 78563 IPS,比目前业界最好的 AI 芯片性能高 4 倍;能效比 500 IPS/W,是第二名的 3.3 倍,是“全球最高性能的 AI 推理芯片”。
张建锋展示“含光”芯片。(图片由阿里巴巴提供)
含光不是今年 9 月进入媒体视野的唯一一款芯片,同月,华为发布了 AI 芯片昇腾 910,也号称“全球算力最强”。
一个月出现两个“最强”,但并不是一回事。“芯片的概念和互联网一样大。互联网上有多少应用就有多少芯片。很多芯片比青菜还便宜。”张建锋说。
但实际上昇腾 910 与含光 800 还是相同性大于相异性。都是 AI 芯片,都部署在云端,只不过前者是“训练”芯片,后者是“推理”芯片,分属深度学习的两个阶段。训练芯片注重绝对的计算能力,而推断芯片更注重单位能耗算力、时延、成本等综合指标。
作为都在做公有云的两家大厂,阿里与华为存在竞争关系。IDC 数据显示,2019 年第一季度,中国公有云服务整体市场规模(LaaS/PaaS/SaaS)达到 24.6 亿美金。中国公有云 LaaS+PaaS 市场份额中,阿里最大,占到了 43%,华为差距较大,排名 5.2%。
国内公有云市场集中度不断提升,几家巨头都不约而同地开始造芯。在占据国内 LaaS+PaaS 八成市场的“六巨头”中,阿里、AWS、百度和华为都有了自己的芯片,仅剩腾讯和中国电信两家还站在赛场之外。
云计算厂商自主造芯是近两年才有的一个新趋势。这背后是整个行业成本的上涨。本月,华为 Cloud & AI 产品与服务总裁侯金龙称,华为云数据中心的服务器成本占比已超过 60%,未来依靠从外界买服务器提供云很难盈利。
英特尔、英伟达、AMD 等公司长期垄断着云服务器的芯片制造。根据 DRAMeXchange 的数据,目前全球 90% 以上的服务器都在使用英特尔主导的 x86 架构。
现在,云厂商都在造芯,而且这是一个漫长的过程。如同张建锋所说,芯片的概念和互联网一样大,除了用在服务器上的芯片,还有用在端上的芯片。今年的云栖大会上,阿里宣布天猫精灵已经与平头哥共同定制开发了一款智能语音芯片 TG6100N,很快将在一款新产品中正式应用。这是平头哥的 AI 芯片首次应用于家用产品。
“在芯片领域阿里巴巴是一个新人。玄铁和含光 800 是平头哥的万里长征第一步,我们还有很长的路要走。”张建锋说。
阿里芯服务阿里云
张建锋在接受 36 氪采访时说了两个点,一是阿里不会自己制造芯片,二是含光不会被直接出售。
“含光 800 将通过阿里云对外输出 AI 算力,未来企业可以通过阿里云获取含光 800 的算力。基于含光 800 的阿里云性价比提升了 100%。”张建锋说。
也就是说,含光是和阿里云“搭着卖”的,它的诞生是为了促进阿里云的销售。
为了显示搭载了含光 800 的阿里云性能更优,张建锋在云栖大会现场演示,拍立淘商品库每天新增 10 亿商品图片,使用传统 GPU 算力识别需要 1 小时,但使用含光 800 后可缩减至 5 分钟。
阿里云的销售确实需要新的刺激。截止到今年 6 月的二季度,阿里云的增速是 66%,相比前两年大大放缓。去年全年,这个数字是 84%。阿里云前总裁胡晓明在任的 4 年里(2014-2018),阿里云的年度营收从 10.96 亿元涨到了 213.6 亿元,翻了 20 倍以上。
当然,最近阿里云收入增速放缓有市场趋于稳定及体量扩大等原因,很难说阿里云本身业务出了什么问题。“实际上现在这个增速在行业中仍然是非常高的水平,传统 IT 企业可能只有 10% 左右的增长,很多企业的服务器业务甚至还有 10% 左右的下滑。云的发展进入了成熟稳定发展的时期,这也是一个正常的现象。”
但不管怎样,含光确实是为了服务阿里云而诞生的,阿里并没有把它量产出来的计划。
“芯片行业的产业链非常长,每一环节都有复杂的程序。就像做一本书一样,有人写作,有人设计,还有人负责印刷、装订。阿里的角色就是一个写书人,印书是台积电的活,我们不负责印书,更不可能把整个链条全做完。”平头哥首席科学家元尊说。
华为的思路与阿里不太一样。虽然也是不单独卖芯片,但不同于阿里“芯片搭着云卖”的思路,华为的做法是“芯片搭着服务器”卖。
本月,华为启动了基于“鲲鹏+昇腾”的双引擎计算战略。其中,鲲鹏包括服务器和 PC 机芯片,昇腾则包括训练和推理芯片。华为宣布,未来将对外提供主板、SSD、网卡、RAID 卡、Atlas 模组和板卡,优先支持合作伙伴发展服务器和 PC 等计算产品。也就是说,会对外销售搭载了华为芯片的服务器和主板等。
对于阿里与华为来说,自研芯片开发成本高,周期长,先放入自家产品中使用是一个能保证研发成本不会竹篮打水一场空的快捷方式,至少两家云厂自己的需求就能消耗掉大半芯片。另外,华为的模式对于笼络硬件厂商、构建华为生态有长远意义。
题图来自阿里