云知声的七年之痒与恰逢其时
作者 | 龙曦
出品 | 创业最前线 在这个人人叫嚷“18个月就是时间窗口”甚至“6个月就是创业公司的生死线”的浮躁时代,AI公司云知声却悄悄地迎来了七周年的生日。 一个能在6个月里打开创业时间窗口的公司当然很了不起,但是一个能活过七年的纯技术公司,显然对社会更有意义。 因为,技术是需要积累的,尤其是AI这种开创性的技术。它的研发前置期长、市场导入慢、方向选择风险性高,沦为“先烈”的概率也很大。 从这个角度来说,生存到了第七年,不久前刚完成AI技术开放日全栈AI方案宣讲的云知声,刚刚进入更好的时间。 然而,业界像云知声这样的企业毕竟是比较少的,在熙熙攘攘的AI创业潮中,总有领导者、跟随者和投机者,赛道头部的空间毕竟是有限的。 所以,我们研究云知声,却又不执着于只讲云知声的故事。相反,它更像一面镜子,照出中国AI行业的真实与荒谬。 何为先声? 按照惯例,我们的故事不从时间轴的最远端讲起,而从和时下最热门的交集说起。 那就先说芯片吧。 因为众所周知的原因,国人皆知的一件事实是,整个中国产业界已经基本完成了一次中国正面临21世纪国运的大博弈的思想动员,或者说,至少是认知层面的动员已经在产业精英这个层面中完成了,芯片成为这场博弈中一个亮眼的领域。 这时候回过头再去看2015年云知声做AI芯片的决策,会觉得无比正确。但是,这种站在现在,说过去正确的推论并无意义。 真正的意义在于,云知声能够在大多数企业没有下决心去做一件更重、更难的事情的时候,出于对未来的战略预判,敢于并善于集中精力办大事,这是一种战略级的智慧。 在人们都不太去看好的情况下做决定,在人们都在唱赞歌的时候做实事,这就是云知声的基因。 云知声的一位高层回忆说,云知声很早就考虑在家电行业提供完整的智能语音解决方案,而且想法比较接地气——考虑到大多数家电企业都还没有系统级智能设备的集成能力,说起来,这很像第一代中国PC机配上“汉卡”才能处理中文。 小小的一块汉卡,至少催生出了联想、方正、金山等一大批中国IT企业。 然而,很多的客户反映,这种解决方案虽然好,但是只适合少部分的高端家电。 究其原因,云知声的小小一块“U盘”包含了许多元器件,其实并不便宜,而传统家电则是利润薄如刀锋的一个行业,主流用户很难接受为一个辅助功能而增加数百元甚至更多的成本。 这就形成了一个循环,如果不把解决方案做到足够便宜和好用,就卖不出去;而要做到足够便宜,就要把大部分功能和算力封装进一个soc里,那就要需要自己从头进行芯片的开发。 而2015年正好是移动互联网达到一个红利顶点的时期,业界风气浮躁,投资人对于周期长、门槛高、耗资巨大的芯片研发普遍持“做不如买”的态度,即使云知声是一个很受资本青睐的企业,投资人中也有人并不是很支持这个方案。 这时候云知声的创始人黄伟做了一个判断——如果云知声没有一个可以从端侧提供足够的算力和功能,又相对便宜的底层硬件支撑,云知声有再好的云侧智能解决方案也无法落地,蛋糕也因此无法做大。 换言之,这不是一个好与更好的问题,而是一个tobe or not to be的问题,黄伟的原话据说是:“不做芯片就是死路一条。” 于是,就做了。这个决策之后的路有多难走,不是本文探讨的话题。我们只看到两个结果: 第一,根据云知声在2019年初发布的近三年营收数据,2018年的营收增长了3倍,2019年营收预估增长也翻倍,而其收入主要来源是芯片和硬件。 从某种意义上说,云知声是行业里很少一部分赚到钱的AI公司,更是这很少一部分之中极少几家从硬件角度赚到AI的钱的公司。原因无它,因为它有一颗品质优良,充分支持其整个AI能力落地的芯片。 第二,云知声还在今年初公布了新的三颗芯片的计划,除了一颗是继续以更低的成本提供物联网的解决方案外,另外两颗则分别面向车联网和图形+语音的端侧计算,这基本上囊括了目前AIoT的大部分落地场景。 其实从今天再去看云知声当年做芯片的决策,其实也就是六个字——“服从市场需要”。 云知声从来不是一家为了技术而技术的公司,当年做芯片其实也是因为很客观的原因——不自己做芯片,就无法大规模、低成本的为产业赋能,就无法真正的迈出技术的小圈子,走进产业的大圈子。 在少有人走的路上步步领先 现在中国有多少打着AI旗号的创业公司呢?没有准确的统计数据,大部分媒体给出的口径都是一个概数——数千家。 不要小看“数千家”这个数字。因为中国科技创业历史上,上一次“参战”企业数量超过5000家的战役已经过去八年了,它的名字叫“千团大战”,准确的统计数字据说是6300余家企业。 有一位创投大咖说了这样一番话——其实说几千家根本没有意义,因为真正有实力大概只有50家,最后进入终局博弈的只有5家,最后活下来的只有2家。 AI会不会是又一场千团大战呢?从理论角度来说,似乎不会。因为千团大战的参加者虽然多,但比拼的只是一个模式—团购,只是一类产品—本地生活服务。 相反,因为AI的产业链很长,只要不是贪多求全,专攻一个领域甚至是一个细节,其实生存概率要大很多。 然而,行业并不总是按最佳路径前行的。我们看到的现状反而是,大部分的AI企业都在朝大而全的路径奔去,它们的宣传口径也很类似:一个万物互联的生态,一套无所不包的解决方案,一系列无所不至的落地场景。 然而,专业人士眼里看来的世界并不是如此,比如在AI风口已经风沙满天的2018年,胡润研究院《2017胡润大中华区独角兽指数》却仅仅在AI领域列出了3家独角兽公司,云知声是其中一家。 字节跳动如果不在百度强大无比的时候,反向去做很少有人做的推荐引擎,就没有今天估值750亿;京东如果不在2007年决定把今后四年的融资都投入物流配送,也就没有今天的中国第二电商巨头…… 那么,究竟如何判断一家AI公司的路走的正确与否呢?笔者觉得云知声恰好提供了一个很好的研究范本——看一家企业的路对不对,主要是看其在关键时刻的那几步走的对不对,而不是看其大多数时间和其他人做了多少相同的事。 云知声做的第一个正确的“少数派选择”,是在2012年引入了DNN。 所谓DNN,是指深度神经网络算法,这是近几年在工业界和学术界新的一个机器学习领域的流行话题,DNN算法成功地将以往的识别率提高了一个显著的档次。 在云知声创办之前,黄伟的个人研究方向就一直在语音领域,比如他作为摩托罗拉的资深研究员,帮助公司推出了世界上第一款声纹识别手机,此后出任盛大创新院核心高管,并创建了语音分院。 即使已经在语音领域取得过很多的成绩,但黄伟承认,在2012年成立云知声的时候,云知声的具体方向仍然未定,而只是由于当时看到了移动设备的飞速发展,黄伟和创始团队推测——可能未来在智能设备上,声音会成为一种重要的交互方式。 但是,当时黄伟手中的语音识别引擎,是基于传统统计模型的,虽然准确率达到了85%,甚至超过了当时的“国家队”科大讯飞。 但是对于工业界来说,80%和85%的区别并无意义,因为都没有达到可以商用的准确程度。 严格说来,作为一种前沿技术,AI的分支流派是很多很多的,提升准确率的方法也有很多种。但是作为一个创业企业,资源却决定了企业只能在一两个方向上试错。 在这个关键时刻,黄伟作出的决定是,拥抱DNN,他认为随着算力的提升和样本库的扩大,DNN是最行之有效的一种提升AI“智商”的路径。 坦率的讲,这并不是没有风险。 DNN的优点是相比于传统的视觉和语音识别方面有了很大的提高,也具有较好的transferlearning性质;但是模型正确性验证复杂且麻烦,某些深度网络在训练和线上部署时都需要GPU支持,简单来说就是需要更多的资源、时间和钱来实现。 这里我们再次不讲技术细节,只讲结果: 第一、选择DNN的结果就是云知声的语音识别准确率迅速大幅度提升,很快的达到了投入商用的标准; 第二、从现在绝大多数企业的选择来看,DNN已经成为了主流选择。也就是说,云知声当时超前的技术预判后来被证实是正确的。 顺便插一句,为了更好的提升准确率,云知声还和腾讯合作推出了微信上的第一个语音识别插件,并且第一时间开发了一个开放平台,任何人、任何组织只要在云知声的平台上注册,就可以免费使用云知声的SDK,甚至是自己的APP里接入云知声的SDK,就可以免费调用服务。 这从某种程度上反映出,云知声不仅有清楚的技术预判,也有同样注重实效的运营策略,例如提供开放平台的种种方式,目前就是公认的在搜集训练AI能力的“数据燃料”上最有效的收集办法,前提是免费。 “当时业内不是很看好创业公司做平台,但是我们很清楚数据对人工智能来说意味着什么。如果当时我们没有从云端收集这些真实用户数据,我相信我们的进程会慢很多。”云知声CTO梁家恩说。 前面已经说过,选择DNN和选择自研芯片,是云知声的两次“少数人的抉择”,但是笔者认为对于整个云知声意义最大的,也是对未来最大影响最大的,反而不是这两次偏向于技术路线的选择,而是“云-端-芯”这个商业战略的决定。 创业界的名言——企业的成败最终是战略+深度思考的结果。 很多媒体都把“云-端-芯”简写成“云端芯”,这造成了一种误解,让人觉得这是一款硬件。其实,这是一种生态闭环的设计,即从“云”到“端”再到“芯”。 可以理解为云知声的整体物联网解决方案中,包含了云、端(可以理解为设备、场景)、芯片三个环节,而芯片在解决端侧问题方面提供了特别重要的帮助。 这个战略的另类之处就是,它打破了传统的abc合流问题中,被认为是理所当然的“云-端”组合,把“芯”放在了一个特别突出的位置上。 笔者认为,这个战略的最大特点,就是比别的企业同期的解决方案更成熟、更贴合实际情况,因此最终的反馈也更好。 梁家恩认为,如果单纯从理论上来讲,云-端是完美的闭环,但是在实际的使用过程中,会有大量需要本地算力的情况,比如: 移动设备有时候会在在线和离线两种情况下切换,但用户的需求不会只在在线的时候出现,这时候芯的本地计算能力就起到了使服务不中断、平滑延续的作用; 又比如,不同的设备的本地算力不同,会造成同一种解决方案在不同设备上的实际效用千差万别,芯在这里就可以提供支持,使用户的体验均衡平顺;再比如芯片级的技术可以支持一些特殊的需求,如冷唤醒或者中途打断,这些都是语音设备体验中千千万万的具体个别情况之一。 笔者认为,“云-端-芯”的架构并不在于其有多先进,反而它可能是最前沿技术的一个现实折衷,但它反映的恰好是黄伟等核心创业团队有具体的工业界经验、接地气的一方面,他们宁可增加一个环节,宁可增加一些成本,也要最大程度的贴近用户的实际使用情况,贴近客户的实际使用需求和用户体验保障。 这可能就是一个成熟创业团队和一个不成熟创业团队在商业策略上的决策能力的差别,而这种差别最终反映在一个结果上,就是云知声是中国在落地上做得最好的AI企业之一。 在大部分AI企业还在考虑如何落地赚钱的时候,云知声早就进入了若干重要场景并在其中建立起口碑和声望了。 所以,如果要给云知声的每一次“少数派的选择”做一个定性的话,那就是——他们每一次都站在实际解决问题的角度,都站在用户体验的高度,都站在实际解决用户需求的方向上。 全栈其实是选择后的结果 进入2019年,云知声把“芯片的全栈AI能力”,放到了一个特别重要的高度。 首先必须要解释一下何为“全栈”。 其实,对于全栈(FullStack)(FullStack Developer) 对于云知声提出全栈的概念,其实让人特别感慨。这家谦虚、低调的企业在沉潜了七年之后,终于提出了一个比较“霸气“的说法,这意味着它向赢家通吃又走进了一步。 笔者认为,云知声所谓的“全栈能力”,不能简单理解为“已经完美的能力”,而更应该理解为“有能力去解决一切问题的能力”。 先看云知声自己的能力建设,简单的说来,人工智能是集合算法、算力和大数据三位一体的前沿技术,再加上云端作为通路,进而形成闭环。 云知声拥有体系化的生态,拥有领先的算法、拥有将算法凝聚在芯片上的能力,还超乎寻常的拥有超算平台能力。 再看云知声能力的另一个维度,那就是将技术商业化落地的能力。梁家恩就说的很好,他认为云知声的全栈能力是技术能力、工程能力、产业能力三者复合的产物,缺一不可。 我们可以从云知声的结果来“逆推”一下它的能力: ——硬件很赚钱,云知声于2015年成功出货IVM模组,2018年推出雨燕芯片,2019年将推出雨燕Lite版,其客户覆盖格力、美的、长虹、华帝等一线家电厂商,成为国内人工智能公司中唯一一个有自研AI芯片在主流智能家居厂商中以不同形态全面落地的企业; ——场景很丰富,云知声抓住了几个重要的场景,如车载领域,云知声已服务近100家方案商、品牌商超2000万台设备,今年还将和吉利联合推出车规级的多模态AI芯片,这又将是一个赢家通吃的领域; 另外,在无数企业想涉入却很难赚到钱的医疗市场,云知声在国内提出语音病历解决方案,已在包括北京协和医院、福建省立医院等近百余家重点医院上线,并和平安好医生联合成立合资公司——澔医智能; 在绝对刚需的教育领域,云知声的合作客户超80家,日调用量2.7亿次…… ——技术不断演进,云知声从单纯的语音交互入手,开始向多模态演进;通俗的理解,模态可以理解为感官,多模态交互即是调用多种感官的交互方式,这无异更接近真实交互,也需要更高的难度; 云知声为此发布了多模态人工智能核心IP——DeepNet2.0,其AI处理能力也由1.0的语音进化到2.0的多模态,支持语音、图像等处理能力…… 笔者无意继续罗列云知声的成绩,但要指出其成功的一个关键要素——云知声始终选对方向的原因是什么? 笔者认为,这是因为云知声始终坚持,在宣示自己“什么都能做”之前的七年里,其实是一直坚持“先考虑什么坚决不能做”。 比如黄伟就一度坚持不做App,因为他认为手机的基本交互是触控,App对增加用户用语音交互的推动上作用不大。 相反,那些传统意义上没有屏幕的设备,如很多白色家电,反而更容易接受语音交互。 当然,随着时间的发展,可能有些没有屏幕的设备也需要进化出屏幕来加强交互,比如小米和百度开始推的音箱都是无屏幕的,但现在也推出了带屏幕的版本……这一切都说明,人工智能在交互在向智能化大方向进化的前提下,可能出现很多具体领域的进化与退化共存,试错与探索并行的状态。 这也从本质上说明了,创业江湖始终是一个比拼选择能力的江湖。 对于许多企业来说,成功就是不断地通过选择把不确定变成确定的过程,而对于这一点,云知声的做法值得每个探索者借鉴。