Waymo公开完整数据集:“挟数据以令诸侯”的格局是否会形成?
对技术一向守口如瓶的Waymo,正在一点一点揭开神秘的面纱。
去年底,Waymo在官方博客公布了一个利用深度学习来教会汽车怎么行驶的技术【1】,ChauffeurNet从此浮出水面。
今年初,曾经为了激光雷达技术而与Uber以及时任Uber无人车老大的绝代枭雄Anthony Levandowski对薄公堂的Waymo,竟然开始公开出售自家的激光雷达(参见《世界第一的无人车公司,今天开始卖激光雷达啦!》)。
说起和Uber打官司这个事情吧,大键最近听说还有个反转。虽然当时官司是打赢了(Uber赔钱认错、庭外和解),但是去年底,有个和两家公司完全没有关系的工程师(好像还和无人车没啥关系),出于内心澎湃的正义感,自掏腰包出了6000美元,向Waymo在官司中使用的非常重要的936号专利发起挑战。最终,美国专利和商标办公室撤销了专利中原本的56项内容中的53项【2】!这个专利基本就废了,而Uber可能白白认输了。
和公开技术、贩卖激光雷达相比,今天的新闻毫不逊色:
Waymo此次公布的数据集,包含了3000段驾驶记录,平均每段长度约为20秒。因为每秒钟大约有10帧数据,所以整个数据集包含了60万帧。光看60万帧这个数字,对比ImageNet的图片数量(大约也就是几十万到一百万张图的样子),放到学术界来看可是不小了,无疑是一片沙漠中的绿洲。从此以后,几乎所有能够买得起GPU的实验室都可以训练自己的自动驾驶模型了。
除了学校实验室之外,一众无人驾驶小公司应该也是疯狂受益。能免费得到这么多数据,谁还用买辆车装着雷达到处跑,然后还要标数据啊。这么多高品质的Waymo数据,如果学术界够用,那么对于startup来说,出个酷炫的demo也完全够用。不要说天使轮或者A轮了,如果算法的迁移能力够强的话(因为毕竟大部分Waymo的传感器市场上还是买不到),估计撑到B轮都不用收集驾驶数据,也不用花钱请人标数据了。我的天,想到这里,一个新闻工作者都有点蠢蠢欲动了!
不过,考虑到大部分startup可能活不过B轮,那么一堆提供无人车装配以及数据标注的公司可能要断粮了。唉,这属于高维打击吧。
仔细想来,一共6万秒的数据,也才16个小时多,一天都不到,半天刚出头。靠这些数据,任何人都不可能训练出一个和Waymo一样厉害的无人驾驶程序的。但是如果有任何的算法能在这个数据集上表现得不错,甚至于超过了内部的模型,Waymo马上可以拿来应用在自己十年的所有数据上面,或许就有一个巨大的提升。
之前提到了Waymo无人车大部分的传感器市场上还没有(唯一能买到的就是他家的近距离激光雷达),但是这次数据集一公开,所有传感器的特点都一览无遗了,比如说噪点多不多、远处物体距离准不准、除了距离和信号强度外还有没有其它信息。可以想象,一堆竞争对手甚至会拿着Velodyne的激光雷达跑到数据集中的地点采集激光点云数据,然后和Waymo的数据逐一比对,评估两者的优劣。
根据这次公开的资料显示,Waymo的无人车上有一个主激光雷达(就是车顶上那个,可以类比于Velodyne的64线或者128线的那种),加上四个近距离激光雷达,还有五个朝前看的照相机。所有的传感器数据都公开了,关键是还给你把物体能标2D的框就标2D的框,能标3D的盒子就标3D的盒子,实在是太厚道了!不过大键有一个小问题:据说为了保护隐私,照片里面的敏感数据都会打上马赛克,最主要的就是人脸。这样一来,行人检测岂不是会训练成马赛克检测?
对于这次公开的数据集,如果只用一个词来评价,无疑就是“共赢”。但是如果推演一下,有以下两件只对Waymo有利的事情可能会发生。
最后的最后,世界第一的无人车公司Waymo在还没有推出拿掉安全司机的无人驾驶出行服务之前就推出了如此重磅的公开数据集,有一种打持久战、等待学术界补血的意思。让我们看看,“挟数据以令诸校”的格局是否会形成,Waymo能否在未来的几年,继续保持自己的技术优势,带领大家早日实现无人驾驶出行呢?
参考资料:
【1】《学会开车:不只是模仿》,链接:https://medium.com/waymo/learning-to-drive-beyond-pure-imitation-465499f8bcb2
【2】《工程师花了6000美元,证明Waymo的激光雷达专利无效》,链接:https://www.engadget.com/2018/10/02/waymo-self-driving-lidar-patent-infringement-uber-velodyne
本文是原创作品,首发自微信公众号“硅谷大键”。如果喜欢文章,欢迎分享给你的朋友,也欢迎订阅我们的公众号。如果想转载到其它公众号或者其它平台,请在后台联系我们。希望大家共同支持原创作者、爱护原创文章。
本文所引用的资料(包括但不限于文字、图片和视频)全部标明出处,没有用作商业用途,也没有对资料进行曲解、篡改等恶意处理。如果资料的版权所有者希望移除引用,请给我们的公众号留言,我们一定及时处理。