提供计算机视觉通用DaaS平台,「冲浪科技」希望帮助AI公司更有效地获取优质数据
近年来,AI行业发展迅猛,2018年全球人工智能市场规模已达2700亿元。其中,计算机视觉是AI目前最为成熟应用方向之一,已经涌现出如旷视、商汤、云从、依图等知名公司。在所有AI应用的背后,是海量的算法训练数据。AI所使用深度学习等算法都需要数据来进行训练,数据量的优质程度将影响最终的输出结果。据艾瑞咨询数据,目前全球AI公司的研发投入中约有20%的钱投入到了数据获取上。
创立于2017年的「冲浪科技」,是一家高价值AI数据解决方案提供商。该公司通过研究各类最新的AI算法,找到算法中的漏洞,根据多年的算法与数据交互累计的经验,针对它们自主设计了数据一站式解决方案。同时,在数据制作过程中,公司利用自研算法辅助进行采集、校对、标注、清洗等数据处理环节,以提高处理效率。最终通过DaaS平台,以数据库授权和数据消费量付费两种形式为客户匹配相对应的数据库,提供数据服务。目前,冲浪科技自产数据库的规模达到PB规模,主要有自动驾驶数据库和人脸识别数据库两大类,同时也在农业、工业、医疗等领域布局。
冲浪科技CEO Edison 告诉,目前全球AI公司对各类优质数据都有很大的需求,在优化当前产品性能、开发新功能的时候都需要用到数据进行训练,仅依靠现有数据,已经很难满足需求。“拿我们最熟悉的人脸识别算法来说,现在市面上的人脸识别的产品,对于我国‘黄皮肤、黑眼睛’特征的人群识别准确率已经可以达到99%的水平,但是对于黑人的识别准确率就相对低很多了,原因就在于没有足够的黑人面部数据训练算法。” Edison说。不仅是对数据的需求大,
冲浪科技正是针对这些痛点,为AI公司提供可共享、高价值、低成本、合规的优质数据。冲浪科技生产一个数据库的步骤大致可分为:。在数据采集种类选择上,冲浪科技的标准是“前瞻、主流、通用”。该公司拥有一支专业的算法团队,研究目前市面上主流的算法,并与客户保持紧密联系,关注AI的未来发展方向,作出预判,采集相关数据,尽可能使其算法做到可以满足80%的市场需求。
在其目前主要关注的人脸识别数据库以及自动驾驶数据库建设方面,冲浪科技也有不同的方案和积累。
人脸识别数据库的采集方面,冲浪科技会选择选择市面主流的2D、3D摄像机进行样本的采集,并且对同一个样本,会在不同光线条件下进行各个不同的角度的拍摄,同时也会采取市面上主流的不同型号的手机对人脸进行拍摄,最终形成的不同规格、不同角度的图片数据。“一般来说,一个ID可以产生数千张图片,如果有客户提供特殊要求,冲浪科技还能执行更为细致的拍摄要求,ID的图片可以产生上万张图片。在图像采集之前,我们也会根据规定,要求采集对象签署相关文件。”Edison说。
目前,冲浪科技的已经建立了全球性3D人脸识别库、反欺诈人脸库、全球多国人脸识别库、跨年龄人脸识别库、监控场景下人脸识别库等多个数据库产品,图片数量达数十亿张量级。
在自动驾驶数据采集方面,冲浪科技采取了多传感器融合的方案,自动驾驶的视觉数据主要有视频摄像头采集的RGB图像数据和雷达采集的点云数据两种,这都需要不同传感器进行采集。冲浪科技已经取得了自动驾驶数据路测资质,公司根据采集方案要求,自主改装用于采集数据的车辆,同样也使用目前市面上相对成熟的主流传感器产品进行采集。在处理方面,则采取2D和3D的数据联合标注的方法,将图像与点阵数据融合进同一数据库,内容包含车辆在行驶过程中的路况数据,以及行驶地图信息。据悉,美国自动驾驶公司Waymo也在近期推出了类似街景数据库。
目前,冲浪科技在中美两地分别都有采集车辆,正在建造更大规模的自动驾驶数据库,数据量级将超越千万帧。
收费模式上,冲浪科技现阶段采用的是数据库授权的形式,授权费在几十万,甚至上百万元人民币,Edison 介绍,到第二阶段,冲浪科技将正式建成并完善自己有DaaS平台,通过数据消费量的具体大小和种类分类定价,为客户匹配最优的一站式数据服务。届时不同的客户,都可以方便的介入他们所需要的数据集的整体或部分数据。
未来,冲浪科技希望能做一个“平台级”的产品,接收各个公司对外分享的同类的数据,减少不同公司的同质化劳动,让更多的数据在其平台上进行流通,进而打破数据孤岛。
客户方面,冲浪科技的客户包括微软、英特尔、阿里巴巴、腾讯、商汤、旷视等世界知名企业,2019年收入5000万元,其中约有60%的收入来自海外。
冲浪科技的创始团队曾任职于英特尔、微软、NEC、Nuance等行业巨头公司,创始人Edison是连续创业者,曾参与斯坦福商学院Ignite项目。
此前,冲浪科技法国银泰资本的天使轮投资,目前正在寻求5000万元融资,用途主要为业务拓展、产品研发和运营投入。
————————————————————————————