高质量数据是推动AI算法发展的动力。没有标记数据的连续流动,可能会出现瓶颈,并且算法将慢慢变得更糟,并给系统增加风险。
这就是为什么标记数据对于Zoox, Cruise和Waymo等公司如此重要的原因,它们使用它们来训练机器学习模型来开发和部署自动驾驶汽车。正是这种需求导致了Scale AI的创建,该公司使用软件和人员来处理和标记图像,激光雷达和地图数据,以建立机器学习算法的公司。尽管Airbnb,Pinterest和OpenAI等公司也使用Scale的平台,但从事自动驾驶技术的公司在Scale的客户群中占很大比例。
随着视音频公司暂停在公共道路上进行测试(收集数十亿张图像的手段),大流行已经减缓甚至阻止了数据流。Scale希望免费重新打开水龙头。
该公司与激光雷达制造商Hesai合作,于本周启动了一个名为PandaSet的开源数据集,可用于训练自动驾驶的机器学习模型。该数据集是免费的,并已被许可用于学术和商业用途,包括使用Hesai的前向式PandarGT激光雷达以类似图像的分辨率以及其机械旋转的激光雷达Pandar64收集的数据。该公司表示,在官员发布该地区的全屋订单之前,这些数据是在旧金山和硅谷市区开车时收集的。
Scale首席执行官兼联合创始人亚历山大·王(Alexander Wang)在最近的一次采访中表示:“人工智能和机器学习是令人难以置信的技术,具有令人难以置信的影响力,但同时也带来巨大的痛苦。” “机器学习绝对是一种垃圾回收,垃圾回收的框架-您确实需要高质量的数据来支持这些算法。这就是我们建立Scale的原因,也是我们今天使用此数据集以开放源代码的角度帮助推动行业发展的原因。”
这种激光雷达数据集的目标是免费访问密集且内容丰富的数据集,Wang说,这是在复杂的城市环境中使用两种激光雷达实现的,这些环境中充满了汽车,自行车,交通信号灯和行人。
Wang说:“世界的Zoox和Cruises经常会谈论他们的系统在这些密集的城市环境中如何经过实战测试。” “我们希望将其真正暴露给整个社区。”
该公司表示,数据集包括48,000多个摄像机图像和16,000激光雷达扫描-超过100个8秒场景。它还包括每个场景的28个注释类和大多数场景的37个语义分割标签。传统的长方体标签,例如放在自行车或汽车周围的小盒子,不能充分识别所有的激光雷达数据。因此,Scale使用点云分割工具来精确注释复杂的对象(例如雨)。