自研AutoConnect数据标注平台 文德数慧数据标注技术创新成果与实践

分享到
为加强跨领域跨模态语义对齐、4D标注、大模型标注等数据标注领域的关键技术攻关应用,推动数据标注产业高质量发展,文德数慧坚持技术创新,以数据标注业务为核心,自主研发了AutoConnect数据标注平台,提供数据的标注、质检、验收等全流程管理功能;数据处理支持2D图像标注,3/4D激光点云标注,文本标注、音频标注、视频标注等多品类数据,主要服务领域包括人工智能、自动驾驶、智慧城市、互联网、电子商务、新媒体、AIGC、数字政府、工程设计、安全检测等,服务客户均为相关领域头部。

一、背景

当前数据标注行业面临诸多挑战。首先,对标注者的逻辑能力、知识体系的要求逐渐提升,对从业者的专业背景或学历水平提出了更高的要求,部分面对人力短缺的一大卡点。其次,标注的方式方法欠缺统一客观标准,标注方式或评估标准的细节在项目过程中多变,需要多方持续沟通,这是数据标注发展过程中需要解决的堵点。同时,AI数据标注在部分垂类领域的数据处理能力困难,这是数据标注过程中又一大难点。

二、目标及建设内容

为解决当前数据标注存在的卡点、堵点与难点,文德数慧坚持技术创新,以数据标注业务为核心,自主研发了AutoConnect数据标注平台,提供数据的标注、质检、验收等全流程管理功能,数据处理支持2D图像标注,3/4D激光点云标注,文本标注、音频标注、视频标注。在人工标注的基础上通过AI预处理和算法辅助标注等技术手段提高数据标注数据作业效率。

AutoConnet数据标注平台由数据管理平台、标注工具平台、AI标注平台三个子平台组成,实现数据边标边训,通过增量式数据标注,驱动预标注模型辅助人工标注。其中AI标注平台,主要以”边标边训”的技术实践,提高标注效率。标注人员在进行数据标注的同时,模型也在不断地利用已标注的数据进行训练和学习。标注人员可以即时地看到模型对数据的理解程度,从而根据模型的反馈来调整标注策略,提高标注的准确性和效率。同时,模型也能从新的标注数据中不断学习和优化,形成一个良性循环。

标注工具平台自主研发了图像、文本、音频、视频、激光点云等数据标注工具。随着近年来自动驾驶技术迅速迭代,对激光点云数据的处理复杂程度也大幅提高。4D标注在三维空间标注的基础上加入了时间维度,可以记录物体在时间轴上的运动和变化。当前4D标注处理的数据维度繁多,如自动驾驶数据通常使用多种传感器,有3颗激光雷达、11个摄像头、以及IMU惯性测量单元等,通常标注时需要先进行多帧数据融合,融合后的数据,单个点云文件大小在1G以上,点数达到上亿,对标注工具性能是一个极大考验。

文德数慧还自主研发了4D标注平台,解决了单个亿级规模点云能够在普通电脑上流程进行数据标注作业,已经应用在自动驾驶4D场景重建标注上。4D标注工具通过LOD分层方式加载渲染大点云,具备车道线、路面标识、空中标志牌所用的线段/点/多边形标注形状;具备点云和相机数据展示,点云中的标注物,在相机参数正确的情况下,具备正确投射到2D各个相机中;具备车道线分叉场景所需的点和线段共组功能;具备点云轨迹显示功能,通过轨迹定位当前帧相机;具备标注列表展示,全部显示/隐藏标注物;具备展示标注物属性,有单选、多选;具备质检批注功能,能够展示标注错误的位置。在道路标识标牌的标注方法上,4D标注工具内置了标志标牌轮廓尺寸标准,作业员通过标注3个关键点,即可完成标志物的全轮廓标注,大幅提高作业效率。

三、实施效果

作为文德数慧自主研发的标注工具,4D标注工具汇聚了多个亮点,首先它可以针对3D空间+时序维度进行标注,支持激光雷达、毫米波雷达、摄像头、机位图等多种数据类型;其次4D标注工具采用Potree进行展示,支持亿级点云数量,实现大规模数据流畅处理;再者支持对激光点云进行RGB像素级色值个性化设置,易于准确分辨点云目标;最后,内置预加载功能,可实现加载、标注同时进行。

除了标注工具亮点外,文德数慧还打造了一套“3+11”的标注模式。即以“数字化、智能化、自进化”为核心,围绕“人、数据、工具”3要素,应用多种技术手段,根据作业任务、人力、进度、质培等11项核心业务经营指标,形成业务流程标准化管理,标注规范化高效运行,服务多类客户,为我国数字经济产业做出巨大的贡献。

伴随着业务的成熟,公司项目毛利率持续增长,收入和净利润逐年大幅提升。截止2024年底,公司实现收入破亿元。预计近三年收入增长超过50%,在高速发展的背景下,公司经营情况逐年向好。

102321736.jpg

完成单位:文德数慧(苏州)科技有限公司

责编:左右