现阶段高质量、易监督数据存量见底,基于AIGC技术的合成数据或逐步成为AI训练的数据来源之一,解决AI模型训练中所需数据的量、质与成本限制。
AI基础数据服务商主要有众包平台服务商和自建外包一体化服务商两大类,两者之间也存在交叉。 随着科技巨头对高精度训练数据集需求的增强,自建团队的趋势也愈发明显,以保证标注人员对数据集产品的理解和训练数据质量把控。 现阶段自建多为初步尝试,致力于垂直细分场景的数据集合、敏感数据集开发、以AI技术反哺提高标注智能化水平等。
当然目前合成数据技术也在技术精度、人才匹配等上有自身局限,未来将与真实数据集产品合力成为AI产业的数据基石。
但基于成本及规模化效益考虑,自建巨头仍会外采基础数据服务产品;()现象级应用ChatGPT的出现以及席卷全球的对话大模型开发浪潮为AI基础数据服务产业发展带来助力对于互联网公开数据需要运用文本分类标注、对话语料构建等标注类型帮助模型调优,避免恶意和偏见内容等AI伦理问题。
目前服务商普遍AI视觉和智能语音数据集产品的占比较高,NLP相关业务占比较低。