当前,大模型训练对数据燃料的需求日益倍增,尤其是对现有的公开文本数据有较强依赖。有研究预测,到2026年ChatGPT的训练或将耗尽互联网公开可用文本数据,下一代万亿级别大模型训练或将面临存量见底的境遇。在此背景下,有望解决此类数据供给问题的“合成数据”兴起,市场规模迅速扩大。Cognilytica发布报告称,合成数据生成市场预计到2027年底将增加到11.5亿美元。此外,伴随《关于构建数据基础制度更好发挥数据要素作用的意见》的出台,数据要素市场亟需增量扩容,对于数据要素优质供给的需求也在持续增加,更高效率、更高质量和更低成本的合成数据将迎来更加广阔的发展空间。
合成数据将助力AI模型开发,成为数据要素市场新增量
与从真实世界中采集的现实数据相反,合成数据(Synthetic Data)是基于计算机模拟技术或算法人工生成的虚拟数据。它在真实数据集上进行训练,从数学和统计学上反映了真实数据信息,可以用来获取极端情况下的训练数据以填补现有数据缺陷,也可以用来训练、测试和验证AI模型。合成数据依赖少部分的高质量真实数据用于初始创建,将大幅减少算法训练所需的真实数据量,提供了一种更快捷高效的方式来获取所需数据。目前主要通过以下四种技术路径来获取合成数据。
图1 合成数据获取方式
1. 合成数据对AI模型开发价值增大,助力形成应用闭环
合成数据在人工智能领域具有重要的应用价值。根据Gartner预测,到2024年,用于训练AI的数据中有60%将是合成数据,到 2030 年,合成数据将完全盖过 AI 模型中的真实数据,成为AI模型训练使用数据的主要来源。通过使用合成数据可以快速、准确地构建数据集,以帮助机器学习算法更好地理解和预测现实世界的情况。合成数据也能填补真实数据集中可能存在的数据缺失、数据不足、数据不均衡等问题,提高机器学习算法的鲁棒性和泛化能力。此外,在AI 2.0阶段,人们可以让AI在由合成数据构建的虚拟仿真世界中进行自我学习,这将大大拓展AI的潜力边界。
图2 合成数据发展预测(来源:Gartner报告)
2. 合成数据有望成为数据要素市场重要组成部分
目前,数据要素市场面临数据采集和标注成本高昂、数据质量难以保障、数据多样性受限、数据隐私问题等多重挑战。在建设数据要素市场的过程中,合成数据可以作为数据要素市场中的一种交易对象,帮助买家更好地评估和改进算法性能,提高数据交易的效率和价值。合成数据的具体价值主要体现在以下几个方面。第一,极大节省数据采集成本,满足大规模数据需求,具有成本效益;第二,有效解决数据隐私与数据安全问题,在金融、医疗等用户信息较敏感的领域应用价值巨大。第三,确保数据多样性,预测边缘情况,进而避免算法歧视,打造更公正更普惠的人工智能模型。第四,提高数据利用的灵活性,使数据利用更加定制化。合成数据可以根据特定场景和需求生成具有特定属性的数据,满足特定情境的数据需求。
合成数据产业布局细分四大方向,应用领域前景广阔
众多科技厂商和创新企业已经意识到合成数据在人工智能领域的巨大价值,开始抢先投入和布局。从合成数据供给侧视角,合成数据的产业布局可分为结构化数据(表格数据)、非结构化数据(视频、图像等)、测试数据、开源服务等四大方向,代表企业与提供服务如下表:
表1 合成数据产业部分代表企业及提供服务
在此基础上,英伟达、微软等大型科技企业也纷纷与上述部分合成数据供应厂商合作,推出平台服务。如英伟达与AI Reverie、Sky Engine合作,在其Omniverse元宇宙平台中加载了omniverse replicator合成数据能力,用于创建机器人训练的虚拟环境以及模拟丰富的自动驾驶现实场景。
从应用侧来看,合成数据的应用领域十分广泛,早期主要应用于计算机视觉领域,现在正向金融、医疗、零售甚至运营商领域拓展,具有广阔的市场前景和价值空间。未来,随着产业技术越来越成熟,合成数据将会赋能更多行业和领域,帮助企业解决实际问题,给企业带来业务突破和发展。
图3 合成数据应用场景及案例
合成数据潜在风险与局限
合成数据虽然有诸多优势和广阔的应用前景,但由于技术手段、产业发展等方面限制,合成数据仍存在一定潜在风险和局限性,因此在使用合成数据时,要注意在一定程度上规避和防范。
合成数据在技术精度上仍存在一定局限。合成数据的质量通常取决于创建它的模型和开发数据集的质量,使用高质量的真实数据作为起点就显得尤为重要。如果合成数据不准确或与真实世界数据不匹配,这可能导致生成不合逻辑的非自然数据。因此,创建合成数据时需要额外对数据质量进行评估和管理,与人工标注的真实数据进行比较确保两者的匹配程度。
合成数据存在“隐式隐私”泄露问题。目前,合成数据不可避免地需要依赖小部分真实数据用于训练数据模型。在模型训练过程中,存在记忆原始训练样本分布,通过逆向工程反推原始训练数据的风险。如何平衡好保真度和隐私保护之间的关系亟待探讨。
合成数据赋能电信运营商
业务相关建议
在电信运营商领域,西班牙电信运营商Telefónica已经对合成数据的应用价值进行了初步探索。未来,随着AIGC技术能力全面提升,基于AIGC技术的合成数据也将展现出更大的发挥空间,充分赋能于运营商现有业务发展和新业务领域拓展,助力运营商迎来新一轮变革。
合成数据将驱动运营商现有业务向高效、智能化发展。在不提供用户敏感信息的前提下,模拟真实客户数据的统计模式,根据现有用户数据进行推演形成其他属性,通过合成数据集训练精准营销模型、客户流失预警模型等,进而提升获利能力。还可以利用这一合规可用的数据源更加高效廉价地训练智能客服或虚拟数字人,从而提升用户服务感知。
合成数据也将帮助运营商找到新定位、拓展新领域。合成数据产业的兴起可促进运营商向数据服务商身份发展,拓展新业务领域,解锁数据资产价值。结合运营商自身真实数据资源生成无统计学相关性的合成数据,向外部有数据需要的企业出售相关训练数据产品,也可与外部企业合作,提供基于合成数据的咨询服务。