随着大模型掀起AI技术革新浪潮,大数据也进入了与AI深度结合的创新时期。2023年云栖大会上,阿里云DataWorks产品负责人田奇铣发布了DataWorks Copilot、DataWorks AI增强分析、DataWorks湖仓融合数据管理等众多新产品能力,让DataWorks这款已经发展了14年的大数据开发治理平台产品,从一站式向智能化不断升级演进。 Data+AI双轮驱动
进入AIGC时代,AI for Data和Data for AI成为当下的热词。AI for Data,这个比较好理解,通过大模型驱动的AI智能助手,可以提升数据平台工具的效率。DataWorks为企业搭建了一站式、全链路的工具链,在这个过程中,也源源不断地为企业构建数据资产,比如数据模型、元数据、数据血缘、数据指标等,在大模型时代,这些也可以称之为企业专属的领域知识,借助大模型强大的语义理解、推理、上下文学习、记忆能力,通过大模型的Prompt Engineering,DataWorks一站式平台可以为AI智能助手提供更接近的、更及时的、更全面的上下文信息,从而可以让AI获得更好的效果和性能,这是Data for AI。有了良好的数据基础,今天我们发布的众多新品就是借助AI大模型的能力,通过Data + AI双轮驱动,为数据开发和分析提供了新的范式,进一步提升企业获得数据价值的效率。
云栖发布:DataWorks Copilot 智能SQL编程助手提升30%数据开发分析效率
DataWorks Copilot是基于NL2SQL大模型打造的SQL编程助手,我们使用基于公开的数据集训练和微调的NL2SQL大模型,结合Prompt Engineering,提供了丰富的自然语言生成SQL的操作。
• SQL生成
输入想要查询分析的自然语言描述,例如“统计最近7天的商品销售排行”,DataWorks Copilot将自动生成对应的SQL语句。
• SQL续写
在SQL IDE中编写SQL代码时,DataWorks Copilot能够提供智能代码提示建议,提升SQL编程效率。
• SQL纠错
当SQL运行报错时,DataWorks Copilot可提供一键纠错服务,帮助ETL工程师和分析师快速修复SQL错误。
• SQL注释
以前写代码注释是个负担,我们自己不想写注释,却又希望别人的代码有注释。DataWorks Copilot可以批量为建表语句生成字段Comment信息,也可以为SQL语句添加逐行注释,提升SQL的可读性。
• SQL解释
对于部分业务人员或者分析师,经常拿到是数仓工程师给到一段比较复杂的取数脚本,使用到的一些高级SQL语法和函数不懂什么意思但又想改一改取数逻辑,以前就要到处查资料或者请教别人。DataWorks Copilot可以直接对SQL代码进行解释,帮助我们的业务人员更快理解SQL逻辑、用途,提高取数分析和SQL学习的效率。
DataWorks Copilot 智能SQL编程助手,在我们内部已经使用了一段时间了,根据我们的一些观测,可以为ETL开发和数据分析提效30%以上。
从GUI到LUI,DataWorks Copilot辅助ETL数仓开发
40多年前出现了图形用户界面(GUI),大模型强大的自然语言理解能力,带来了全新的自然语言用户界面(LUI),这也是一种全新的人机交互方式,一个软件产品,能否提供LUI,这也是大模型应用从AI智能助手迈向AI原生应用的标志能力之一。DataWorks也在思考和探索,如何将复杂的产品操作逻辑隐藏在背后,借助大模型,对用户提供简单直接、更符合人性的自然语言用户界面。
我们做了一些产品实践。举几个应用场景,在实际工作中,找表是件头疼的问题,业务人员为了计算一个指标要找数仓的同学问该用哪张表,数仓同学天天应付这类咨询,也很烦躁。DataWorks Copilot则可以提供通过自然语言快捷找表,让找表这件事情不用东问西问,从而提升企业的数据消费效率。在ETL开发过程中,有些操作是比较复杂或者繁琐的,比如调度配置、参数配置、数据质量规则配置,过去往往需要到不同的产品页面来回跳转和手工配置,现在DataWorks Copilot提供了对话式的自然语言用户界面,在一个统一对话窗口中,通过自然语言交互就可以完成很多跨产品工具的操作,比如说一句“给某某表配置一个什么质量规则”就可以完成数据质量检测的规则配置。未来,我们将持续丰富自然语言交互界面的覆盖范围。
DataWorks Copilot产品演示视频
DataWorks Copilot提供了两种模型服务,第一种是基于公开数据集训练和微调的NL2SQL大模型,当前在阿里云DataWorks官网可以直接申请参与邀测。如果有的企业对我们的模型效果有更高的期待,或者希望Copilot能够回答更贴近企业内部业务,我们可以提供企业专属的模型微调服务,结合阿里云人工智能平台PAI以及大模型专家服务,可以为企业量身定制专属代码大模型以及私有化大模型部署服务。 云栖发布:DataWorks AI增强数据分析
企业在数据生产建设上投入这么多资源,最终希望是洞察数据中的业务价值,指导企业的经营、决策。传统的统计分析方法常常先假设一种统计模型,然后根据数据样本来估计模型参数,从而了解数据的特征,但实际中往往有很多数据并不符合假设的统计模型。探索性数据分析强调让数据自身“说话”,先对数据特征、统计量进行探索,然后再选取合适的模型进一步分析,这是一种更加贴合实际情况的分析方法。在AI时代,数据洞察也不断向智能化演进,AI增强分析利用AI技术,可以加速或者自动化数据探索与洞察,帮助分析师从手工数据探索中解放出来。AI技术还能更好地发现数据中隐藏的规律和趋势,帮助分析师进一步突破自身固有认知的局限。
DataWorks联合DataV数据可视化产品,深度结合AI技术,推出了AI增强分析产品。目前提供了四项核心能力:
• 自动数据探查
自动探查数据集,无需专业技术背景即可快速了解数据特征、统计分布。
• AI自动图表生成
基于自动数据探查的信息,自动生成数据图表卡片,结合AI技术,自动识别不同数据字段组合之间的相关性并生成图表,不需要你手动写很多SQL进行分析,可以帮助你快速获得灵感,保存见解。
• AI智能数据查询
结合大模型技术,通过自然语言生成 SQL 查询数据,并自动为查询结果自动推荐和生成数据图表卡片。
• 一键构建和分享数据报告
可以像制作PPT一样,将上面生成的数据图表卡片一键生成数据长图报告,支持导出为图片或者一键分享。
DataWorks AI增强分析,让数据自己“说话”,将数据洞察过程尽可能的自动化、无代码化,通过AI还能自动发现数据中的潜在趋势,讲好数据故事,表达数据观点。这款产品目前在公测当中,大家开通DataWorks后进入数据分析产品即可申请公测体验。