5月26日,由百易传媒(DOIT)主办的“2023数据基础设施技术峰会”在苏州中茵皇冠假日酒店举行。大会以“加速数据创新,赋能数智未来”为主题,邀请大数据、云计算、数据存储以及AIGC产业技术专家、行业用户等代表分享最前沿的思考和实践经验。下午,亿铸科技高级副总裁徐芳在现场发表了《存算一体超异构为中国AI大算力芯片注入新动能》的主题演讲,介绍大模型时代下全球对AI大算力芯片的市场需求,以及算力需求、成本、能效比提升等综合大环境下,作为算力发展新路径的存储一体超异构技术的竞争优势所在。
2023年谈到AI,最热的话题是OpenAI带来的ChatGPT。从GPT-3的1750亿计算参数,到谷歌的PaLM-1,到今年推出的PaLM-2参数达到5620亿,再到GPT-4的几万亿,后面会有更多。
再加上国内大模型亦如雨后春笋,当然已知的40多家,且都是行业内头部企业,不管互联网企业还是垂直应用领域头部公司全都磨刀霍霍要做大模型。虽然世界充满了喧嚣,但英伟达的世界却是安静而美好,这就是AI算力在大模型时代所处的位置。
大模型+AI应用2.0对算力意味着什么?
以ChatGPT为代表的大模型,我们称为三超大户——超聪明、超费钱、超费电。
ChatGPT有多聪明?GPT-4在美国做了各种专业测试,其表现与人类水平相当。在各大考试包括GRE几乎取得了满分成绩,并横扫各种benchmark。OpenAI更称ChatGPT为一项通用技术。一旦技术被冠上“通用”,就意味着更多行业,更多应用场景会与其产生连接,AI应用发展进入2.0时代——从小模型的1.0弱AI时代转向大模型的强AI时代。
这对算力芯片公司来说,最直接的就是收获巨量市场需求,这个需求可以从微软投资OpenAI实际案例中看出算力有多费钱——投资的100亿美元,其中65亿都用于购买AI算力硬件。
除了算力狂飙,还有能耗狂飙和成本狂飙。现在训练大模型,投入2.5亿美元是服务器硬件的最低要求,如果做到GPT-5的规模训练,至少可能要3万台服务器,甚至5万台H100都不奇怪。如果训练都要用那么多计算板卡,那么进入大模型的部署阶段其对算力的需求只会更多。
ChatGPT为代表的大模型对算力带来的狂飙,我们这里用数字证明。大家看一下这个框,ChatGPT当日运营算力的消耗可以占到2021年中国智能算力总规模的3%,这个ChatGPT不是GPT4,而是GPT3,可见大模型时代对于算力的需求非常巨大。
针对GPT3,假设每天有2.5亿次咨询量,每个问题平均30字,要花多少钱呢?首先是用到3万多张英伟达的板卡,每天电费是2.3万美元,这个只是根据板卡的功耗计算出来的电费,还不算服务器级别,以及数据中心运维、制冷整体耗电数字。
谷歌的访问量公开数据是一天30亿次,国内的百度对外宣称一天可以被访问700亿次,假设是700亿次,大家可以在这个数字上持续乘上倍数,数字非常惊人,这只是每天的电费,如果乘以365天……因此,大模型是有钱人的游戏。
AI大算力技术发展现状与未来
AI大算力技术现在已经发展到急需算力性能实现第二增长曲线的阶段。AI技术离不开三大要素,第一数据,第二算法,第三算力。数据越多,计算参数越多,算法越复杂,而底层算力却面临摩尔定律终结,算力性能发展高度依赖工艺制程的演进,从40nm到28nm,再到22nm,往下16、14、17到现在的5nm,甚至英伟达说要做的2nm工艺。
当摩尔定律走向终结,这个巨大的剪刀差如何弥合?在今年5月份的2023年TOP60国产AI芯片厂商调研分析报告中提出了AI大算力第一和第二增长曲线,第一增长曲线耗尽了九牛二虎之力,启用了5nm的工艺加上2.5D工艺封装,才把AI大算力芯片的性能做到75瓦左右,输出到400T算力。但相较存算一体架构,第一增长曲线的终点只是第二增长曲线起点的一半。亿铸可以做到28nm的传统工艺,实现75瓦输出将近1P的算力。
中国AI大算力芯片创业的第一波浪潮,大家走的是ASIC和DSA的计算路径。第二代就是走英伟达,即GPGPU的路径。到2023年我们要尝试换道发展,这里徐总强调三个技术彼此之间并非此消彼长的关系,某种程度上,在企业之间是的,但回归到技术宏观角度,这三个技术都是非常有价值的,因此亿铸科技的观点是同一个世界,同一个梦想,不同的技术各有所长,如果能够竞合得当,可以相得益彰,共同为中国整个产业的AI智能化提供价值和动能。
接下来介绍——存算一体+超异构,先来讲超异构,现在做GPU的头部企业,一个是英伟达,一个是AMD,英伟达说从GPU架构出发,走向“GPU+DPU的超异构”,而AMD说“基于3D封装用CPU+GPU异构并行走向系统级创新”。
当AI芯片技术从CPU做AI计算到GPU做AI计算,再发展到ASIC、GPGPU专用的AI加速器芯片产品,技术已经发展到较大瓶颈的阶段,以至于头部公司的leader都思考不能单个维度来推动发展,需要系统级创新寻求下一步发展的动力。
再看存算一体,存算一体的第一性原理是什么呢?我们叫阿姆达尔定律,这个公式的变量有两个,第一加速器的规模,就是α值,还有一个就是加速比,在这两个变量当中,其中有一个很重要的维度就是访存所占用的参数时间,这个公式点中的问题所在就是F值的访存,传统计算芯片的结构存、算分开,当你只需算几个数据时,存和算之间搬运数据非常简单。但当你有成千上万的数据在存和算之间不断进行搬运,访问存储占整个计算的比重就会越来越大,大到一定程度,整个计算最终加速结果不再跟加速器规模多少相关,更多是在说整个能耗,芯片面积都在被访存的过程消耗。
就是左边是存,右边是算,80%-90%的功耗都用来在两者之间进行大量的数据搬运,而不是计算。所以现在影响AI加速计算最大的问题就是存储墙,以及由此带来的能耗墙。顾名思义,存、算一体不需要存和算之间不断地做数据搬运,那么这80%-90%的能耗就可以节省出来用于计算。
包括AMD、特斯拉以及三星都在公开场合谈过下一代技术的储备和演进的方向就是往存算一体的技术架构找新的发展动能。因为存算一体的技术可以跟CMOS工艺兼容,又能快速实现量产,突破AI算力困境。所以任何技术的价值都是在既定的历史时空内论定,而存算一体变成当下非常热门的AI加速计算新发展路径。
亿铸科技存算一体超异构芯片能够做到更大的算力,前面讲了1000T,常规的AI大算力芯片板卡是250T左右,最新的是400T,至少是它的三到四倍。更高的能效比,能够做到8-10倍的能效比,兼顾软件通用性。
关于存算一体超异构的几点思考
1、存算一体架构天然非常适合AI并行计算,可以说就是为AI计算而生的计算架构。
2、可落地性极强,希望通过存算一体的架构可以为产业界贡献更具性价比、更高能效比和更大算力空间的发展技术。
3、亿铸科技作为一家AI大算力芯片的上游公司,对于当前大模型时代的算力格局的竞争要素思考:
一是我们认为强AI,就是大模型将在一定范围内替代AI,甚至催生新的AI应用场景。
二是强AI将会以IAAS的产品形式赋能千行百业,这就意味着你有极高的研发投入进一步带来通用智能寡头的格局,或者是垂直行业通用智能寡头的格局,这是和数据资源息息相关的。
三是AI大算力芯片竞争核心会逐渐从“软件生态”转向“能效比、算力密度、性价比、算力发展空间”,不是说软件生态不重要,而是后者的权重会进一步加重。
亿铸科技存算一体超异构AI大算力芯片特点就是有效算力更大、放置参数更多、能效比更高、软件兼容性好,发展天花板更高,我们目前只是基于28nm工艺就可以做到1P算力。
采用了CMOS传统工艺,结合新型忆阻器技术、存算一体架构,用Chiplet技术以及3D封装,希望为中国产业界贡献一颗更高能效比、更大算力的存算一体超异构AI大算力芯片。