随着2022年11月底OpenAI推出名为ChatGPT的人工智能对话聊天机器人,“大模型”概念迅速成为AI时代的热门话题,各厂商争相推出大模型产品。然而,在以ChatGPT为首的一众大模型被广泛应用的同时,用户不禁要问:人工智能大模型是否安全?
安全是大模型时代的最大挑战
大模型是一种包含数亿甚至数十亿训练参数的神经网络,它通过自监督或半监督学习的方式,利用大量数据进行训练。其中,大语言模型(LLM)是大模型中最常见的一种,能够执行情感分析、机器翻译、内容生成等各种自然语言处理(NLP)任务。
最早的大语言模型可以追溯到20世纪60年代第一个聊天机器人Eliza的创建。Eliza是一个简单的程序,它使用模式识别来模拟人类对话,将用户的输入转换为问题并根据一组预定义的规则生成响应。虽然Eliza远非完美,但它的出现标志着自然语言处理研究的开始和更复杂的大语言模型的发展。1997年,长短期记忆机器学习模型(LSTM)创建了更深层、更复杂的神经网络,能够处理更多的数据。2017年,Transformer模型的出现为此后的大模型产品奠定了基础,可以称之为“让ChatGPT踩在肩膀上的巨人”。强大的Transformer架构支持创建更大、更复杂的大语言模型,例如,OpenAI在2020年推出的GPT-3(Generative Pre-trained Transformer 3),被视为人工智能领域的一个里程碑。
生成式人工智能是一种使用大模型生成自然语言、图片、视频等内容的系统。这些大模型通过学习从互联网抓取的通用数据或由开发者上传的特定数据,能够生成风格和内容与训练数据相似的新内容。它们还可以根据在训练中获得的模式,生成摘要、翻译、预测文本等内容,知名的生成式大模型包括OpenAI的ChatGPT和谷歌的Bard。
随着大模型技术的迅速发展,相关企业都希望抓住这一机遇,利用大模型来开展业务赋能和创新。例如,一些提供餐饮推荐、外卖点单服务的商家会收集客户的基本资料、购买记录、行为习惯等信息,并将这些信息以数据的形式存储下来,通过人工智能大模型进行分析并加以利用,针对不同客户群体的消费习惯和购买行为进行特定商品推送。此外,ChatGPT还可以根据用户输入的主题和描述进行文案、图片等创作。
虽然这种颠覆性技术有广阔的应用前景,但它并非没有风险。因为人工智能大模型生成的内容并不能保证是真实的或适当的。随着大模型技术的迅速发展和广泛应用,人们每天都生活在大量数据和算法之中,这些技术的运用在提高人们生活质量的同时,也带来了前所未有的安全问题。
大模型技术可能会过度收集并违规使用个人信息数据,导致个人隐私数据面临泄露或被窃取的风险。此外,大模型算法本身也可能存在缺陷,导致其生成虚假新闻或不正当言论。因此,大模型引发的数据泄露和内容安全问题已经成为当前人们关注的焦点,也是人工智能领域面临的挑战之一。
大模型时代的隐私保护
随着大模型技术的快速发展和广泛应用,人们的生活发生了前所未有的变化。然而,在享受大模型技术带来的机会的同时,我们也不能忽视其弊端带来的负面影响。尤其是在当今这个缺乏隐私保护意识的时代,人们为了获取智能应用带来的便利而让渡部分权利,隐私数据泄露便不可避免。
最近几年,个人隐私数据受到侵犯的案件频繁发生。例如,Facebook未经允许将用户个人信息泄露给剑桥分析公司用于非法目的,同时利用网民的浏览习惯来精准投放广告;而剑桥大学心理测量学中心通过分析用户对哪些帖子和新闻进行阅读、点赞,得出每个人的性别、个性等信息。该事件表明,大模型技术的普及乃至滥用使其面临越来越多的隐私和安全威胁。
因此,社会各界逐渐加大了对隐私风险的分析和隐私保护的关注度,数据安全、模型安全、应用安全成为用户和服务提供商最关心的问题。为了保护个人隐私,相关各方应采取有效的措施,加强对大模型技术监管和个人隐私数据保护的措施,并加强对相关人员的培训和教育。只有这样,才能使人们更好地享受大模型技术带来的便利和机会,同时保护其个人隐私和安全不受侵害。
在数据采集、存储、处理、流通等阶段,都存在泄露的风险。
在数据采集方面,由于存在非法数据、买卖数据、暗网数据等不正当和未经授权的隐私数据收集行为,以致部分数据的获取实际上并没有取得用户的知情同意,很容易造成用户隐私数据泄露。
在数据存储方面,如果没有采取有效的技术手段进行安全防护,隐私数据很容易被攻击者通过黑客行为窃取。另一方面,由于对数据没有明确的隐私界定与标注,如果数据使用者无意中将涉及隐私的数据用于公开的大模型训练分析,个人隐私将在不经意间被泄露。
在数据处理方面,对于种类多、数据量大的数据集,数据的处理过程难以规范与监管,存在被攻击者破坏、拷贝等安全隐患。
在数据流通方面,由于一些人工智能企业会委托第三方公司实现海量数据的采集、标注、分析和算法优化,数据将不可避免地在供应链的各个主体之间形成复杂的交互流通链路,并因各主体数据安全能力的参差不齐而产生数据泄露或被滥用的风险。
除此之外,在全球数字经济发展不均衡的大背景下,大型科技巨头将人工智能的数据资源供给、数据分析能力、算法研发优化、产品设计应用等环节分散在不同的国家,数据跨境流动的场景也将对国家安全和个人信息保护造成不可控的风险。
大模型时代的内容安全
在ChatGPT的使用过程中,用户只需输入主题和描述,就能生成相应内容,这降低了网络犯罪的门槛,让即使完全不懂代码的人也能进行虚假信息、不适当信息的制造和传播。一些不法分子使用“AI换脸”技术,通过伪造视频和图片进行非法牟利,人脸信息属于个人敏感信息,被用于生物识别,关系到每个人的肖像权和财产安全。这种利用大模型进行“AI换脸”内容生成、技术滥用的行为,严重损害了社会公共利益和他人肖像权。此外,新型电信诈骗模式也呈现高发态势,不法分子使用大模型创作“诈骗剧本”,并利用AI创作的虚假视频、音频进行诈骗,对个人财产造成了严重损害。
人工智能模型依赖于大量数据,大模型虽然可以生成与训练数据风格相似的内容,但本身不具备辨别数据真伪的能力,因此容易受到虚假训练数据的影响。除此之外,数据的污染和偏差都会降低模型的准确性和可靠性。如果数据质量出现问题,如数据内容失真、数据标注错误、数据多样性有限等,那么大模型生成内容的可信度将无法保证,可能导致预测结果出现偏差,甚至导致种族歧视或性别歧视等内容的生成。
此外,一些不法分子在训练数据集中添加“污染数据”,导致训练出来的大模型在决策时出现偏差,从而影响模型的完整性和可用性。近年来,“数据投毒”问题已导致多个世界知名公司遭受重大负面影响,并产生了十分严重的后果。例如,美国亚马逊公司的Alexa智能音箱“学习”了网络不良信息,发生了引导用户自杀的恶意行为。这足以看出,训练数据的质量已成为阻碍人工智能发展的重大问题。
除了生成恶意内容的风险外,大模型在推理过程中产生的信息还可能间接暴露用户隐私。一方面,在深度挖掘和分析数据时,可能会挖掘出用户的个人隐私信息,并对其进行一系列分析和应用,从而间接暴露数据中隐藏的个人隐私。另一方面,在对去标识化的个人信息、行为模式进行融合及关联分析时,可能会推理出与个人隐私相关的信息,如政治倾向、财务状况等。
此外,一些不法分子采用模型逆向攻击方式,还原训练数据以获取用户隐私信息。攻击者可以在没有训练数据的情况下,通过不断调整模型的输入数据,最终获得与训练集相似的数据。这种攻击如果用于人脸识别、指纹识别等生物信息识别系统,可能导致用户生物识别信息的泄露。例如,攻击者可以随机构建一张图片,人脸识别模型会给出用户名和置信度,结合置信度不断调整图片,最终有可能恢复出训练集中的人脸信息。
大模型时代的安全保护
针对大模型的隐私数据泄露和内容安全问题,必须加强监管和技术保障,确保大模型的安全性和可靠性。业界可以从以下三个方面开展相关工作:管控手段、攻防技术、隐私保护与检测平台。
在管控手段方面,管理者可以在大模型的开发阶段,根据预设的规则策略制定权限控制机制,限制用户访问资源的权限,以保护系统安全和数据完整性。这样可以确保人工智能数据模型的隐私安全。
由于智能化程度越高的人工智能应用,数据隐私泄露的风险越高,因此可以根据人工智能应用的场景和功能对其进行分类分级,并制定差异化的人工智能隐私保护机制。例如,针对初级的基于人工智能技术的数据分析,可以按权限申请数据使用和共享,保证数据可信共享。针对智能化程度更高的生成式人工智能应用,可采用溯源的解决方案,对生成的图片、视频等内容进行标识,若发现违法生成内容应及时采取处置措施。这种精细化、分级化的管控手段有助于降低系统隐私泄露带来的负面影响。
在攻防技术方面,研究团队需要开发新的防御技术并研究攻击方法以应对新型的隐私泄露威胁。例如,可以使用深度学习算法检测模型中的恶意内容,或者使用加密技术保护数据的隐私。同时,研究团队也需要开发新的攻击技术以发现模型中的漏洞和弱点,从而及时修复并更新模型。
针对大模型训练和推理阶段所面临的隐私安全风险,研究者根据不同的攻击类型提出了相应的防御措施。对于“数据投毒”攻击,防御措施主要包括采用鲁棒性机器学习方法和数据清洗技术,以改变正常训练数据的分布。对于成员推理攻击,研究者发现可以通过在模型中添加Dropout层、正则项或使用model stacking减少这种攻击。对于模型逆向攻击,一种常见的方式是利用差分隐私技术来保护数据隐私,也有研究者提出利用联邦学习建立虚拟共有模型进行多方共同训练,以降低本地训练数据泄露的风险。对于模型提取攻击,一种直接的方式是对模型参数或输出结果进行近似处理,也有研究者利用模型水印技术来保护模型数据的知识产权,降低模型被盗用的风险。对于对抗样本攻击,已经有多种防护手段,其中直接对抗训练是将对抗样本及正确标签重新输入到模型中进行重训练,梯度掩模通过隐藏梯度使基于梯度的对抗样本攻击失效,对抗样本检测即直接检测是否存在对抗样本。
另外,还有研究者提出了提示注入攻击防御方法和生成内容检测过滤防御方法,以预防大模型的提示攻击威胁和生成内容隐私泄露。对于提示注入攻击防御,一种简单的策略是将防御策略添加到指令中,通过增加指令的鲁棒性来强制执行期望的行为。常用的技术有调整提示位置、使用特殊符号标识等。同时,另有研究者提出构建提示检测器对提示进行检测、分类或过滤,以防止敏感和有害的提示输入。目前,OpenAI的ChatGPT、微软的NewBing等都采用了这种防御策略。
在隐私保护与检测平台方面,应建立大规模的隐私保护和数据安全检测平台,对所有的人工智能应用进行全面的隐私和安全检测。该平台应能够自动分析人工智能应用的数据来源、使用方式和处理过程,从而发现可能存在的隐私泄露风险。同时,该平台也应能够提供实时的监控和报警服务,及时发现并处理任何可能导致隐私泄露的事件。
为了保护数据的隐私和安全,多个隐私保护人工智能平台被陆续推出,这些平台基于安全多方计算、联邦学习、匿踪查询、密码学和分布式等技术,实现了数据的安全共享。其中,某隐私保护机器学习平台利用安全多方计算和联邦学习打通“数据孤岛”,将计算环节移至数据端,实现了“数据可用不可见”,解决了多家机构在数据合作中可能存在的数据安全风险和隐私泄露问题。另一个面向政府内部及外部数据需求方的隐私计算平台则提供安全可信的隐私计算服务,以推动政府的数据生态体系建设。该平台支持多方计算和联邦学习融合应用模式,并通过联邦区块链保证过程的不可篡改和可溯源性,实现了“数据可用不可见”和“计算可信可链接”,帮助政府解决数据开放和隐私保护难以两全的问题。
最近,联邦学习隐私计算开源平台FATE发布了联邦大模型FATE-LLM。联邦大模型是指利用联邦学习的方法对预训练大语言模型进行微调和优化,以适应不同的应用场景和任务。联邦大模型可以突破数据和算力的壁垒,实现多方数据的融合和增值,同时保护数据隐私和安全。此外,针对大模型生成内容的监测,业内也在积极研究相关的安全监测工具,以满足用户对可信赖人工智能系统的需求,并促进全球人工智能监管框架的互联互通。
最后,笔者在此呼吁大模型的开发厂商、安全厂商等企业共同构建大模型的安全生态环境,建立健全的管理体系。通过多层保护的方式,保障用户的隐私数据安全以及生成内容的安全。通过加强合作和交流,共同推动人工智能大模型技术的健康、稳定和可持续发展。