“用魔法打败魔法” AI时代如何构建数据安全生态

死爱凉平 · 发表于 2024-5-1 08:20:25

美国一项新提出的法案，进一步引发了人们对大模型时代数据安全问题的关注。
近日，一名美国众议院议员提出了一项《生成式人工智能版权披露法案（Generative AI Copyright Disclosure Act）》，该法案要求企业在推出人工智能系统之前要告知政府，同时还要列出用于构建或更改该系统训练数据集的所有受版权保护的作品。这则法案如被通过，将推动美国人工智能公司在模型训练数据的使用上更加透明。
无独有偶，在一个多月前欧洲议会投票通过并批准的《人工智能法案（Artificial Intelligence Act）》（以下简称《法案》）中，也明确要求对用于训练、测试和验证人工智能工具的数据进行适当的数据治理。
“近年来，各国纷纷出台了涉及人工智能的立法和政策，大多数国家在制定相关法规时都采取了谨慎的态度，避免过度限制人工智能的发展，以免阻碍创新和进步，这彰显了国际社会对数据安全治理的重视。”在日前举行的“2024中关村论坛-数据安全治理与发展论坛”上，香港科技大学首席副校长、英国皇家工程院院士郭毅可说。
当前，以人工智能（AI）为代表的新技术应用成为发展新质生产力的重要引擎，随之而来的数据安全治理与发展也备受关注。2024中关村论坛（以下简称“论坛”）期间，举办了多场与AI相关的论坛活动，“AI时代的数据安全治理”也成为热点话题，不少国内外专家学者以及业界人士在论坛上交流前瞻理念、分享研究成果，深化前沿领域数据安全治理效能。

数据安全治理新形势

AI时代，“数据”是一个不得不提的关键词。
“数据对于AI的进步非常重要。”在2024中关村论坛年会开幕式上，硅谷人工智能研究院院长皮埃罗·斯加鲁菲说。他提到，从1997年IBM的“深蓝”电脑击败当时的国际象棋世界冠军卡斯帕罗夫，到2016年谷歌人工智能程序AlphaGo战胜韩国围棋世界冠军李世石，再到如今OpenAI的GPT横空出世……AI技术快速发展背后，主要的驱动因素就是大量的数据。
但随着AI技术日新月异的变化，尤其是生成式人工智能（AIGC）的快速发展，其性能在优化的同时也放大了数据安全风险，其可能引发的价值偏见、隐私泄露、虚假信息等问题引起了大众的担忧。“现在很多诊断是由AI来做的，比如你要将GPT用于诊断疾病，我们放心吗？很多时候是不放心的。”皮埃罗·斯加鲁菲说。
在清华大学计算机科学与技术系教授、人工智能研究院基础模型研究中心副主任黄民烈看来，AIGC的出现，使得现在的数据安全治理与过去相比有很大的不同。他表示，AIGC能通过训练去组合、生成一些在过去的语料库中根本没有出现过的新内容，这些内容可能是有害的。
“在生成式人工智能（AIGC）时代，我们在数据安全层面，面临的是不断组合和创造新的数据安全风险的问题，彻底解决这种风险，需要算法和工具的支撑，而不是靠人，或者靠一些静态的方法去做相对固定的检测。”黄民烈说，可以去研究制定一些有针对性的对抗和攻击方法，比如事先让算法发现模型的漏洞和风险；也可以利用算法追踪模型存在的风险，再有针对性地制定安全手段。
如今，除了类似ChatGPT的通用大模型，专注某一垂直领域的行业大模型也层出不穷。奇安信集团副总裁刘前伟长期关注行业大模型的数据安全治理问题，他观察到，很多行业大模型厂商都有一个普遍的担心：模型预训练的语料会不会被其他人窃取？
他解释说，行业大模型在做预训练时，被“喂”的数据大多是行业知识，“这些语料可能是不同企业最有竞争力的一些数据。”如果存在漏洞，可能导致这些核心的数据资产被泄露出去，“这是在通用大模型里，我们过去没有特别关注的一点”。
同时，作为通用大模型的使用者，很多人都会问一个问题：当我去问大模型问题时，会不会造成商业机密、个人信息的泄露。刘前伟在论坛上也提出了上述疑问。
对于如何解决上述问题，刘前伟也同意黄民烈教授的观点。“如果靠过去一些成熟的技术去解决现在的问题是很难的，今天只能通过‘用AI对抗AI’的方式，才能解决内容安全的问题。”

构建安全可信的数据治理生态

2023年5月，包括“ChatGPT之父”山姆·奥特曼（Sam Altman）在内350位AI领域权威人士签署了一封联名公开信，信中写道：“应将缓解AI导致的灭绝风险，与其他社会规模风险（如大流行病和核战争）等同重视，作为全球优先事项。”
“人工智能凸显了数据的重要性，再创造一个全球性的治理框架，建立互信是最重要的因素。”新加坡资讯通信媒体发展局局长柳俊泓在论坛发言中指出，对数据和AI的信任，是在数字时代平衡保护和创新的基础。
论坛期间，不少专家在讨论中提到了一个词——可信AI，该词的核心就是AI大模型的安全问题。“我们必须认识到数据安全是永远的命题，一定要‘安全可信’。”中国工程院院士沈昌祥在论坛上表示，要用主动免疫可信计算筑牢人工智能安全防线。
在他看来，数据安全治理需要做到全程管控，实现六个“不”：首先让进攻者“进不去”，进去后“拿不到”数据，即使进攻者拿到数据也白拿，因为数据被加密“看不懂”，并且系统带有自动免疫功能，让进攻者“改不了”数据。同时，需要保证设备“瘫不了”，能在发现故障后及时采取措施确保稳定运行，最后是确保攻击行为可追溯“赖不掉”。
“达到这六个‘不’的效果，才能使得数据安全治理达到有效的目标。”沈昌祥介绍，经过30多年的发展，我国已经构建了比较完整的新型产业空间。他表示，目前，中国已经具备可信计算功能的国产CPU，嵌入式可信芯片及可信根，具备可信计算3.0技术的设备。
除了可信计算，一系列前沿技术也为构建安全可信的数据治理生态提供支持。香港科技大学首席副校长、英国皇家工程院院士郭毅可认为，在增强数据安全上，区块链和量子密码学等技术有较大应用前景。
“区块链有透明和不可更改的技术特性。”郭毅可说，将区块链技术应用在数据安全治理领域，能在确保数据完整性的同时，进一步降低数据授权风险和数据篡改风险。他还提到，可以通过数据匿名化技术、用户同意和隐私设计规则，以及实施数据分类、访问控制和加密等方法，保护知识产权和防止未经授权的数据披露。
在郭毅可看来，加密技术能保护数据在静止和传输过程中的安全。此外，还可以利用差分隐私、数据屏蔽等匿名化技术来删除个人身份信息，以确保数据的机密性，同时保留其对AI模型训练的有用性。
“用魔法（即AI技术）打败魔法”，这是刘前伟提出的AI时代数据安全治理的一大出路。在论坛上关于AI数据安全治理相关技术路径的讨论中，隐私计算、联邦学习等被反复提及。
除了问题，AIGC也为数据治理提供了新的、更有效的手段。欧洲科学院院士、清华大学人工智能研究院常务副院长孙茂松提到，现在数据里面有很多隐私问题，但可以用生成式人工智能（AIGC）生成符合真实情况的数据，同时规避掉用户真实的隐私数据。“所以，实际上生成式人工智能对我们数据治理也有非常重要的正面推动作用。”

创新AI监管机制

“数据安全治理是人工智能和数字转型时代一个至关重要且不断演进的议题。”郭毅可说，人工智能时代，需要在保护数据隐私和敏感信息的同时，建立国际机构框架和法规来规范数据安全。
近年来，包括英国的《支持创新的人工智能监管规则》、欧盟的《人工智能法案》在内，多个国家和地区陆续出台了相关的政策和法律，规范人工智能的发展，其中有不少内容与数据安全治理有关。
2023年8月15日，全球第一部关于生成式人工智能治理的专门法律规范《生成式人工智能服务管理暂行办法》（以下简称《办法》）在我国正式施行。中国互联网协会研究中心副主任吴沈括认为，《办法》着眼生成式人工智能服务语境下的数据治理，引入了多项专门规范，对于构建面向AI时代的数据治理新生态具有重要的制度指引意义。
在探索人工智能可控发展过程中，监管沙盒机制是一个创新手段。监管沙盒是指在风险可控的前提下，通过设立限制性条件和制定风险管控措施，允许创新产品技术服务或商业模式在真实市场环境中，以真实用户为对象进行深度测试的一种机制。欧盟《人工智能法案》明确要求其成员国要创建人工智能监管沙盒。目前，挪威、西班牙等国已开始监管沙盒相关工作。
柳俊泓提到，目前有很多技术、政策，能让企业从消费者数据集中获得价值，同时也可以确保消费者的数据集得到保护。他认为接下来应当建立监管沙盒，在其中使用并且开发这些技术和政策，从而能在最大化的使用数据的同时，保障数据安全。
论坛期间，“北京人工智能数据训练基地监管沙盒”正式发布，这是全国首例人工智能领域监管沙盒。北京市经济和信息化局副局长毛东军表示，在管理上，利用监管沙盒管理机制，能帮助企业在合法合规的范围内规避数据风险；在技术上，通过数据加密、脱敏技术、云桌面操作、安全管理等先进技术，可以为模型企业和数据企业提供基础保障，“真正实现数据的可用、可见、不可得，避免数据泄露等高风险事件”。
从出台政策、法律，到利用监管沙盒进行制度和技术实验，其目的都是推动构建人工智能（AI）时代的数据安全治理新生态。
当下，给人工智能装“刹车”成为行业内讨论的热门话题，在论坛上也不鲜见。“‘刹车’就是针对技术性风险的治理体系。”清华大学苏世民书院院长薛澜在论坛接受记者采访时表示，构建治理体系的目的，就是来规制滥用、误用和恶用人工智能的行为。
薛澜介绍，我国的人工智能治理体系共有三层，第一层为《新一代人工智能伦理规范》等所有社会主体都要遵守的广泛性基础性原则；第二层为针对人工智能具体领域的具体法律法规，比如《办法》；第三层则是鼓励企业加强内部机制建设，比如成立伦理委员会等。
如果“刹车”安装不到位，要如何应对？薛澜说：“我们特别鼓励企业加强自身的机制建设，这非常关键。另外一点，也需要全社会的公众监督。”
中青报·中青网见习记者贾骥业记者朱彩云来源：中国青年报

【责任编辑：潘圆,宁迪,王国强】