治理之智 | 检索增强：解决企业“上云用模”的数据安全隐忧

Original 王峥傅宏宇袁媛阿里研究院

2024-10-01

摘要：

● 在模型应用阶段，企业“上云用模”面临“数据可控”、“环境可信”的两重顾虑。而检索增强（RAG）能够在不改变模型通用能力的前提下，通过在模型应用阶段引入外部知识，让具有秘密属性的企业数据在安全可控的前提下被有效利用，增强大模型生成内容对具体场景的适配度，并实现“数据可控”、“操作可审”、“责任可追”。面对模型云端部署带来的新挑战，要以动态、发展的眼光看待模型用数安全问题，从“事前要求“转变为“事中管理、事后定责”，为技术发展预留空间。

一、从训练走向应用：模型数据利用带来的数据安全挑战

随着大模型从训练阶段的“百模大战”走向应用阶段赋能“千行百业”，模型“训得强”不一定能“用得好”，核心原因在于模型训练的目标是让模型具备更好的通用性能，因此训练数据的供给要求“广”、“齐”、“专”（推荐阅读1：《大模型训练的“阿喀琉斯之踵”：数据这么近那么远？》）。而多元化的应用场景对模型能力提出了差异化的需求，如果直接调用现有大模型能力，虽然通用能力较强，但因为事前没有学习具体场景相关知识，在应用落地“最后一公里”的表现和适配度会受到影响，无法准确回答针对企业的专有问题。除了模型专业化能力的技术性限制外，企业用户对模型使用自身数据的安全性存在隐忧，不愿意将数据上云并提供给模型使用，一定程度上影响了模型应用的落地推广。

企业数据“上云用模”的安全挑战，来自于“数据可控”、“环境可信”的两重顾虑。“数据可控”体现在企业应用模型的过程中需要满足更为具体的数据安全规范，对内部数据（企业在自身运营中沉淀整理的通常具有秘密属性的数据）的安全性和可控性要求较高。出于安全考虑，用户希望将内部数据保留在“可控范围内”，不希望在公网作为大模型的训练数据。因为内部数据通常涉及商业秘密，一旦成为模型的训练语料，存在被模型学习并透出的风险，使得数据不再处于秘密状态，脱离用户的控制。用户担心自己上传的或与模型交互的商秘数据，私密性被破坏（在未经授权时被公开）或价值性被稀释（未经授权时被用于模型训练）。“环境可信”体现在模型应用阶段数据处理较为复杂，涉及用户请求和上传的企业内部数据，由于担心云平台“超级权限”的存在，以及对云上数据安全机制不了解，用户容易对云平台的数据处理缺乏信任。用户数据被模型应用处理，需要多方权责事先需约定、事后可追溯。一方面，需要对数据泄露或滥用，对各方应承担的责任应在事先进行原则性约束。另一方面，在调用模型进行应用编排时，需要对过程和多方权利信息进行记录管理，以备事后找到对应的问题源头和安全薄弱环节，和相关方进行权益主张。但在模型数据处理的复杂情况下，对数据安全权责的事先原则性约束和事后的追溯分将变得困难（推荐阅读2：《模型上云的数据安全保护——以Apple PCC为借鉴》。

模型云上部署和调用具有更广泛的优势，基于云计算平台进行模型部署、通过API 接口进行模型调用的模式能够有效满足模型应用的场景化要求，提供更为灵活、高效的支撑。但让更多用户信任云上的处理环境、实现用户数据的安全可控，则需要解决上述两点疑虑。面对云上大模型给企业带来的数据安全挑战，应该在模型现有能力的基础上构建符合模型应用特征的数据利用和安全技术方案，目前最具有代表性的思路是检索增强(RAG)：基于“云+API”模式，在不改变模型整体能力、不影响数据来源可控可追溯的前提下，通过在模型应用阶段引入外部知识（如企业的知识库等），增强大模型生成内容对具体场景的适配度。RAG作为一种从训练转向应用的通用化替代性方案，能够在保障数据可控的前提下解决企业内部数据在模型应用中的安全顾虑。此外，RAG还能实现模型和数据“同步同频”，提升模型产出的时效性和精准性。在训练阶段模型数据更新存在滞后性，对训练数据“截至日期”之后发生的事情并不掌握。在应用阶段，通过对企业内部知识库的定期更新和维护，以及对网络开放数据的利用，可以让RAG获取最新的信息，掌握企业内部和外部发生的调整与变化。

二、RAG的技术特点：模型应用阶段的知识引入

（一）RAG的框架：索引-检索-生成

检索增强的基本原理是对外部知识进行向量化索引，在利用大模型生成内容之前，通过对输入的提示词进行分析和检索，为大模型提供更为全面、准确、充分的上下文知识，以帮助提高大模型输出内容的专业性和准确性。RAG的步骤主要分为三步：第一是索引(Indexing)，类似于对图书馆中的藏书建立目录和索引系统，索引阶段需要处理引入的知识库或文档集合（比如企业内部数据库、网页、专业书籍摘录等），对原始语料清洗、提取、分块，对每块语料进行特征提取向量化，最后针对全部语料对应的向量集构建索引。第二步是检索(Retrieval)，将用户对大模型输入的提示词(Query)做向量化处理，利用索引信息快速检索出与用户的问题向量距离最近似的若干语料。换句话说，面对提问时不会立即生成答案，而是先在知识库中检索，寻找与问题最相关的知识，就像是在图书馆根据关键词先快速找到相关书籍。第三步是生成(Generation)，将用户原始提示与检索到的高相关度向量块一起作为上下文输入给大模型，最终生成答案。整个过程中并不涉及对模型的训练和调优，因此参数不变。

此外，实际应用中并不是所有场景都需要引入RAG，触发RAG的情况可以分为以下几种：一是大模型可以自己判断，比如评估生成内容概率分布的置信区间，小于阈值会自动触发RAG；二是用户要求从指定来源中获取答案。

基于基础框架升级还可以进一步提升RAG弹性能力，实现可优化、可扩展和易操作。首先是提升检索环节的精准度和相关性。比如在检索前(Pre-Retrieval)，对用户Query改写、扩展、转换，让用户的提问更清晰，与知识库内容进行更精准匹配。其次是模块化的RAG，也就是将各种功能解耦，作为独立的模块进行处理，增强整体灵活性。例如仅通过一次RAG流程提供的信息范围有限，难以解决多步骤推理的复杂问题。因此演化出自适应检索，利用大模型生成的特殊Token进行控制，使系统自主判断是否需要外部检索，以及何时停止检索。再次是在开发RAG应用框架时更开放，为用户提供个性化配置的选择。从用户视角看，RAG流程通常是黑盒，参数不可见不可修改。而应用中，更开放的框架可以满足对RAG个性化的需求，提升检索的相关性和可控性。例如阿里巴巴集团的百炼平台，在调用RAG时基于Llama Index开源框架，支持低代码构建、为用户提供开放灵活的配置，支持不同的组件和知识库模板选择。

（二）外部知识的引入：外部数据/三方数据

RAG技术的核心目标是在不改变大模型现有能力的基础上，根据用户的提示词信息在企业数据中进行知识检索，为大模型引入更精确、专业、适合具体场景的知识。RAG可读取的数据类型较为广泛，包含非结构化、半结构化、结构化三种。非结构化数据最为常见，包含文本（如百科类、领域知识库/论文等），以及图片、视频、音频等多模态数据；半结构化通常包含文字与表格的内容；结构化数据则以知识图谱为主，这些利用企业已经整理提炼的存量数据形成的知识可以提供更精确的信息。通过向量数据库等方法，将以上各种类型的数据都转化为统一的数值向量的表达形式，便于利用企业内部知识进行RAG的分析和调用。由此，通过RAG解决了对秘密属性数据能在应用中使用但不便于训练的问题。因为这些数据如果用于微调，会带来较高的训练成本，且更新存在滞后；另外训练后会使模型提供方和企业之间的权责边界变得模糊。

三、RAG让企业数据在安全可控的前提下被有效利用

面对从训练走向应用中数据利用面临的安全挑战，RAG可以兼顾商秘保护与高效利用，提供从模型“训得强”到“用得好”的场景化解决方案，解决数据“能用不能训”的问题。

RAG的部署具有灵活性，根据企业RAG知识库的部署地点主要分为两种，一是部署在云端，二是在部署用户端。为解决“上云用模”的顾虑，RAG需要做到“数据可控、操作可审、责任可追”。

其一，将用于RAG知识库的企业内部数据上传到云端，通过加密、权限管理、密钥控制等方式确保数据安全性和可控性。在数据可控性上，需要让用户了解并控制模型对企业内部数据的使用。一是在上传到RAG知识库之前做好数据管理。对知识库中的内容根据秘密属性和敏感程度进行“识别-分类-授权”，针对不同群组设置不同等级的调用权限。二是对云端的RAG知识库提供全链路保障，比如存储环节的隔离，传输环节的加密等。三是通过云上专属资源、以及不同应用场景的授权和密钥控制，保障用户数据的私密性，确保在用户不授权的情况下，数据不被云平台和任何第三方使用和访问。比如用户可以对知识库进行加密，仅在用户发起推理请求时，云平台才在用户授权下将相关片段进行召回解密。在环境可信性上，要提升云平台的透明度和可解释性，让用户相信云上执行环境是安全可靠的。一是做到操作可审计。应按照合规要求保留用户操作的日志记录，供用户自行调用和分析。此外，大模型服务平台加强内部运维操作审计，避免进行非用户授权的任何用户数据操作。二是责任可追溯。通过日志信息可以快速定位问题源头，进行更清晰的责任切分，区分是用户不当使用、系统漏洞还是外部攻击等行为所导致的安全风险。

在云端部署RAG知识库，更重要的意义还在于企业可以基于自身商业利益考虑，自主选择是否允许他人调用自己企业的内部数据。这种在保障安全性和可控性下的数据共享机制，不仅有助于打通产业链上下游的数据，提高数据使用效率，还为数据共享利用的商业模式探索提供了更多想象空间。

其二，将作为RAG知识库的内部数据部署在用户端，企业用户通过API在云端调用大模型能力时，结合检索到的企业内部知识对上下文信息进行扩充。在数据可控性上，企业关注涉及内部数据的“向量块”切片，在作为补充性的上下文信息输入给模型时，不应被模型或云厂商所利用。因此需要保障在推理过程中相关信息“不落盘”，即该过程只在内存中瞬间存在，不做任何的持久化存储。在透明度的披露中，也应对此过程有所回应。

上述的技术路线经过扩展，可以不限于包含商秘的企业内部数据，还能成为对秘密属性数据更通用的解决方案。比如大模型通常会缺乏长期记忆能力，而用户与模型的长期交互记录往往包含个人隐私信息等敏感数据，利用RAG对用户的长期交互记录进行存储，可以在保障安全性的同时进行快捷调用，更好满足用户需求，带来更佳的体验。

四、以动态、发展的眼光看待模型应用阶段的数据安全

在模型应用阶段，为解决企业“上云用模”的顾虑，一方面，不断演进的技术为数据安全提供有力保障，而这些方案本身也需要以标准规范的形式被更广泛认可。另一方面，对于在发展中遇到的安全问题，不宜用传统的安全观念进行事前的“一票否决”，应更多从事中、事后的角度进行科学评估和措施管控。

技术演进为模型用数安全带来新的路径和解决方案，通过制定云上用数的标准规范解决企业顾虑。模型的数据安全是一套不断演进的技术体系，是建立在基础安全能力之上，围绕数据全生命周期的安全能力。而在技术发展为数据安全带来新路径和新解法的同时，也应“顺势而为”，制定针对数据收集、传输、存储、访问、处理和删除的全周期云上用数的安全评估标准和管理机制。例如，利用RAG解决企业“上云用模”安全隐忧，产业侧需要积极地提出解决方案，并在实践中验证效果；社会侧可以结合业务实践提炼最佳案例，通过建立指引规范，构建企业与云平台的信任。当方案被广泛认可时，更多企业会认识到通过RAG可以为模型引入企业内部数据，让数据在可控、受保护状态下得到高效的流通利用。本质上，数据安全并不取决于存储的地点和介质，将数据安全等同于“数据不动、不用”，是对数据安全误解带来的实践偏差。

从治理的视角出发，我们需要以动态、发展的眼光看待模型的数据安全问题，从“事前要求“转变为“事中管理、事后定责”，为技术发展预留空间。基于RAG应用、数据安全技术保障、以及云平台透明度的披露，让模型应用阶段的“操作可审”、“责任可追”成为可能，为事中、事后的治理奠定了基础。在模型从研发走向应用的过程中，应顺应技术特征、为发展留空间的思路要保持一致性、连贯性。在训练阶段，数据政策要重视数据的可及性，用事后救济和补偿的方式代替过多前置对数据获取的限制与管控。在应用阶段，数据利用呈现“多方汇聚”的特征，数据政策更要避免过早“下结论”、“一刀切”，坚持“找办法”、“留空间”。大模型的产业和治理政策不仅要支持模型更强大，也要保障模型更好用、更安全，帮助模型应用走好“最后一公里”，将模型能力转化为生产力。

致谢

感谢阿里研究院AI产业中心主任周搏、阿里巴巴集团高级算法专家陈岳峰、阿里云智能集团高级技术专家江潇对本文提供理论支持和技术指导。

模型数据系列文章

1、模型上云的数据安全保护——以Apple PCC为借鉴

2、大模型时代：消失的飞轮

3、治理之智 | 《大模型训练数据白皮书》在第七届数字中国峰会发布：大模型是数据要素价值释放的最短路径

4、寻找高质量数据：对“确定性”的实践探寻和思考

5、合成数据：治理之智

6、合成数据：大模型训练和应用的新方案

7、合成数据：前世今生

8、大模型数据之二｜中美大模型的竞争之路：从训练数据讲起

9、大模型训练数据之一｜大模型训练的“阿喀琉斯之踵”：数据这么近那么远？

10、治理之智 | 合成数据：模型能力跃迁的必经之路

版块介绍 — 治理之智

在全球化背景下，科技的快速发展也带来了前所未有的治理挑战。本板块内容依托阿里巴巴集团先进的AI科技能力、丰富的应用场景与负责任的技术生态，聚焦于AI风险、AI大模型安全、AI大模型开闭源生态、AI大模型出海等AI治理政策研究，基于技术理性的风险观，为大模型发展与安全平衡与取舍提供独到见解。同时，我们致力于收集和分享海内外AI治理先进理论与经验，为构建合理的科技治理体系提供智慧与灵感。

推荐阅读

Reading

1、静水流深：美国人工智能治理的特征、趋势与启示

2、《中华人民共和国人工智能法（学者建议稿）》：产业期待中的中国方案

3、“不用旧瓶装新酒”：模型开源生态的认知——基于美国NTIA公共咨询意见的分析

4、寻找高质量数据：对“确定性”的实践探寻和思考

9、“全球AIGC版权侵权首判”留下的三个问题

10、2024年中国数据治理前瞻：再平衡与新常态