一文解析向量数据库的大模型之路

dyzi6int05ei 2023-11-17 509

人工智能

633人已加入

描述

作者：黄楠

向量数据库可实现 80% 非结构化数据能力的覆盖。

在保险行业这个海量数据的“聚居地”上，数据库应用已久。

近年来，保司数据化转型提速，各类文本、音视频的凭证票证核保及跑批需求不断增加，许多机构便将数据库引入至业务流程中。

但是，随着数据库深入保司业务，一个真实的情况是：传统数据库只能处理机器容易处理的、如字符串等结构化数据，以点查和范围查找的形式进行匹配，但面对许多长尾场景下格式繁复、无法统一处理的非结构化数据时，则无能为力，只能继续投入大量人力，进行手动的数据录入和人工检验。

一位从业人员告诉 AI 科技评论，目前在保险公司内人为处理的事情居多，其业务内容中人为比例可达到 90% ，AI 只支持 10% 的信息存取、数据流转。

受技术瓶颈的掣肘，没有一套通用的方法论得以解决传统数据库的存储、检索和分析难题。数据局限的桎梏不仅发生在保险公司里，各行各业均受其困扰已久。直至大模型+向量数据库的出现。

数月来，大模型风口正盛，向量数据库可以为大模型解决数据更新、知识图谱构建、消除幻觉等问题，使其在短短时间内，一跃成为最受关注的领域之一。向量数据库类产品数量激增，当中既有创业公司，大厂更是战局中主要的竞争对手。

今年 7 月，腾讯云发布了 AI 原生向量数据库 Tencent Cloud VectorDB，该产品在 11 月 1 日正式全量开放公测，同时在性能上也实现了大幅提升。

向量数据库之于大模型，是实现降本增效重要的基础设施。数据显示，企业在使用向量数据库后，可实现 80% 非结构化数据能力的覆盖。

大模型的角斗场上，一个行业共识是，谁能够更好地利用数据，把数据沉淀到工程化中里，更快让数据接入到大模型和整个 AI 体系之中，谁就有可能走在最前列。而选择一个对的服务伙伴，至关重要。

1大模型的“数据”局限

众所周知，数据在 MaaS 时代很重要，市场的火热映射到具体的企业行为上，表现为大批量垂直模型的推出、数据库企业融资数量增加、数据库使用量陡然增长等。

但在企业落地的过程中，大模型所面临的难题依旧没有解决。

经过近半年的观察，数据局限对企业做大模型带来的影响，可归结为以下三点：

首先是对数据的管理和运维。如上所述，随着文本、图片、视频等多模态的、非结构化数据的使用需求增加，许多企业所产出的非结构化数据量级可高达 80%，如果选择以预训练的方式将数据“喂”给模型，与之而来的则是难以承载的高成本。

身为明星创业公司的百川智能，在模型训练和调试时就曾遇见过类似问题。

未使用向量数据库之前，百川智能一直使用的是开源方案，比如以向量索引为内核，相当于在训练时给模型准备一个 library 级别或算法级别的知识库，这些知识库使用简单，采用分布式系统的方式，具有扩展性。但其缺点也很直观，随着数量增长到一定规模时，这种分布式存储的方式会很快遇到瓶颈。

不仅如此，由于市面上缺少成熟的管理工具，数据格式该怎么组织、数据的更新频率如何安排、新旧数据的更迭等等，百川智能都需要额外交给工程师去做，大大增加了人员成本。

第二点，虽然大模型支持的 token 数量在持续增加，具备了“短暂记忆”的能力，但“一本正经地胡说八道”的问题仍无法解决，当中不乏有敏感内容的出现，稍不注意，便可能带来严重的影响。因此，支撑模型训练的数据不仅要数量多，质量也必须足够高。

比如大模型和教育行业的结合，虽然模型可以完成一定的推理和解题，但进入实际应用中，好未来就发现了，大模型在面对数学问题时，其表现仍然不够好。要想解决这个问题，必须基于庞大的、高质量的数据库，像教程题库、数学错题集等，在此之上尝试启发式内容生成。

第三，如何保障企业数据的安全性，数据在空间和时间上会有很大的限制。

一方面，企业很难把自己具有核心竞争力的数据放到大模型中去训练；有行业人士就曾向 AI 科技评论指出，许多应用型公司并不愿意将自身微调的模型贡献到公有版本里、与其他人分享，而是倾向于训练自己的大模型，而后进行本地私有化部署。这个过程中，企业要解决的主要难点是，如何将私有化业务数据跟大模型结合。

销售易是很早就在智能 CRM 业务中引入了大模型，例如提供相似客户推荐、做问答机器人等服务。但客户在使用过程时却发现，大模型所推荐的客户类型经常会出现匹配度不高的情况，向它提问与企业相关的的系统功能问题时，大模型也回答不出来。

另一方面，企业的业务数据变化速度快，且实时性强，因此私有化部署后的大模型、在数据层上也很难做到秒、天级别的更新。

当上述诸多问题横亘于企业和大模型落地之间，学术界和工业界也提出了两种解决方案。

一是采用 Fine-tuning 的方式迭代演进，让大模型学到更多的知识；二是通过 Vector search 的方法，把最新的私域知识存在向量数据库中，需要时在向量数据库中做基于语义的向量检索，这两种方法都可以为大模型提供更加精准的答案。

但是从成本方面来看，行业人士指出，向量数据库的成本仅为 Fine-tuning 的千分之一。向量数据库通过把数据向量化，进行存储和查询可以有效解决大模型预训练成本高、没有“长期记忆”、幻觉、知识更新不及时等问题。

因此，凭借其优势，向量数据库也被视为了加速大模型落地行业场景的关键突破口。

2向量数据库的大模型之路

自大模型火爆以来，原已沉寂多年的向量数据库再次受到企业和资本市场的高度关注，据公开数据显示，2023 年 4 月以来，以向量数据库为代表的 AI 投资领域呈增长趋势，包括 Pinecone、Chroma 和 Weviate 等多家向量数据库初创企业均拿到了上亿级美元融资。

为了最大程度上帮助企业应对数据局限问题，更好地将大模型能力释放到行业和产业中，腾讯云走在国内云厂商前列，于今年 7 月便正式上线了向量数据库 Tencent Cloud VectorDB，并在 11 月 1 日全量开放公测。

这也体现了腾讯云在大模型时代下的视角：大模型技术的创新只是第一步，如向量数据库这类数据存储、检索、分析等基础设施的搭建也同等重要，腾讯不仅提供直接的大模型服务，更重要的是向企业递“铲子”、提供有效趁手的平台工具。

市面上不缺乏好用的向量数据库，那么，腾讯云相比于其他厂商的产品有什么不一样的地方呢？

首先在架构上，腾讯云就采用了 AI 原生的开发架构，从接入层、计算层、存储层提供给全面 AI 化的解决方案，形成一套完整的端到端、一站式服务技术栈，让不同阶段、不同需求的用户，都能在腾讯云向量数据库里找到对应可用的 AI 能力。

大模型

腾讯云全面 AI 化解决方案

比如在接入层上，腾讯云向量数据库支持自然语言文本的数据，采用“标量+向量”的查询方式，可支持全内存索引；计算层，AI 原生的开发范式能实现全量数据 AI 计算，一站解决企业搭建私域知识库时数据切分等难题。

这些能力不仅可以让交互更自然，同时在计算结果、效率、成本等方面，也能得到进一步的优化。

在百川智能的工程师们看来，向量数据库带来最直观的改变是，数据分片、导入导出等工作效率得到了极大的提升。面对每天约 2 亿的数据量，以往使用的单线程序处理速度有限，但加入了向量数据库后，加上百川智能所使用的RAG 框架，可以有效解决私有数据、实时数据，同时在数据齐备的情况下，还能消除部分由数据带来的幻觉问题。

数据显示，将腾讯云向量数据库用于大模型预训练数据的分类、去重和清洗，相比传统方式可以实现 10 倍效率的提升，如果将向量数据库作为外部知识库用于模型推理，则可以将成本降低 2 - 4 个数量级。

以前企业将现有数据接入一个大模型需要花 1 个月左右时间，使用腾讯云向量数据库后，最短 3 天时间即可完成，极大降低了企业的接入成本。

第二是集成了 Embedding 功能，企业用户无需关注向量生成过程，使用起来更简单。

大模型

腾讯云向量数据库 AI 套件

与腾讯云合作以前，好未来曾使用过一些小型的基于内存的向量数据库，虽然也具备了语义结合的能力，但无论是产品的性能还是维护等方面，使用效果不佳。

而在腾讯云向量数据库上，通过语音召回加语义 Embedding 功能，这种采用语义结合进行检索的方式，让模型能力得到了提升，召回内容更多、内容更精准、召回速度更快等等，从而提供更好的用户体验。

例如同样是搜索题库中的“第一单元”，文本召回必须准确地提供“第一单元”这一提示词，但借助向量数据库的相似性检索，语义检索就可以将“Unit1”等近似语义的内容也进行召回。

第三，自研分布式向量数据库核心引擎，服务更稳定可靠、高可用。

AI 科技评论了解到，腾讯云向量数据库所用的核心引擎，是其 2019 年于内部上线使用的 Olama，经过 4 年的探索和迭代，Olama 实现了大规模升级，包括集成了腾讯在内的业界优秀的向量算法、降低 Olama 成本、提升稳定性等等，从而更好地适配大语言模型应用。

截至今年 7 月份，Olama 已覆盖腾讯 30 多个业务、100 多个场景，日均调用量超过 1200 亿，调用成功率为 100%，搜索成功率为 99.995%。

可以看到，面对企业在大模型落地中的普遍难题，腾讯云向量数据库力图在每个环节提供便捷、有效的解决方案，突破数据的局限，加速大模型+向量数据库的使用，以解决企业实实在在的痛点和难题。

3应用是风口

受限于研发成本和开发难度，过去十年，全球仅有 1% 开发者专注于 AI 领域的研发工作。而到了今天，以大模型为能力基座，一个 AI 应用开发的难度缩短至只需两三个工程师、一个周末时间变成完成。

其中，向量数据库也从以搜索、广告、推荐为主要服务领域，随着 AI 的大规模发展，开始深入千行百业中去，与 C 端用户链接也更加紧密。

举一个销售易与腾讯云的合作案例。

作为一家企业级 CRM 服务商，每天有数万次用户问答在智能客户场景中发生。在以前，传统的 NLP 客服机器人智能做一问一答，这种基于分词语法关键字的检索方式，容易出现搜索答案不精准的情况，用户使用感不佳，慢慢地也失去了提问的积极性。

比如客户希望在业务分析中检索调用出多个数据报表，想要在成千上万个报表中找到指定数据，对模型的信息抽取能力有很高的需求，直接关系到业务的分析效率。

但在同腾讯云合作后，销售易可以先将报表以 Embedding 的形式存入自有向量数据库中，当用户端发生自然语言问询时，这个客服机器人就可以智能化分析问询者的意图，并在向量数据库内去检索相关的知识文档，从而得出一个更接近于人的思考方式的回答。

这样的客服机器人不仅可以支持多轮对话，更关键的是，它还支持了检索模糊的相关性，不需要维护大量同义词、词典或是相似的问法，类似相关性的语言可以交给大模型+向量数据库来解决。

而在潜在客户推荐的场景中，腾讯云向量数据库带来的影响也十分明显。

过去，销售易主要是依据客户的特征字段，在结构化信息里检索有相关特征的企业信息，这种检索对于内部的销售人员要求很高，必须准确地检索近上百个字段，如企业介绍等描述性内容很难被检测，久而久之，员工经常会出现关键字匹配度不高等问题。

而使用了向量数据库后，基于相关性的特征来检索是从文本进行描述，当销售人员想要检索某个行业、某种产品或是某种业务需求的客户时，可以借助文本进行自然语言模糊的相关性检索，使用简单，检索的结果也更真实、准确，智能化效果明显，大幅提升了员工从事客户推荐业务的难度。

大模型

腾讯云超级底座

可以看到，向量数据库之于大模型应用落地、之于 AI 技术发展的意义已经逐渐显现。

腾讯云数据库副总经理罗云就曾指出，数据、向量数据库、大模型三者怎么能更好地服务全行业是首要问题，“只有向量数据库变得更 AI 化，数据、向量数据库、大模型三者才能形成一个飞轮效应，彼此之间相互拉动，相互促进，这是我们对向量数据库未来发展的判断。”

这也是腾讯云在当下推出向量数据库 Tencent Cloud VectorDB 的原因所在。

数据显示，自 7 月份正式发布以来，腾讯云向量数据库的日请求量达 1600 亿次，服务腾讯集团内部 40 多个业务，外部客户数更多达数百家，其中就包括了上述提到的百川智能、好未来、销售易，帮助教育、SaaS、工具、游戏等多行业客户快速进行 AI 方向的探索。

大模型进一步推动了对向量数据库的需求。业界共识是，所有产品应用都值得用 AI 重做一次，在这个背景下，企业将会越来越重视如何将其跟 AI、大模型的能力结合起来。而腾讯云向量数据库在提出之时，就已经看到了企业在应用落地中的痛点，用向量数据库在技术“大脑”中构建起一个健康、且旺盛的“海马体”，为企业迈进大模型时代提供坚实的基座。

这次 Techo Day 技术开放日将资料和课件都整合成了一份《腾讯云工具指南》，这份资料技术含量很高，可以帮助学习了解向量数据库的技术优势和价值应用。

编辑：黄飞

打开APP阅读更多精彩内容