正在阅读：大模型时代的向量数据库正解！赛道巨头 Zilliz 揭秘生成式搜索背后的奥义大模型时代的向量数据库正解！赛道巨头 Zilliz 揭秘生成式搜索背后的奥义

2023-12-12 18:13 出处：其他作者：佚名责任编辑：houxianyong

　　在近期结束的机器之心 AI 技术论坛上，一场以向量数据库为主角的主题论坛引发业内广泛关注。该论坛不仅罕见地汇集了国内向量数据库赛道内的各式公司，更是邀请到行业巨头 Zilliz 参会。

　　现场，Zilliz 合伙人、技术总监栾小凡进行了一次揭秘式的前沿思考，为业界各开发者提供了不同于以往的参考。

　　栾小凡表示，海量非结构化数据检索面临以下挑战：

　　非结构化数据的理解成本更高，基于规则的处理方案难以适应；

　　海量非结构化数据的处理性能和成本越来越关键；

　　不同于传统数据处理，非结构数据缺乏好的工具，如 ETL、数据库、数仓

　　而处理非结构化数据的核心是概率。栾小凡解释道，非结构化的处理是相似度，NLP 中根据上下文推断可能性，图像处理关注像素的相似度；而相似度的核心是概率，理解概率的本质是基于大量数据进行 Pretrain 和 Finetune。

　　随后，栾小凡进一步解释了概率对于检索意味着什么。他表示，搜索和生成是一体两面，搜索是选择题，生成是填空题，本质都是概率问题。那么，概率对于检索意味着什么？想要做对搜索，本质需要挖掘两种信息：领域内知识和领域外知识。领域外知识见得越多，泛化能力越强，领域内知识见得越大，生成越精确。因为 Pretrain+Finetune 成为了搜索和生成共同的烦事。而搜索的特殊性在于，因为知道答案范围，所以可以利用概率提前构建范围，本质是利用 Corpus 的相似性概率。　　

　　接下来，栾小凡着重介绍了从概率 1.0 时代到 3.0 时代的主流算法变化，包括 TF-IDF、Word2Vec、BERT 等。在此过程中，向量数据库的出现，极大地加速了稠密向量查询性能，使得在生产中落地向量检索成为了可能。从业务效果角度来看，尽管单纯的向量检索要强于单纯的关键词打分，然而这并非最优实现。选择向量检索只是由于 cross encoder 等算法代价过高的无奈折中之举。栾小凡强调，向量检索不应该只是简单传统数据库+向量检索 Library，随着场景的不断发展，向量数据库应该从单纯的数学 recall 转向更加复杂的业务 recall。

　　在此背景下，向量数据库未来发展的一个重要趋势是【由数据库向服务转变】，具体体现在以下六个方面：

　　关注扩展性，更关注弹性

　　多云、多机房、异地多活

　　不仅支持实时写入，更能做到离在线一体化

　　开箱即用的 Pipeline 服务

　　向量数据湖与离线分析

　　关注向量数据的安全与合规

　　目前，Zilliz 正延续上述方向在产品上不断升级打磨，其产品 Zilliz Cloud 提供开箱即用的全托管向量检索服务，已覆盖全球主流的云平台，包括 AWS、GCP、Azure、阿里云、金山云。近期，Zilliz Cloud 更是上线了 Pipeline，为用户实现 RAG 奠定了坚实的基础。