|
在近期结束的机器之心 AI 技术论坛上,一场以向量数据库为主角的主题论坛引发业内广泛关注。该论坛不仅罕见地汇集了国内向量数据库赛道内的各式公司,更是邀请到行业巨头 Zilliz 参会。 现场,Zilliz 合伙人、技术总监栾小凡进行了一次揭秘式的前沿思考,为业界各开发者提供了不同于以往的参考。
栾小凡表示,海量非结构化数据检索面临以下挑战: 非结构化数据的理解成本更高,基于规则的处理方案难以适应; 海量非结构化数据的处理性能和成本越来越关键; 不同于传统数据处理,非结构数据缺乏好的工具,如 ETL、数据库、数仓 而处理非结构化数据的核心是概率。栾小凡解释道,非结构化的处理是相似度,NLP 中根据上下文推断可能性,图像处理关注像素的相似度;而相似度的核心是概率,理解概率的本质是基于大量数据进行 Pretrain 和 Finetune。 随后,栾小凡进一步解释了概率对于检索意味着什么。他表示,搜索和生成是一体两面,搜索是选择题,生成是填空题,本质都是概率问题。那么,概率对于检索意味着什么?想要做对搜索,本质需要挖掘两种信息:领域内知识和领域外知识。领域外知识见得越多,泛化能力越强,领域内知识见得越大,生成越精确。因为 Pretrain+Finetune 成为了搜索和生成共同的烦事。而搜索的特殊性在于,因为知道答案范围,所以可以利用概率提前构建范围,本质是利用 Corpus 的相似性概率。
接下来,栾小凡着重介绍了从概率 1.0 时代到 3.0 时代的主流算法变化,包括 TF-IDF、Word2Vec、BERT 等。在此过程中,向量数据库的出现,极大地加速了稠密向量查询性能,使得在生产中落地向量检索成为了可能。从业务效果角度来看,尽管单纯的向量检索要强于单纯的关键词打分,然而这并非最优实现。选择向量检索只是由于 cross encoder 等算法代价过高的无奈折中之举。栾小凡强调,向量检索不应该只是简单传统数据库+向量检索 Library,随着场景的不断发展,向量数据库应该从单纯的数学 recall 转向更加复杂的业务 recall。 在此背景下,向量数据库未来发展的一个重要趋势是【由数据库向服务转变】,具体体现在以下六个方面: 关注扩展性,更关注弹性 多云、多机房、异地多活 不仅支持实时写入,更能做到离在线一体化 开箱即用的 Pipeline 服务 向量数据湖与离线分析 关注向量数据的安全与合规 目前,Zilliz 正延续上述方向在产品上不断升级打磨,其产品 Zilliz Cloud 提供开箱即用的全托管向量检索服务,已覆盖全球主流的云平台,包括 AWS、GCP、Azure、阿里云、金山云。近期,Zilliz Cloud 更是上线了 Pipeline,为用户实现 RAG 奠定了坚实的基础。 |
正在阅读:大模型时代的向量数据库正解!赛道巨头 Zilliz 揭秘生成式搜索背后的奥义大模型时代的向量数据库正解!赛道巨头 Zilliz 揭秘生成式搜索背后的奥义
2023-12-12 18:13
出处:其他
责任编辑:houxianyong

相关文章
大模型时代的向量数据库正解!赛道巨头 Zilliz 揭秘生成式搜索背后的奥义
冲刺双十二,Get华为手机这些APP即刻拥有品质生活
微美全息(NASDAQ:WIMI)开发非对称光谱网络算法,为高光谱图像分类领域打开新局面
PICO 2023首届XR开发者挑战赛顺利收官
JFrog推出业界首款致力于加速安全软件构建与发布的端到端平台
凌锐蓝信荣获国家级专精特新“小巨人”企业称号,展现企业实力与创新能力
鸿蒙生态投资理财领域取得突破进展,同花顺完成鸿蒙原生应用Beta版本开发
年末大促密集,商品卡助力商家解锁生意爆发新路径
软件持续优化,生态积极布局,英特尔锐炫进无止境!
《钢岚》今日首发,成为首款基于HarmonyOS NEXT开发的战棋新游

西门子(SIEMENS)274升大容量家用三门冰箱 混冷无霜 零度保鲜 独立三循环 玻璃面板 支持国家补贴 KG28US221C
5399元
苏泊尔电饭煲家用3-4-5-8个人4升电饭锅多功能一体家用蓝钻圆厚釜可做锅巴饭煲仔饭智能煮粥锅预约蒸米饭 不粘厚釜 4L 5-6人可用
329元
绿联65W氮化镓充电器套装兼容45W苹果16pd多口Type-C快充头三星华为手机MacbookPro联想笔记本电脑配线
99元
KZ Castor双子座有线耳机入耳式双单元HM曲线发烧HiFi耳返耳麦
88元
格兰仕(Galanz)【国家补贴】电烤箱 家用 40L大容量 上下独立控温 多层烤位 机械操控 烘培炉灯多功能 K42 经典黑 40L 黑色
260.9元
漫步者(EDIFIER)M25 一体式电脑音响 家用桌面台式机笔记本音箱 蓝牙5.3 黑色 520情人节礼物
109元

