Google发布Gemini Embedding 2:五模态统一向量嵌入模型

3 月 10 日,Google 发布 Gemini Embedding 2 嵌入模型,原生支持文本、图片、视频、音频和 PDF 五种模态输入,并将其映射至同一向量空间。该模型基于 Gemini 基础架构,所有模态共享 Transformer 网络,在中间层即实现跨模态语义交互,区别于 CLIP 等依赖后期对齐的方案。
模型默认输出 3,072 维向量,采用 Matryoshka Representation Learning(MRL)技术,使语义信息按重要性分层分布:前 768 维已涵盖核心语义,后续维度逐步补充细节。用户可指定 output_dimensionality 参数动态调整维度,支持两阶段检索——首阶段用低维向量快速粗筛,次阶段用全维向量精排,兼顾速度与精度。
上下文窗口扩大至 8,192 token,较上一代 2,048 token 显著提升,有利于 RAG 场景中保留完整语义片段。模型支持 task_type 参数,明确区分 RETRIEVAL_QUERY、RETRIEVAL_DOCUMENT、CLASSIFICATION 等 8 类任务,针对不同用途优化向量数学属性,直接影响检索命中率。
基准测试显示,Gemini Embedding 2 在 MTEB(Massive Text Embedding Benchmark)中全面超越前代,尤其在跨模态检索任务中准确率提升明显;同时缓解“领域漂移”问题,在法律、医学、代码等专业领域零样本场景下保持更高稳定性。
迁移需注意三点:必须全量重新索引;相似度阈值需经 A/B 测试重新校准;推荐渐进式切量路径——先建影子索引,再按 5%→20%→50%→100%分步导流,新索引稳定运行一周后方可下线旧系统。
该模型以 gemini-embedding-2-preview 名称开放预览,可通过 Gemini API 及 Vertex AI 调用。LangChain、LlamaIndex、Haystack、Weaviate、Qdrant、ChromaDB 等主流框架与向量数据库已完成集成,并提供 Colab 可运行交互式 Notebook。
Gemini Embedding 2 标志着嵌入模型正从文本专用工具演进为统一多模态语义表示层。其交错输入(interleaved input)能力允许单次请求同时处理图文、音视频及文字说明并生成融合向量,简化原有需多个独立模型拼接的复杂管线。对电商商品理解、教育视频课程检索、医疗影像报告分析等实际业务场景具有直接应用价值。
以上关于Google发布Gemini Embedding 2:五模态统一向量嵌入模型的文章就介绍到这了,更多相关内容请搜索码云笔记以前的文章或继续浏览下面的相关文章,希望大家以后多多支持码云笔记。
如若内容造成侵权/违法违规/事实不符,请将相关资料发送至 admin@mybj123.com 进行投诉反馈,一经查实,立即处理!
重要:如软件存在付费、会员、充值等,均属软件开发者或所属公司行为,与本站无关,网友需自行判断
码云笔记 » Google发布Gemini Embedding 2:五模态统一向量嵌入模型
微信
支付宝