Meta发布类GPT-4o多模态模型Chameleon
Meta 最近发布了一个名为 Chameleon 的多模态模型,它在多模态模型发展中设立了新的标杆。Chameleon 是一个早期融合的基于 token 的混合模态模型家族,能够理解并生成任意顺序的图像和文本。它通过一个统一的 Transformer 架构,使用文本、图像和代码混合模态完成训练,并且对图像进行分词化,生成交错的文本和图像序列。
Chameleon 模型的创新之处在于其早期融合方法,所有处理流程从一开始就映射到一个共同的表示空间,让模型能够无缝处理文本和图像。它在各种任务上展示了广泛的能力,包括视觉问答、图像标注、文本生成、图像生成和长形式混合模态生成。在图像标注任务上,Chameleon 达到了最先进的性能,并且在文本任务上超越了 Llama-2,与 Mixtral8x7B 和 Gemini-Pro 等模型竞争。

Chameleon 模型在技术上面临了重大挑战,Meta 的研究团队引入了一系列架构创新和训练技术。例如,他们开发了新的图像分词器,基于 8192 大小的 codebook,将 512×512 的图像编码为 1024 个离散的 token。此外,Chameleon 使用了 sentencepiece 开源库训练的 BPE 分词器。
在预训练阶段,Chameleon 使用了混合模态数据,包括纯文本、文本-图像对以及文本和图像交错的多模态文档。预训练分为两个阶段,第一阶段无监督学习,第二阶段混合更高质量的数据。
Chameleon 模型在基准评估中全面超越了 Llama2,在常识推理、阅读理解、数学问题和世界知识领域都取得了显著的效果。在人工评估和安全测试中,Chameleon-34B 的表现也远远超过了 Gemini Pro 和 GPT-4V。
尽管 Chameleon 缺少 GPT-4o 中的语音能力,但 Meta 的产品管理总监表示,他们非常自豪能够支持这个团队,并希望让 GPT-4o 更接近开源社区。这可能意味着不久的将来,我们可能会得到一个开源版的 GPT-4o。
Chameleon 模型的发布,展示了 Meta 在多模态模型领域的重大进展,它不仅推动了多模态模型的发展,也为未来的研究和应用提供了新的可能性。
以上关于Meta发布类GPT-4o多模态模型Chameleon的文章就介绍到这了,更多相关内容请搜索码云笔记以前的文章或继续浏览下面的相关文章,希望大家以后多多支持码云笔记。
如若内容造成侵权/违法违规/事实不符,请将相关资料发送至 admin@mybj123.com 进行投诉反馈,一经查实,立即处理!
重要:如软件存在付费、会员、充值等,均属软件开发者或所属公司行为,与本站无关,网友需自行判断
码云笔记 » Meta发布类GPT-4o多模态模型Chameleon
微信
支付宝