微软发布Phi-3 Vision等最新大模型系列
微软发布了其最新的大型语言模型系列,Phi-3,包括 Phi-3Vision、Phi-3Small7B 和 Phi-3Medium14B 型号。这些模型在性能上与当前领先的大型模型相媲美,同时在特定领域提供了一些独特的优势。
Phi-3Medium14B 型号的性能与 Mixtral8x22B 和 Llama370B 相当,甚至超过了 Command R+104B 和 GPT3.5。这表明微软的这个模型在大型模型领域具有较强的竞争力。
Phi-3Small7B 型号虽然规模较小,但其性能依然超过了 Mistral7B 和 Llama38B,这使得它在需要处理大量数据但计算资源有限的场景下具有潜在的应用价值。
Phi-3 系列模型支持的上下文长度为 4K 和 128K,这为处理长文本数据提供了灵活性。模型规模方面,Medium 版本为 14B 参数,Small 版本为 7.5B 参数,而 Vision 版本则为 4.2B 参数。
在训练数据方面,微软使用了 4.8T(万亿)令牌对模型进行训练,训练过程持续了 42 天,使用了 512 个 H100GPU。训练数据集包含了 10%的多语言数据,并且采用了经过严格过滤的数据和合成数据,特别是科学和编程教材,这可能有助于模型在这些领域的特定任务上表现更好。
微软还为 Phi-3 系列引入了一个新的分词器,拥有 10 万词汇量,这有助于模型更好地理解和生成语言。此外,Phi-3 模型的权重兼容 AWQ、INT4、ONNX 和 transformers,这为开发者提供了在不同平台上部署和运行模型的灵活性。
总体而言,微软的 Phi-3 系列模型在大型语言模型领域展现了强大的性能和灵活性,为研究人员和开发者提供了新的工具和可能性。随着这些模型的发布,我们可以期待在自然语言处理和相关领域出现新的创新和应用。
码云笔记 » 微软发布Phi-3 Vision等最新大模型系列