DBRX 132B Instruct 模型在线使用,32K 上下文!

你可以在线体验 32K 上下文的 DBRX 132B Instruct 模型!DBRX 是由 Databricks 创建的一款开源的通用型 LLM,在一系列标准基准测试中,DBRX 为已有的开源 LLM 确立了新的技术水平。

主页 > 博客 > DBRX 132B Instruct 模型在线使用,32K 上下文!

DBRX 是由 Databricks 创建的一款开源的通用型 LLM,在一系列标准基准测试中,DBRX 为已有的开源 LLM 确立了新的技术水平。更重要的是,它从闭源变开源了!

根据测试,它超越了 GPT-3.5,并且与 Gemini 1.0 Pro 难分伯仲。作为一款特别强大的代码模型,它不仅在编程方面超越了专业模型如 CodeLLaMA-70B,而且作为通用型 LLM 的优势也很明显。

这一技术水平的提高伴随着训练和推断性能的显著提升。多亏了其细粒度的 mixture-of-experts (MoE)架构(MoE),DBRX 在开源模型中的效率达到了新高度,推断速度比 LLaMA2-70B 快两倍,而且在总参数和活跃参数数量上,DBRX 都约为 Grok-1 的 40%。当部署在 Mosaic AI Model Serving 上时,DBRX 可以以每个用户每秒 150 个 token/s 的速度生成文本。

DBRX 132B Instruct 模型在线使用
DBRX 在语言理解(MMLU)、编程(HumanEval)和数学(GSM8K)方面超越了已有的开源模型

你可以从 Hugging Face(DBRX BaseDBRX Instruct)下载 DBRX,或者在 HF Space 中尝试 DBRX Instruct,或者在 GitHub 上查看这个开源的模型库:databricks/dbrx

目前已经有开放 API 提供了,你可以点击这个链接在线体验 DBRX 132B Instruct 模型:https://app.anakin.ai/chat?r=01pBhaQ1

DBRX 132B Instruct 模型在线使用

什么是 DBRX?

DBRX 是一款基于 transformer 的仅解码器的大型语言模型(LLM),它是使用next-token进行训练的。它使用细粒度的 mixture-of-experts (MoE) 架构,总共有 132B 个参数,其中 36B 个参数在任何输入上都是活跃的。它在文本和代码数据的 12T tokens 上进行了预训练。与 Mixtral 和 Grok-1 等其他开放 MoE 模型相比,DBRX 是细粒度的。

DBRX 在精心策划的 12T tokens 的数据和最大上下文长度为 32k tokens 上进行了预训练,这个数据的质量至少是 MPT 系列模型的数据的两倍。使用了 Databricks 全套工具,包括 Apache Spark™ 和 Databricks 笔记本进行数据处理、Unity Catalog 进行数据管理和治理,以及 MLflow 进行实验跟踪,开发了这个新的数据集。

DBRX 132B Instruct 模型在线使用

DBRX 是怎么构建出来的?

DBRX 的构建过程是怎样的呢?它是在 3072 台 NVIDIA H100s 上通过 3.2Tbps Infiniband 连接进行训练的。构建 DBRX 的主要过程,包括预训练、后训练、评估、红队测试和完善,历时三个月。这是对 Databricks 几个月科学、数据集研究和扩展实验的延续,更是在 Databricks 进行的 LLM 开发的延续。

构建 DBRX 使用了 Unity Catalog 管理和管理训练数据,使用新获得的 Lilac AI 探索这些数据,使用 Apache Spark™ 和 Databricks 笔记本处理和清理数据,使用开源训练库的优化版本训练 DBRX:MegaBlocks、LLM Foundry、Composer 和 Streaming,使用 Mosaic AI 训练服务在数千个 GPU 上管理大规模模型训练和微调,使用 MLflow 记录结果,通过 Mosaic AI 模型服务和推理表收集真实用户反馈,以改进质量和安全性,手动对模型进行实验使用 Databricks Playground。

整个产品构建过程非常多的细节,佩服 DBRX 132B Instruct 模型的团队。

在线使用 DBRX

如果你想立即开始使用 DBRX,可以通过 Databricks 的 Foundation Model APIs 文档中的描述实现,并从他们的 AI Playground 聊天界面查询模型。对于生产应用,他们提供了预配吞吐量选项,以提供性能保证、支持微调模型以及提供额外的安全性和合规性。要私有托管 DBRX,你可以从 Databricks Marketplace 下载模型并将其部署到模型服务上。

当然,在 Anakin.ai 上也集成了 DBRX 132B Instruct 模型,可以去体验一下!地址:https://app.anakin.ai/chat?r=01pBhaQ1

DBRX 132B Instruct 模型在线使用

总结

DBRX 是 Databricks 创建的开放通用 LLM,打破了已有模型的技术壁垒,甚至超越了 GPT-3.5,其细粒度的 MoE 架构提高了训练和推理效率,使得 DBRX 在各方面都表现出色。

参考链接:

DBRX 132B Instruct 模型在线使用,32K 上下文!
你可以在线体验 32K 上下文的 DBRX 132B Instruct 模型!DBRX 是由 Databricks 创建的一款开源的通用型 LLM,在一系列标准基准测试中,DBRX 为已有的开源 LLM 确立了新的技术水平。

了解更多: