一个高吞吐量、内存高效的语言模型推理和服务引擎

大家好,又见面了,我是 GitHub 精选君!

背景介绍

在大语言模型(LLM)的应用领域,用户或开发者在机器学习服务过程中通常会遇到各种问题,例如:处理速度不够快、内存利用率不高、应用市面上流行的模型困难等。这些问题会大大影响项目的运行效率和用户体验,如果解决这些挑战,将大大优化大语言模型在企业上落地运用的流程。

今天要给大家推荐一个 GitHub 开源项目 vllm,该项目在 GitHub 有超过 25k Star,用一句话介绍该项目:A high-throughput and memory-efficient inference and serving engine for LLMs

项目介绍

vLLM 是一个高吞吐量、内存高效的语言模型推理和服务引擎,这个开源项目的目标是为每个人提供简便、快捷、经济的 LLM 服务。vLLM 能够高效地管理键值内存,优化 CUDA 内核,并且能够处理连续的输入请求,这使得它的服务吞吐量处于行业领先地位。vLLM 非常灵活并易于使用,它能够与许多流行的 Hugging Face 模型无缝集成,并提供高吞吐量的服务。具备并行采样、波束搜索等解码算法,支持分布式推理的张量并行性,同时还有开放接口的 API 服务器。此外,vLLM 的安装和使用也非常简单,只需要利用 pip 进行安装即可。

以下是支持的模型:

如何使用

首先,使用 pip 安装 vLLM:

pip install vllm

然后,就可以开始使用了,可以参考 Quickstart 介绍,其提供了三个示例如下:

如果,我们要启动一个与 OpenAI 兼容的 API 服务的话,使用如下命令即可:

# use model facebook/opt-125m, and use OpenAI compatible API to request
python -m vllm.entrypoints.openai.api_server \
    --model facebook/opt-125m
项目推介

vLLM 的开发团队是非常活跃,也得到了许多知名机构的支持,例如 Andreessen Horowitz 提供了大量的资金支持这个项目的开源开发和研究。并且,vLLM 已经被包括 LMSYS Vicuna 和 Chatbot Arena 在内的平台用来支持其自从 2023 年 4 月份的运行,这也表明了 vLLM 项目的实用性和稳定性。vLLM 也发布了其 PagedAttention 技术的论文,从学术的角度来看,vLLM 是一个有很高研究价值的项目。

以下是该项目 Star 趋势图(代表项目的活跃程度):

更多项目详情请查看如下链接。

开源项目地址:https://github.com/vllm-project/vllm

开源项目作者:vllm-project

以下是参与项目建设的所有成员:

关注我们,一起探索有意思的开源项目。


更多精彩请扫码关注如下公众号。

Written on November 30, 2023