Skip to content

Xinference安装与使用

Xinference

介绍

Xinference(Xorbits Inference)是 Xorbits 团队开发的开源 AI 模型推理服务平台,可一站式部署和管理大语言模型、嵌入模型、多模态模型等,支持本地与分布式部署,适配多硬件与推理引擎,兼具易用性与企业级能力

特性XinferenceOllamaBentoML/Ray Serve
模型类型全模态(LLM/Embedding/ 多模态)以 LLM 为主需手动适配多类型
推理引擎多引擎自动适配单一引擎需手动集成引擎
分布式部署原生支持有限支持支持但配置复杂
企业级特性权限 / 监控 / 多租户基础管理需二次开发
易用性低代码 / 无代码极简但功能有限需编写部署代码

安装准备工作

  • Windows 上安装 WSL2
  • WSL2 上安装 Ubuntu 22.04
  • Ubuntu 22.04 上安装Docker

参考文档:《WSL安装与使用》

安装与启动

Xinference 官方镜像已发布在 DockerHub 上的 xprobe/xinference 仓库中。

  • 对于 CPU 版本,增加 -cpu 后缀,如 nightly-main-cpu
shell
docker pull xprobe/xinference:v1.17.1-cpu

使用镜像启动

  • 指定日志级别为 debug (可选为 info )
  • 挂载模型目录
shell
# 创建模型目录
mkdir -p /opt/xinference/data

docker run -d --name xinference \
-v /opt/xinference/data:/data -e XINFERENCE_HOME=/data \
-e XINFERENCE_MODEL_SRC=modelscope -p 9997:9997 xprobe/xinference:v1.17.1-cpu \
xinference-local -H 0.0.0.0 --log-level debug

基本使用

可以通过下面URL访问。

  • http://<IP>:9997/ui 使用 UI界面
  • http://<IP>:9997/docs 查看 API 文档。

其中IP地址填写Docker宿主机的IP地址。查看IP命令:ip a

image-20260128175605309

运行模型

运行模型:登录Xinference界面,Launch Model -- LANGUAGE MODELS -- qwen3

参数说明:

  • Model Format: 模型格式:可以选择量化和非量化的格式
  • Model Size:模型的参数量大小
  • Quantization:量化精度
  • N-GPU:选择使用第几个GPU
  • Model UID(可选):模型自定义名称,不填写模式用原始模型名称
  • Download hub:选择魔塔modelscope

image-20260128180627456

模型运行中界面:Running Models -- LANGUAGE MODELS

image-20260128181040935

调用模型接口

查看 API 文档:http://<IP>:9997/docs

使用curl调用

shell
curl -X 'POST' \
  'http://127.0.0.1:9997/v1/chat/completions' \
  -H 'accept: application/json' \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "qwen3",
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": "你好"
        }
    ]
  }'

调用结果示例

image-20260128181542211

参考资料