大模型的私有化部署（一）

一、部署前期准备

1.1 服务器租赁（核心前提）

由于个人电脑的算力、显存等硬件条件受限，不推荐本地部署大模型，优先选择云服务器提供的GPU租赁服务，主流平台可选择阿里云、AutoDL等。

选择建议（按场景划分）

测试/学习用途：首推 AutoDL
- 优势：价格低廉，按小时计费，预装完整深度学习环境（无需手动配置Python、Torch等），开箱即用，对新手友好。
生产/长期运行用途：优先选择 阿里云、腾讯云
- 优势：稳定性更强，服务保障更完善，支持弹性扩容，适合企业级落地场景。

1.2 服务器实例创建与信息留存

配置选择：推荐显卡型号 RTX 3090/4090 或 A100，显存≥16GB（保障8B模型正常运行），按需选择CPU与硬盘容量（建议硬盘≥50GB，用于存储模型文件）。
实例创建完成后，务必妥善记录以下连接信息（丢失后难以找回）：
- SSH 地址（格式示例：123.456.78.90:12345）
- 登录密码（或密钥文件，若选择密钥登录）

1.3 PyCharm Pro 远程SSH连接（高效开发必备）

为了简化后续的代码编写、文件管理与命令执行，推荐使用PyCharm专业版的远程开发功能，直接连接云服务器进行操作。

详细操作步骤

打开 PyCharm Professional，创建或打开你的项目。
进入路径：File → Settings → Project: [你的项目名] → Python Interpreter。
点击解释器右侧的 Add Interpreter 按钮，选择 **On SSH...**（远程SSH解释器）。
在弹出的配置窗口中，填写服务器信息：
- Host：服务器公网IP地址（无需带端口）
- Port：SSH端口号（默认22，AutoDL等平台为随机分配端口，需对应记录的信息）
- Username：默认通常为 root
- Password：填写记录的服务器登录密码
后续步骤一路点击 Next，默认选择服务器上的Python解释器即可，完成配置。
验证：配置成功后，PyCharm的终端（Terminal）执行命令会直接在远程服务器上运行，文件操作也会同步到服务器对应目录。

二、模型下载与环境配置

2.1 大模型下载（以Qwen3-8B-Instruct为例）

我们选择从ModelScope（魔搭社区）下载字节跳动开源的Qwen3-8B-Instruct模型，该模型性能均衡，适合新手入门私有化部署。

步骤1：找到模型官方页面

https://www.modelscope.cn/models/qwen/Qwen3-8B-Instruct/summary

步骤2：Python SDK 下载（推荐，自动处理依赖与文件整合）

若未安装ModelScope库，先在PyCharm远程终端执行安装命令：
1
pip install modelscope

创建Python脚本（或直接在终端运行），执行以下下载代码：

from modelscope import snapshot_download

# 配置模型名称与下载目录
# 注意：AutoDL平台大容量数据盘默认路径为 /root/autodl-tmp，优先选择该目录节省系统盘空间
model_name = 'Qwen/Qwen3-8B-Instruct'
save_dir = '/root/autodl-tmp/models'

# 开始下载模型（首次下载约15GB，耗时取决于网络速度）
model_dir = snapshot_download(model_name, cache_dir=save_dir)

# 打印模型最终存储路径（后续启动服务需用到，建议复制留存）
print(f'模型下载完成，存储路径：{model_dir}')

2.2 安装 vLLM 推理引擎（高速推理核心）

vLLM 是一款高性能的大模型推理与服务库，相比原生推理框架，具有显存利用率高、生成速度快、支持高并发的优势，是私有化部署的首选推理引擎。

在PyCharm远程终端中执行以下安装命令：

1	pip install vllm

验证安装成功

安装完成后，执行以下命令检查是否安装成功：

1	pip list \| grep vllm

若终端返回 vllm 对应的版本号，说明安装完成。

三、启动 OpenAI 兼容 API 服务

3.1 启动命令（复制即可使用，需修改模型路径）

在PyCharm远程终端中，执行以下命令启动OpenAI兼容的API服务（命令行换行用 \ 分隔，确保完整复制）：

python -m vllm.entrypoints.openai.api_server \
    --model /root/autodl-tmp/models/Qwen/Qwen3-8B-Instruct \
    --served-model-name qwen3-8b \
    --max-model-len 8k \
    --host 0.0.0.0 \
    --port 6006 \
    --dtype bfloat16 \
    --gpu-memory-utilization 0.8 \
    --enable-auto-tool-choice \
    --tool-call-parser hermes

核心参数说明（必看，方便后续自定义配置）

参数	作用说明
`--model`	模型本地绝对路径（需与下载完成后的实际路径一致，关键！）
`--served-model-name`	对外暴露的模型名称，API调用时需指定该名称
`--max-model-len 8k`	模型支持的最大上下文长度，Qwen3-8B-Instruct支持最高8k
`--host 0.0.0.0`	允许外部设备访问该服务（本地电脑、其他服务器），不可修改为127.0.0.1
`--port 6006`	服务端口，可自定义（如8080、9090），需确保端口未被占用且已放行
`--dtype bfloat16`	采用bfloat16精度运行，平衡推理速度与模型效果，同时节省大量显存
`--gpu-memory-utilization 0.8`	GPU内存利用率上限（80%），可根据显存大小调整（如显存不足可改为0.7）

启动成功标识

若终端输出 INFO: Uvicorn running on http://0.0.0.0:6006，说明服务已成功启动，保持终端窗口开启（关闭终端会终止服务）。

3.2 API 服务测试（验证部署效果）

服务启动后，通过以下两种测试方式验证是否可正常调用。

测试1：基础模型列表查询

在本地电脑终端（或服务器新终端窗口）执行以下 curl 命令：

1	curl http://<你的服务器IP>:6006/v1/models

替换 <你的服务器IP> 为实际公网IP，若返回包含 "id": "qwen3-8b" 的JSON格式数据，说明服务运行正常。

测试2：对话功能测试（实际调用模型生成回复）

在本地电脑终端执行以下 curl 命令，发送对话请求：

curl http://<你的服务器IP>:6006/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-8b",
    "messages": [
      {"role": "user", "content": "你好，请用一句话介绍你自己。"}
    ]
  }'

若返回包含模型回复内容的JSON数据，说明对话功能正常，私有化部署API服务搭建完成。

四、常见问题与避坑指南

端口不通，无法访问服务
- 排查步骤：① 确认服务器安全组/防火墙已放行 6006 端口（AutoDL在实例控制台「端口映射」中配置）；② 确认启动命令中 --host 为 0.0.0.0；③ 确认服务器IP填写正确，无端口号输入错误。
显存不足（OOM错误），启动失败
- 解决方案：① 降低 --gpu-memory-utilization 参数（如改为0.7或0.6）；② 将 --dtype bfloat16 改为 --dtype float16（进一步节省显存，少量损失效果）；③ 租用显存更大的GPU实例（如A100 40GB）。
关闭终端后，服务停止运行
- 解决方案：① 使用 nohup 命令后台运行（命令前加 nohup，结尾加 &，日志保存至 nohup.out）；② 安装 tmux/screen 工具，创建会话保持服务运行（适合长期部署）。
本地代码调用私有模型
- 核心配置：将OpenAI SDK的 api_base 改为 http://<你的服务器IP>:6006/v1，model 改为 qwen3-8b，即可像调用OpenAI官方API一样使用私有模型。