本地大模型部署配置

若你希望 Agent 完全在本地推理、不依赖云端 API，可在本机部署兼容 OpenAI API 的推理服务（如 Ollama、LM Studio、vLLM 等），再在 Mystilink 中接入。

适用场景

隐私敏感、希望数据不出本机
已有 GPU/CPU 资源，想复用开源模型
开发调试、离线环境

本地模型的理解与生文能力取决于所选权重，通常弱于云端旗舰模型；复杂玄学解读任务建议搭配更强模型或开启自动回退。

总体思路

本机推理服务（Ollama / LM Studio / …）
    ↓ 暴露 OpenAI 兼容 HTTP API
Mystilink Agent（openai-compatible Provider）
    ↓
对话、任务规划、撰写解读

Mystilink 不内置模型权重，只作为 客户端 调用你本地服务的 HTTP 接口。

方式一：Ollama（推荐入门）

Ollama 在 macOS / Windows / Linux 上安装简单，默认提供 OpenAI 兼容端点。

1. 安装并拉取模型

# 安装 Ollama 后，拉取模型（示例）
ollama pull qwen2.5:7b
ollama pull llama3.2

2. 确认服务地址

Ollama 默认监听：

项目	值
Base URL	`http://127.0.0.1:11434/v1`
模型 ID	与 `ollama list` 中名称一致，如 `qwen2.5:7b`
API Key	可填任意占位值，如 `ollama`（Ollama 默认不校验）

3. 在 Mystilink 中配置

推荐：自定义 Provider

设置 → 大模型 → 新建 Provider
模板选 自定义 Provider
填写：

字段	值
Provider ID	`ollama`
显示名称	`Ollama 本地`
API Family	`openai-compatible`
默认 Base URL	`http://127.0.0.1:11434/v1`
API Key	`ollama`（占位）
启用模型发现	可选（Ollama 支持 `/models`）

创建 Provider → 添加模型 → Provider 选 Ollama → 测试连接 → 模型 ID 填 qwen2.5:7b（或你已 pull 的模型）→ 保存。

备选：OpenAI 模板 + 覆写 URL

选择 OpenAI 模板，开启覆写 Base URL 为 http://127.0.0.1:11434/v1，API Key 填占位值，模型 ID 填 Ollama 模型名。

方式二：LM Studio

LM Studio 提供图形界面加载 GGUF 等格式模型，并可开启本地 OpenAI 兼容服务器。

1. 启动本地服务器

在 LM Studio 中下载并加载模型。
切换到 Local Server / 开发者 标签。
启动服务器，记下端口（默认常为 1234）。

2. Mystilink 配置

项目	值
Base URL	`http://127.0.0.1:1234/v1`
模型 ID	LM Studio 界面显示的模型标识
API Key	通常可留空或填 `lm-studio`

按自定义 Provider 流程创建，apiFamily 选 openai-compatible。

方式三：vLLM / llama.cpp server / text-generation-webui

以下工具同样可暴露 OpenAI 兼容 API，配置方式类似：

工具	典型 Base URL	说明
vLLM	`http://127.0.0.1:8000/v1`	启动时加 `--api-key` 则需在 Mystilink 填相同 Key
llama.cpp server	`http://127.0.0.1:8080/v1`	以实际启动参数为准
text-generation-webui	`http://127.0.0.1:5000/v1`	需在设置中启用 OpenAI 兼容 API 扩展

步骤：

按各项目文档启动服务并确认 curl 可访问 /v1/models 或 /v1/chat/completions。
在 Mystilink 创建 自定义 Provider，Base URL 指向该服务。
模型 ID 使用服务文档中的名称（常与 Hugging Face 模型名或本地别名一致）。
测试连接 后再保存。

局域网 / 远程机器上的模型

若推理服务运行在另一台设备（如带 GPU 的 Linux 服务器）：

确保 Mystilink 所在机器能访问该 IP 与端口（防火墙放行）。
Base URL 使用内网地址，例如 http://192.168.1.100:11434/v1。
勿将无鉴权的本地服务暴露到公网。

性能与能力提示

主题	说明
上下文长度	受模型与推理框架限制；长命盘/多轮对话可能需选 32k+ 上下文模型
Tool calling	Agent 依赖工具调用时，请选用支持 function calling 的本地模型与后端
速度	CPU 推理较慢；复杂任务建议使用 GPU 或较小模型作草稿、云端模型作回退
内存	7B 量化模型约需 4–8 GB 内存；70B 需更大显存

建议开启 不可用时自动回退，并保留一条云端官方模型作为备选。

故障排查

现象	处理
连接被拒绝	确认 Ollama/LM Studio 已启动；端口与 Base URL 一致
404 model not found	模型 ID 与本地已加载名称完全一致（含 tag，如 `:7b`）
测试极慢或超时	首次加载权重较慢；增大超时或换更小模型
Agent 无工具能力	换支持 tool calling 的模型，或改用云端模型

更多通用网络与 Key 问题见大模型连接问题。

总体思路​

方式一：Ollama（推荐入门）​

1. 安装并拉取模型​

2. 确认服务地址​

3. 在 Mystilink 中配置​

方式二：LM Studio​

1. 启动本地服务器​

2. Mystilink 配置​

方式三：vLLM / llama.cpp server / text-generation-webui​

局域网 / 远程机器上的模型​

性能与能力提示​

故障排查​

延伸阅读​