跳到主要内容

本地大模型部署配置

若你希望 Agent 完全在本地推理、不依赖云端 API,可在本机部署兼容 OpenAI API 的推理服务(如 OllamaLM StudiovLLM 等),再在 Mystilink 中接入。

适用场景
  • 隐私敏感、希望数据不出本机
  • 已有 GPU/CPU 资源,想复用开源模型
  • 开发调试、离线环境

本地模型的理解与生文能力取决于所选权重,通常弱于云端旗舰模型;复杂玄学解读任务建议搭配更强模型或开启 自动回退

总体思路

本机推理服务(Ollama / LM Studio / …)
↓ 暴露 OpenAI 兼容 HTTP API
Mystilink Agent(openai-compatible Provider)

对话、任务规划、撰写解读

Mystilink 不内置模型权重,只作为 客户端 调用你本地服务的 HTTP 接口。


方式一:Ollama(推荐入门)

Ollama 在 macOS / Windows / Linux 上安装简单,默认提供 OpenAI 兼容端点。

1. 安装并拉取模型

# 安装 Ollama 后,拉取模型(示例)
ollama pull qwen2.5:7b
ollama pull llama3.2

2. 确认服务地址

Ollama 默认监听:

项目
Base URLhttp://127.0.0.1:11434/v1
模型 IDollama list 中名称一致,如 qwen2.5:7b
API Key可填任意占位值,如 ollama(Ollama 默认不校验)

推荐:自定义 Provider

  1. 设置 → 大模型 → 新建 Provider
  2. 模板选 自定义 Provider
  3. 填写:
字段
Provider IDollama
显示名称Ollama 本地
API Familyopenai-compatible
默认 Base URLhttp://127.0.0.1:11434/v1
API Keyollama(占位)
启用模型发现可选(Ollama 支持 /models
  1. 创建 Provider添加模型 → Provider 选 Ollama → 测试连接 → 模型 ID 填 qwen2.5:7b(或你已 pull 的模型)→ 保存。

备选:OpenAI 模板 + 覆写 URL

选择 OpenAI 模板,开启覆写 Base URL 为 http://127.0.0.1:11434/v1,API Key 填占位值,模型 ID 填 Ollama 模型名。


方式二:LM Studio

LM Studio 提供图形界面加载 GGUF 等格式模型,并可开启本地 OpenAI 兼容服务器。

1. 启动本地服务器

  1. 在 LM Studio 中下载并加载模型。
  2. 切换到 Local Server / 开发者 标签。
  3. 启动服务器,记下端口(默认常为 1234)。
项目
Base URLhttp://127.0.0.1:1234/v1
模型 IDLM Studio 界面显示的模型标识
API Key通常可留空或填 lm-studio

自定义 Provider 流程创建,apiFamilyopenai-compatible


方式三:vLLM / llama.cpp server / text-generation-webui

以下工具同样可暴露 OpenAI 兼容 API,配置方式类似:

工具典型 Base URL说明
vLLMhttp://127.0.0.1:8000/v1启动时加 --api-key 则需在 Mystilink 填相同 Key
llama.cpp serverhttp://127.0.0.1:8080/v1以实际启动参数为准
text-generation-webuihttp://127.0.0.1:5000/v1需在设置中启用 OpenAI 兼容 API 扩展

步骤:

  1. 按各项目文档启动服务并确认 curl 可访问 /v1/models/v1/chat/completions
  2. 在 Mystilink 创建 自定义 Provider,Base URL 指向该服务。
  3. 模型 ID 使用服务文档中的名称(常与 Hugging Face 模型名或本地别名一致)。
  4. 测试连接 后再保存。

局域网 / 远程机器上的模型

若推理服务运行在另一台设备(如带 GPU 的 Linux 服务器):

  1. 确保 Mystilink 所在机器能访问该 IP 与端口(防火墙放行)。
  2. Base URL 使用内网地址,例如 http://192.168.1.100:11434/v1
  3. 将无鉴权的本地服务暴露到公网。

性能与能力提示

主题说明
上下文长度受模型与推理框架限制;长命盘/多轮对话可能需选 32k+ 上下文模型
Tool callingAgent 依赖工具调用时,请选用支持 function calling 的本地模型与后端
速度CPU 推理较慢;复杂任务建议使用 GPU 或较小模型作草稿、云端模型作回退
内存7B 量化模型约需 4–8 GB 内存;70B 需更大显存

建议开启 不可用时自动回退,并保留一条云端 官方模型 作为备选。


故障排查

现象处理
连接被拒绝确认 Ollama/LM Studio 已启动;端口与 Base URL 一致
404 model not found模型 ID 与本地已加载名称完全一致(含 tag,如 :7b
测试极慢或超时首次加载权重较慢;增大超时或换更小模型
Agent 无工具能力换支持 tool calling 的模型,或改用云端模型

更多通用网络与 Key 问题见 大模型连接问题


延伸阅读