前言

针对DeepSeek高频次服务繁忙问题,本地化部署已成为用户实现稳定、高效AI交互的主流方案。通过本地部署,用户可在终端设备上构建私有化知识库系统,实现‌离线运行、数据隐私保护、低延迟响应‌等核心需求‌

本文将详细介绍如何基于DeepSeek R1+Ollama+Cherry Studio+Page Assist实现本地化部署,帮助您轻松搭建并使用DeepSeek服务。通过Web UI界面,您可以直接与模型进行交互式对话;同时,借助功能强大的交互平台架构,打造属于自己的专属AI聊天室变得轻而易举。

一、基础环境搭建

  1. 什么是Ollama

​ Ollama 是一个可以在本地轻松部署开源大语言模型(LLM)的工具框架,它允许开发者在本地环境中方便地运行和测试不同的语言模型,如 DeepSeek、Llama等。

​ 官网地址:https://ollama.com/

​ github地址:https://github.com/ollama/ollama

  1. 安装Ollama

  • 访问Ollama官网下载对应操作系统的安装包(Windows/macOS/Linux),完成一键安装‌

    我这里以windows为例:

    image-20250228214909456

    下载完成后进行安装:

    image-20250228215430924

  • 安装验证

    安装完成后,在powershell中输入ollama -v,如果显示版本号即安装成功

    image-20250228215845649

  1. 选择模型

各型号特性与硬件需求如下:

型号 CPU 内存 显卡(显存要求) 存储 适用场景 成本参考
‌1.5B‌ 4核(Intel i5/Ryzen 5) ≥8GB 核显或低端独显(≥4GB) ≥20GB SSD 简单文本生成、轻量开发 个人级(2k-5k)
‌7B‌ 8核(i7/Ryzen 7) ≥16GB 中端独显(RTX 3060,≥8GB) ≥50GB NVMe 代码生成、数据分析 入门级(5k-1.5w)
‌8B‌ 8核(i7/Ryzen 7) ≥16GB 中高端独显(RTX 4060,≥10GB) ≥50GB NVMe 逻辑推理、轻量高精度任务 进阶级(1w-3w)
‌14B‌ 12核(i9/Ryzen 9) ≥32GB 高端独显(RTX 4090,≥16GB) ≥100GB NVMe 复杂任务(合同分析、长文本) 企业级(3w-8w)
‌32B‌ 16核(服务器级) ≥64GB 专业卡(A100 40GB) ≥200GB NVMe 多模态处理、专业领域咨询 高性能级(8w-15w)
‌70B‌ 32核(双路Xeon/EPYC) ≥128GB 多卡集群(2x A100/H100) ≥500GB NVMe 科研级推理、大规模生成 科研级(15w-50w)
‌671B‌ 多节点服务器 ≥512GB ECC 分布式GPU集群(8x H100) ≥1TB NVMe 超大规模训练、AGI探索 顶尖级(50w+)
  1. 下载模型

根据选择好的模型进行拉取,详情可见ollama官网Models中的deepseek-r1,命令如下:

DeepSeek-R1-Distill-Qwen-1.5B

1
ollama run deepseek-r1:1.5b

DeepSeek-R1-Distill-Qwen-7B

1
ollama run deepseek-r1:7b

DeepSeek-R1-Distill-Llama-8B

1
ollama run deepseek-r1:8b

DeepSeek-R1-Distill-Qwen-14B

1
ollama run deepseek-r1:14b

DeepSeek-R1-Distill-Qwen-32B

1
ollama run deepseek-r1:32b

DeepSeek-R1-Distill-Llama-70B

1
ollama run deepseek-r1:70b

​ 若出现success,则拉取完成,会自动启用该模型。如下图:

image-20250228233009280

  1. 最佳实践

​ 博主的配置是4080ti显卡,32G内存,i7 8086k CPU,使用的是deepseek-r1:14b,思考速度大约15s左右,CPU使用率80%左右,内存使用率40%,GPU 使用率54%,显存使用率92%。ollama全部加载在GPU中。可供各位小伙伴选择模型时参考。

CPU使用率:

image-20250228233855506

GPU使用率:

image-20250228235552545

ollama完全使用GPU:

image-20250228235643561

在升级至DeepSeek-R1:32B这类专业级模型时,需配置显存更高且专业的显卡,由于模型参数量达320亿级别,显存不足会导致用户界面响应会出现明显卡顿,系统将自动调用大量系统内存进行补偿,单次任务处理时长普遍超过200秒。

各个版本占用的空间如下:

image-20250301000848810

二、打造专属DeepSeek

  1. 安装Cherry Studio

​ 前往Cherry Studio 官方网站,根据你的操作系统下载安装。

  1. 配置Cherry Studio

​ 打开 Cherry Studio,在设置中找到模型服务

  • 从模型列表中的Ollama选择与你本地部署的 DeepSeek-R1 模型版本对应的选项

image-20250301003054702

image-20250301003232975

  • 默认模型中选择本地部署对应的模型

    image-20250301003723515

  • 目前新版的Cherry Studio已支持网络搜索,在网络搜索中可以注册Tavily并设置api秘钥,注册账号可以用github或google

image-20250301004004172

  1. 使用Cherry Studio

​ 配置到这里就可以开始使用专属自己的DeepSeek了,如需使用网络搜索,可在助手页面点开“开启网络搜索”。智能体内也有一些预设的提示词可供食用。

image-20250301005242312

image-20250301005303173

三、配置使用Web UI

  1. Page Assist是什么

​ Page Assist 是一款开源浏览器扩展程序,主要用于提升用户在网页浏览过程中与本地 AI 模型的交互效率,提供类似 ChatGPT 的 Web UI 界面,且支持用户与本地运行的 AI 模型(如 Ollama、Gemini Nano、DeepSeek 等)进行多轮对话‌。

  1. 安装与配置

Github 官网:https://github.com/n4ze3m/page-assist

首先打开Chrome浏览器,进入应用商店,搜索Page Assist,点击添加至Chrome:

image-20250301010423793

添加后在浏览器右上角的扩展程序图标中打开它即可看到Web UI界面了:

image-20250301010539620

点击右上角设置,可以修改语音识别语言和界面显示语言:

image-20250301010730076

选择好本地搭建好的模型后即开始使用,并且可以开启搜索网络。

image-20250301010939030