DeepSeek R1本地化部署+web端访问+LLM交互平台

发表于2025-02-28|更新于2025-03-13|AIGC

|总字数:1.3k|阅读时长:4分钟|浏览量:

前言

针对DeepSeek高频次服务繁忙问题，本地化部署已成为用户实现稳定、高效AI交互的主流方案。通过本地部署，用户可在终端设备上构建私有化知识库系统，实现‌离线运行、数据隐私保护、低延迟响应‌等核心需求‌

本文将详细介绍如何基于DeepSeek R1+Ollama+Cherry Studio+Page Assist实现本地化部署，帮助您轻松搭建并使用DeepSeek服务。通过Web UI界面，您可以直接与模型进行交互式对话；同时，借助功能强大的交互平台架构，打造属于自己的专属AI聊天室变得轻而易举。

一、基础环境搭建

什么是Ollama

Ollama 是一个可以在本地轻松部署开源大语言模型（LLM）的工具框架，它允许开发者在本地环境中方便地运行和测试不同的语言模型，如 DeepSeek、Llama等。

官网地址：https://ollama.com/

github地址：https://github.com/ollama/ollama

安装Ollama

访问Ollama官网下载对应操作系统的安装包（Windows/macOS/Linux），完成一键安装‌

我这里以windows为例：

下载完成后进行安装：
安装验证

安装完成后，在powershell中输入ollama -v，如果显示版本号即安装成功

选择模型

各型号特性与硬件需求如下：

型号	CPU	内存	显卡（显存要求）	存储	适用场景	成本参考
‌1.5B‌	4核（Intel i5/Ryzen 5）	≥8GB	核显或低端独显（≥4GB）	≥20GB SSD	简单文本生成、轻量开发	个人级（2k-5k）
‌7B‌	8核（i7/Ryzen 7）	≥16GB	中端独显（RTX 3060，≥8GB）	≥50GB NVMe	代码生成、数据分析	入门级（5k-1.5w）
‌8B‌	8核（i7/Ryzen 7）	≥16GB	中高端独显（RTX 4060，≥10GB）	≥50GB NVMe	逻辑推理、轻量高精度任务	进阶级（1w-3w）
‌14B‌	12核（i9/Ryzen 9）	≥32GB	高端独显（RTX 4090，≥16GB）	≥100GB NVMe	复杂任务（合同分析、长文本）	企业级（3w-8w）
‌32B‌	16核（服务器级）	≥64GB	专业卡（A100 40GB）	≥200GB NVMe	多模态处理、专业领域咨询	高性能级（8w-15w）
‌70B‌	32核（双路Xeon/EPYC）	≥128GB	多卡集群（2x A100/H100）	≥500GB NVMe	科研级推理、大规模生成	科研级（15w-50w）
‌671B‌	多节点服务器	≥512GB ECC	分布式GPU集群（8x H100）	≥1TB NVMe	超大规模训练、AGI探索	顶尖级（50w+）

下载模型

根据选择好的模型进行拉取，详情可见ollama官网Models中的deepseek-r1，命令如下：

DeepSeek-R1-Distill-Qwen-1.5B

1	ollama run deepseek-r1:1.5b

DeepSeek-R1-Distill-Qwen-7B

1	ollama run deepseek-r1:7b

DeepSeek-R1-Distill-Llama-8B

1	ollama run deepseek-r1:8b

DeepSeek-R1-Distill-Qwen-14B

1	ollama run deepseek-r1:14b

DeepSeek-R1-Distill-Qwen-32B

1	ollama run deepseek-r1:32b

DeepSeek-R1-Distill-Llama-70B

1	ollama run deepseek-r1:70b

若出现success，则拉取完成，会自动启用该模型。如下图：

最佳实践

博主的配置是4080ti显卡，32G内存，i7 8086k CPU，使用的是deepseek-r1:14b，思考速度大约15s左右，CPU使用率80%左右，内存使用率40%，GPU 使用率54%，显存使用率92%。ollama全部加载在GPU中。可供各位小伙伴选择模型时参考。

CPU使用率：

GPU使用率：

ollama完全使用GPU：

在升级至DeepSeek-R1:32B这类专业级模型时，需配置显存更高且专业的显卡，由于模型参数量达320亿级别，显存不足会导致用户界面响应会出现明显卡顿，系统将自动调用大量系统内存进行补偿，单次任务处理时长普遍超过200秒。

各个版本占用的空间如下：

二、打造专属DeepSeek

安装Cherry Studio

前往Cherry Studio 官方网站，根据你的操作系统下载安装。

配置Cherry Studio

打开 Cherry Studio，在设置中找到模型服务

从模型列表中的Ollama选择与你本地部署的 DeepSeek-R1 模型版本对应的选项

默认模型中选择本地部署对应的模型
目前新版的Cherry Studio已支持网络搜索，在网络搜索中可以注册Tavily并设置api秘钥，注册账号可以用github或google

使用Cherry Studio

配置到这里就可以开始使用专属自己的DeepSeek了，如需使用网络搜索，可在助手页面点开“开启网络搜索”。智能体内也有一些预设的提示词可供食用。

三、配置使用Web UI

Page Assist是什么

Page Assist 是一款开源浏览器扩展程序，主要用于提升用户在网页浏览过程中与本地 AI 模型的交互效率，提供类似 ChatGPT 的 Web UI 界面，且支持用户与本地运行的 AI 模型（如 Ollama、Gemini Nano、DeepSeek 等）进行多轮对话‌。

安装与配置

Github 官网：https://github.com/n4ze3m/page-assist

首先打开Chrome浏览器，进入应用商店，搜索Page Assist，点击添加至Chrome：

添加后在浏览器右上角的扩展程序图标中打开它即可看到Web UI界面了：

点击右上角设置，可以修改语音识别语言和界面显示语言：

选择好本地搭建好的模型后即开始使用，并且可以开启搜索网络。

文章作者: 丘比特

文章链接: https://qiubite.fun/posts/9b071109.html

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源丘比特的小屋！

DeepSeek本地部署 ollama Cherry Studio LLM交互平台 Page Assist

评论

数据加载中