提升工作效率必备！Ollama + Open webui 目前最优的大语言LLM模型的本地部署方案 | Llama3 | Gemma | Mistral | Phi3

Ollama

Ollama介绍

Ollama是一个开源大模型综合管理和使用平台，不仅单模态模型，还支持多模态模型，以及正在开发支持扩散模型！Ollama目前支持多平台，在macOS、Linux、Windows上都可以运行使用！

官方网站：https://ollama.com

安装Ollama

直接从下载页面下载相对应系统的安装程序，Windows安装程序选择Windows的安装包，点击“Download for Windows(Preview)”

下载下来的exe文件双击安装即可！

安装完成之后，打开一个cmd命令窗口，输入“ollama”命令，如果显示ollama相关的信息就证明安装已经成功了！

微信截图_20240429162725.jpg

使用ollama下载模型

我们安装ollama完成之后，需要下载大模型，可以直接通过cmd命令提示窗口来与大模型进行交互！不过这种方式体验感不好，我们后面会介绍我们熟悉的类似ChatGPT的网页交互的方式Open webui去使用。

Ollama的大模型默认保存的路径是：

macOS: ~/.ollama/models.

Linux: /usr/share/ollama/.ollama/models.

Windows: C:\Users\\.ollama\models

但是文件模型比较多，比较大我们最好是换下存放路径，在系统环境变量里面添加变量名和变量值。

变量名：OLLAMA_MODELS

变量值：填写自己设置的具体路径

微信截图_20240429185650.jpg

微信截图_20240429191003.jpg

Ollama的模型库提供了多种大型语言模型供用户选择。你可以通过访问Ollama模型库来找到并下载你需要的模型。

模型库的地址：https://ollama.com/library

Huggingface模型库的地址：https://huggingface.co/models?language=zh

1.从模型库选择一个模型

2.选择一个版本，然后点击后面的复制命令按钮

3.直接将复制的命令粘贴到cmd命令窗口，回车执行即可进入到模型的下载过程！

微信截图_20240429190805.jpg

常用模型介绍和下载命令：

Llama 3大模型：

Meta Llama 3是Meta公司最新推出的大型开源语言模型（LLM）。它提供了两个预训练和指令调优的版本，分别是8B和70B参数的模型，以支持广泛的应用场景。Llama 3在语言细微差别、上下文理解和复杂任务如翻译和对话生成方面表现出色。它还在可扩展性和性能方面进行了增强，能够轻松处理多步骤任务，同时通过改进的训练后处理程式，显著降低了错误拒绝率，提高了响应对齐度，并增加了模型答案的多样性。

Llama 3已经在我们最近宣布的两个定制24K GPU集群上接受了超过15T令牌的数据训练，这是Llama 2使用的训练数据集的7倍，包括4倍更多的代码。这使得Llama 3成为迄今为止最有能力的Llama模型，支持8K上下文长度，是Llama 2容量的两倍。

Meta Llama 3的发布，也更新了负责任使用指南（RUG），提供了关于LLMs负责任开发的最全面信息。他们的系统中心方法包括更新了信任和安全工具Llama Guard 2，优化以支持MLCommons发布的新分类法，扩大了对更全面的安全类别的覆盖，包括Code Shield和Cybersec Eval 2。

ollama run llama3:instruct

Phi-3大模型：

Phi-3是微软最近推出的一系列开放AI模型，旨在重新定义小型语言模型（SLMs）的可能性。Phi-3模型以其卓越的性能和高效的成本而著称，超越了同等大小和稍大一号的模型，在各种语言、推理、编码和数学基准测试中表现优异。

Phi-3系列包括Phi-3-mini、Phi-3-small和Phi-3-medium三个不同规模的版本。Phi-3-mini是一个3.8B的语言模型，它不仅可以在传统计算设备上运行，还可以在移动设备和IoT设备上运行。Phi-3-mini支持高达128K令牌的上下文窗口，这是其类别中首个支持此功能的模型。

此外，Phi-3-mini已经针对ONNX Runtime进行了优化，支持Windows DirectML，并且具有跨平台支持，包括GPU、CPU甚至移动硬件。它还作为NVIDIA NIM微服务提供，具有标准API接口，可以在任何地方部署，并且已针对NVIDIA GPU进行了优化。

ollama run phi3:instruct

Qwen大模型：

通义千问（Qwen）是阿里云推出的大型语言模型，旨在理解和生成人类语言。它是阿里云通义官网的核心产品，能够帮助用户解决生活和工作中的问题，充当智能助手。Qwen系列包括不同规模的模型，如Qwen-1.8B、Qwen-7B、Qwen-14B和Qwen-72B，以及相应的聊天模型Qwen-Chat。

Qwen模型在多语言数据上进行了大规模的预训练，覆盖了广泛的领域和语言（重点是中文和英文），在基准数据集上展现出竞争性能。这些模型能够进行聊天、内容创作、信息提取、总结、翻译、编码、解决数学问题等，并且能够使用工具、扮演代理或甚至充当代码解释器等多种功能。

ollama run qwen:7b

LLaVA大模型：

LLaVA（Large Language and Vision Assistant）是一个大型多模态模型，它结合了视觉编码器和语言模型，以实现视觉和语言理解。LLaVA通过使用GPT-4生成的指令调整数据，展示了令人印象深刻的聊天和问答性能，能够在未见过的图像和指令上表现出色。

LLaVA的特点包括：

NeurIPS’23 Oral 论文中提出的视觉指令调整（Visual Instruction Tuning），旨在实现类似GPT-4V级别的能力。 LLaVA-NeXT（LLaVA-1.6）版本通过额外的扩展，能够处理更多像素，并执行比以前更多的任务和应用1。在一些基准测试中，LLaVA-NeXT-34B的性能超过了Gemini Pro。 LLaVA-1.5版本通过简单的修改，就能在11个基准测试中达到最先进的水平，使用的是所有公开数据，并且在单个8-A100节点上大约1天内完成训练。

ollama run llava:7b

Mistral大模型：

Mistral AI是一个提供前沿人工智能技术的公司，它为开发者和企业提供开放且可移植的生成型AI。Mistral AI的产品包括Mistral 7B、Mixtral 8x7B和Mixtral 8x22B等开源模型，这些模型可以自由使用和定制，适用于多种用例。Mistral AI的模型在性能、效率和附加功能方面进行了优化，提供了高性能的商业模型，如Mistral Small和Mistral Large。

Mistral 7B是一个参数为7.3B的模型，它在所有基准测试中都超过了Llama 2 13B，在许多基准测试中超过了Llama 1 34B，并接近CodeLlama 7B在代码任务上的性能，同时在英语任务上也表现良好。Mistral 7B使用分组查询注意力（GQA）进行更快的推理，并使用滑动窗口注意力（SWA）以较小的成本处理更长的序列。Mistral 7B已经在Apache 2.0许可下发布，可以无限制地使用。您可以下载并在任何环境中使用它，包括本地部署，也可以在任何云平台（AWS/GCP/Azure）上部署，或者在HuggingFace上使用。Mistral 7B易于在任何任务上进行微调，作为示范，提供了一个针对聊天进行微调的模型，该模型在聊天方面的性能超过了Llama 2 13B。

ollama run mistral:7b

WizardLM-2大模型：

WizardLM-2是微软最近发布的一系列开源大型语言模型。这个新系列包括三个不同规模的模型：WizardLM-2 8x22B、WizardLM-2 70B和WizardLM-2 7B。这些模型在复杂聊天、多语言处理、推理和代理任务方面的性能有所提高。

WizardLM-2 8x22B 是目前开源模型中性能最佳的模型，它在高度复杂的任务上展示出与最先进的专有作品如GPT-4-Turbo和Glaude-3相媲美的性能。 WizardLM-2 70B 在推理能力方面达到顶级水平，是同等规模模型中的首选。 WizardLM-2 7B 是速度最快的模型，与现有的10倍大的开源领先模型具有可比的性能。

ollama run wizardlm2:7b

Gemma大模型：

Gemma是Google推出的一系列轻量级、先进的开放模型。这些模型包括Gemma 2B和Gemma 7B两种规模，即使与一些更大的开放模型相比，也能取得卓越的基准测试结果。Gemma模型与Keras 3.0兼容，支持JAX、TensorFlow和PyTorch，使开发者可以根据任务需求轻松选择和切换框架。

Gemma系列还包括CodeGemma和RecurrentGemma两个变体：

CodeGemma：利用原始预训练的Gemma模型基础，提供强大的代码完成和生成能力，适合在本地计算机上使用。 RecurrentGemma：技术上有所不同，采用循环神经网络和局部注意力机制，以提高内存效率。 Gemma模型最适合在Google Cloud上运行，通过端到端的TPU优化，提供市场领先的性能和总体拥有成本。您还可以通过Keras 3.0在JAX中进行低秩适应，将Gemma模型适配到您独特的领域和数据。

ollama run gemma:7b

如果想了解从cmd命令窗口和大模型交互的方式，你可以继续往下看，如果使用Open webui的可以直接跳过！

使用ollama与大模型交互

可以通过如下的命令来查看模型列表

ollama list

通过 ollama run命令，你可以运行特定的模型。例如 ollama run qwen:7b，将启动qwen模型。

Open WebUI

Open WebUI介绍

程序官网：https://openwebui.com

open webui GitHub主页：https://github.com/open-webui/open-webui

Open WebUI 是一个可扩展、功能丰富且用户友好的自托管 WebUI，旨在完全离线操作。它支持各种 LLM 运行程序，包括 Ollama和 OpenAI 兼容的 API。还可以通过AUTOMATIC1111和ComfyUI的API来整合稳定扩散模型，实现LLM指导SD来生成图片！

特点⭐

🖥️直观的界面：我们的聊天界面从 ChatGPT 中汲取灵感，确保用户友好的体验。
📱响应式设计：在桌面和移动设备上享受无缝体验。
⚡快速响应：享受快速响应的性能。
🚀轻松设置：使用 Docker 或 Kubernetes（kubectl、kustomize 或 helm）无缝安装，以获得无忧体验。
🌈主题定制：从各种主题中进行选择，个性化您的 Open WebUI 体验。
💻代码语法突出显示：通过我们的语法突出显示功能增强代码的可读性。
✒️🔢完整的 Markdown 和 LaTeX 支持：通过全面的 Markdown 和 LaTeX 功能来丰富交互，提升您的 LLM 体验。
📚本地 RAG 集成：通过突破性的检索增强生成 (RAG) 支持深入了解聊天交互的未来。此功能将文档交互无缝集成到您的聊天体验中。您可以将文档直接加载到聊天中或将文件添加到文档库中，使用 #提示中的命令轻松访问它们。在 alpha 阶段，当我们积极完善和增强此功能以确保最佳性能和可靠性时，可能会偶尔出现问题。
🔍 RAG 嵌入支持：直接在文档设置中更改 RAG 嵌入模型，增强文档处理。此功能支持 Ollama 和 OpenAI 模型。
🌐网页浏览功能 #：使用URL 后的命令将网站无缝集成到您的聊天体验中。此功能允许您将网络内容直接合并到您的对话中，从而增强交互的丰富性和深度。
📜提示预设支持 /：使用聊天输入中的命令立即访问预设提示。轻松加载预定义的对话开头并加快您的互动。通过Open WebUI Community集成轻松导入提示。
👍👎 RLHF 注释：通过对消息进行“赞成”和“反对”评级来增强您的消息，然后选择提供文本反馈，从而促进根据人类反馈 (RLHF) 创建强化学习数据集。利用您的消息来训练或微调模型，同时确保本地保存数据的机密性。
🏷️对话标记：轻松分类和定位特定聊天，以便快速参考和简化数据收集。
📥🗑️下载/删除模型：直接从 Web UI 轻松下载或删除模型。
🔄更新所有 Ollama 模型：使用方便的按钮一次轻松更新本地安装的模型，简化模型管理。
⬆️ GGUF 文件模型创建：通过直接从 Web UI 上传 GGUF 文件，轻松创建 Ollama 模型。简化的流程，可选择从您的计算机上传或从 Hugging Face 下载 GGUF 文件。
🤖多模型支持：不同聊天模型之间无缝切换，实现多样化交互。
🔄多模式支持：与支持多模式交互的模型无缝交互，包括图像（例如 LLava）。
🧩模型文件生成器：通过 Web UI 轻松创建 Ollama 模型文件。通过开放 WebUI 社区集成轻松创建和添加角色/代理、自定义聊天元素以及导入模型文件。
⚙️多个模特对话：轻松地同时与多个模特互动，利用他们的独特优势来获得最佳响应。通过并行利用一组不同的模型来增强您的体验。
💬协作聊天：通过无缝编排群组对话来利用多个模型的集体智慧。使用 @命令指定模型，在聊天界面中启用动态且多样化的对话。让自己沉浸在聊天环境中的集体智慧中。
🗨️本地聊天共享：在用户之间无缝生成和共享聊天链接，增强协作和沟通。
🔄再生历史访问：轻松重新访问和探索您的整个再生历史。
📜聊天历史记录：轻松访问和管理您的对话历史记录。
📬存档聊天：轻松存储与法学硕士的完整对话以供将来参考，保持聊天界面整洁有序，同时方便检索和参考。
📤📥导入/导出聊天历史记录：将您的聊天数据无缝移入和移出平台。
🗣️语音输入支持：通过语音交互与您的模型互动；享受直接与模特交谈的便利。此外，探索在 3 秒静音后自动发送语音输入的选项，以获得简化的体验。
🔊可配置的文本转语音端点：使用可配置的 OpenAI 端点自定义您的文本转语音体验。
⚙️使用高级参数进行微调控制：通过调整温度等参数和定义系统提示来获得更深层次的控制，以根据您的特定偏好和需求定制对话。
🎨🤖图像生成集成：使用 AUTOMATIC1111 API（本地）、ComfyUI（本地）和 DALL-E 等选项无缝集成图像生成功能，通过动态视觉内容丰富您的聊天体验。
🤝 OpenAI API 集成：轻松集成 OpenAI 兼容 API，与 Ollama 模型进行多功能对话。自定义 API 基本 URL 以链接到LMStudio、Mistral、OpenRouter 等。
✨多种 OpenAI 兼容 API 支持：无缝集成和定制各种 OpenAI 兼容 API，增强聊天交互的多功能性。
🔑 API 密钥生成支持：生成密钥以利用 Open WebUI 和 OpenAI 库，简化集成和开发。
🔗外部 Ollama 服务器连接：通过配置环境变量无缝链接到托管在不同地址上的外部 Ollama 服务器。
🔀多个 Ollama 实例负载平衡：轻松地在多个 Ollama 实例之间分配聊天请求，以增强性能和可靠性。
👥多用户管理：通过我们直观的管理面板轻松监督和管理用户，简化用户管理流程。
🔗 Webhook 集成：通过 webhook 订阅新用户注册事件（兼容 Google Chat 和 Microsoft Teams），提供实时通知和自动化功能。
🛡️模型白名单：管理员可以将具有“用户”角色的用户的模型列入白名单，从而增强安全性和访问控制。
📧可信电子邮件身份验证：使用可信电子邮件标头进行身份验证，添加额外的安全和身份验证层。
🔐基于角色的访问控制（RBAC）：通过受限的权限确保安全访问；只有经过授权的个人才能访问您的 Ollama，并且为管理员保留专有的模型创建/拉取权限。
🔒后端反向代理支持：通过 Open WebUI 后端和 Ollama 之间的直接通信增强安全性。这一关键功能消除了通过 LAN 公开 Ollama 的需要。从 Web UI 向“/ollama/api”路由发出的请求会从后端无缝重定向到 Ollama，从而增强整体系统安全性。
🌐🌍多语言支持：借助我们的国际化 (i18n) 支持，以您喜欢的语言体验开放式 WebUI。加入我们，扩展我们支持的语言！我们正在积极寻找贡献者！
🌟持续更新：我们致力于通过定期更新和新功能来改进 Open WebUI。

安装Open WebUI

安装Docker Desktop

可以直接下载安装文件进行安装，文件下载地址：https://www.docker.com/products/docker-desktop/

微信截图_20240430015931-rhtn.jpg

在下拉选框中选择windows的安装文件下载，下载完成之后双击安装即可！

检查是否安装成功可以打开一个cmd窗口，或者powershell窗口，输入“docker –-version”，如果可以正常显示docker的版本信息，则说明安装已经成功！

微信截图_20240430021903.jpg

docker默认是安装在C盘中，docker运行时下载的程序镜像文件也是保存在C盘！在windows下docker下载的镜像文件默认保存在“C:\Users\MN\AppData\Local\Docker”文件夹中；

微信截图_20240430024830.jpg

如果你需要在docker中运行的程序较多的话，一定要保证C盘有充足的磁盘空间！也可以通过Docker Desktop经常将docker中没用的镜像文件及时删除，也可以通过cmd命令来删除指定的文件

删除停止的容器：

docker container prune

删除未被任何容器引用的镜像：

docker image prune -a

删除未使用的网络：

docker network prune

删除未使用的卷：

docker volume prune

一键清除所有未使用的对象（包括镜像、容器、卷和网络）：

docker system prune -a

安装Open WebUI

在docker desktop处于运行状态的情况下，随便打开一个cmd命令窗口，然后输入如下的命令来安装open webui

使用CPU运行

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

使用GPU运行

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway --gpus=all -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

安装完成之后，可以通过本地地址：http://127.0.0.1:3000 进行访问

微信截图_20240430025434.jpg

Open WebUI使用指南

初始化设置

首次登录open webui需要注册一个账号，点击“Sign up”

微信截图_20240430030521.jpg

填写“name”、“Email”、“Password”之后，点击“Create Account”，创建一个账户

微信截图_20240430030456.jpg

初次登入系统默认是英文界面，可以通过“设置”-“General”-“Language”来设置为“Chinese(Simplified)”简体中文！保存设置！

微信截图_20240430031047.jpg

使用作画功能

如何在open webui中调用Automatic1111的api来生成图片，请参考如下的操作

修改webui-user.bat

要在open webui中调用automatic1111的api接口，我们首先需要修改automatic1111的启动文件，打开并监听api；

在automatic1111的项目根目录中找到“webui-user.bat”批处理文件，右键点击，选择“编辑”，用记事本打开该文件，在“set COMMANDLINE_ARGS=”参数后面加上“-–api -–listen”

修改之后保存文件！

设置Open WebUI

1.点击“设置”按钮；

2.选择“图像”设置；

3.点击图像生成开关，打开图像生成功能；

4.在“AUTOMATIC1111基础URL”一栏输入下面的链接：

http://host.docker.internal:7860

5.点击链接后面的“刷新”按钮；

6.点击了“刷新”按钮之后，就可以获取到本地AUTOMATIC1111的模型列表，可以从下拉列表中选择你喜欢的SD模型；

7.设置图片尺寸，默认为512×512，如果选择了一个SDXL模型，这里可以设置为1024×1024，或者其他SDXL支持的分辨率；

8.设置迭代步数，默认50步；

9.保存设置；

微信截图_20240430095002.jpg

生成图片

按照正常的聊天方式，向LLM发送一个生成图片的请求，LLM会根据你的请求对画面进行描述，然后点击后面的“生成图片”按钮

微信截图_20240430095716.jpg

程序就会通过API调用AUTOMATIC1111来生成一张相对应的图片，这是后台自动在运算

微信截图_20240430095412.jpg

最终反馈到Open WebUI并且显示在LLM答案的顶部

微信截图_20240430095814.jpg

ComfyUI同理操作

设置好对应的选项

微信截图_20240430100349.jpg

前台选好模型，输入图片生成的提示词，按图片按钮生成

微信截图_20240430095716.jpg

ComfyUI后台自动运算

微信截图_20240430100419.jpg

最终反馈到Open WebUI并且显示在LLM答案的顶部

总结

Ollama+Open WebUI的方案是一个非常卓越的整合方案，不仅可以本地统一管理和使用单模态和多模态的各种大模型，还可以本地整合LLM（大语言模型）和SD（稳定扩散模型）甚至是TTS（文本转语音）等各种AIGC程序和模型！是非常值得学习和熟练掌握的开源方案！

目录CONTENT

提升工作效率必备！Ollama + Open webui 目前最优的大语言LLM模型的本地部署方案 | Llama3 | Gemma | Mistral | Phi3

提升工作效率必备！Ollama + Open webui 目前最优的大语言LLM模型的本地部署方案 | Llama3 | Gemma | Mistral | Phi3

Ollama

Ollama介绍

安装Ollama

使用ollama下载模型

Llama 3大模型：

Phi-3大模型：

Qwen大模型：

LLaVA大模型：

Mistral大模型：

WizardLM-2大模型：

Gemma大模型：

使用ollama与大模型交互

Open WebUI

Open WebUI介绍

特点⭐

安装Open WebUI

安装Docker Desktop

安装Open WebUI

使用CPU运行

使用GPU运行

Open WebUI使用指南

初始化设置

使用作画功能

修改webui-user.bat

设置Open WebUI

生成图片

ComfyUI同理操作

总结

评论区