它能干嘛
Ollama 让你在自己的电脑上跑大语言模型。不用联网、不用 API Key、数据不出你的机器。Llama、DeepSeek、Qwen、Mistral——一行命令下载,一行命令跑起来。
适合:想玩模型但不想花钱充 API、处理敏感数据不能上云、断网环境下想有个 AI 用。
安装
brew install ollama
macOS 上装完它会在后台自动跑一个服务(端口 11434),不用手动启动。
Linux:
curl -fsSL https://ollama.com/install.sh | sh
第一把就玩起来
# 下模型
ollama pull llama3.3
# 跑起来
ollama run llama3.3
然后就能直接聊天了。想退敲 /bye。
如果不知道下哪个,推荐这几个:
ollama pull llama3.3 # Meta 的,英文强
ollama pull qwen3 # 阿里的,中英双语
ollama pull deepseek-r1:7b # DeepSeek 推理模型
ollama pull codellama # 专门写代码的
ollama pull mistral # 轻快,适合配置一般的机器
日常操作
# 看下了哪些模型
ollama list
# 一句话提问不聊天
ollama run llama3.3 "用 Go 写一个 HTTP server"
# 看模型详情
ollama show llama3.3
# 删掉不用的
ollama rm llama3.2
模型标签
模型使用 name:tag 格式区分版本:
ollama pull llama3.3 # :latest
ollama pull llama3.3:70b # 70B 大杯
ollama pull deepseek-r1:7b # 7B 小杯,配置低也能跑
机器内存不够就别碰 70B 了,7B-14B 日常玩玩完全够。
调参数
进了对话以后,/set 调各种参数:
>>> /set temperature 0.8 # 要不要创意,0-2,越高越放飞
>>> /set num_ctx 8192 # 上下文窗口
>>> /set num_predict 1024 # 最大输出长度
>>> /show parameters # 看当前是什么配置
定制自己的模型
用 Modelfile 基于已有模型创建自定义模型:
FROM llama3.3
SYSTEM "你是一个精通 Go 的后端工程师,回答简洁,给代码不给废话。"
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
ollama create my-coder -f Modelfile
ollama run my-coder
这样你就有了一个专属的编程助手,不需要每次对话都重新交代"你是后端工程师"。
API 接口
Ollama 提供了 HTTP API,默认 localhost:11434,跟 OpenAI 的格式兼容:
# Chat 风格
curl http://localhost:11434/api/chat -d '{
"model": "llama3.3",
"messages": [{"role": "user", "content": "介绍一下 Go 语言"}],
"stream": false
}'
# 直接生成
curl http://localhost:11434/api/generate -d '{
"model": "llama3.3",
"prompt": "写一个快速排序",
"stream": false
}'
代码里怎么用:
import requests
r = requests.post("http://localhost:11434/api/chat", json={
"model": "llama3.3",
"messages": [{"role": "user", "content": "写一个冒泡排序"}],
"stream": False
})
print(r.json()["message"]["content"])
局域网共享
家里有多台电脑,不想每台都下一遍模型:
# 让 Ollama 监听所有网卡
export OLLAMA_HOST=0.0.0.0:11434
然后其他机器就能通过 http://你电脑IP:11434 调用了。
几个有用的环境变量:
export OLLAMA_NUM_PARALLEL=4 # 同时处理几个请求
export OLLAMA_MAX_LOADED_MODELS=2 # 最多同时驻留几个模型在内存
模型存哪里了
- macOS:
~/.ollama/models/ - Linux:
/usr/share/ollama/.ollama/models/
磁盘告急时知道去哪砍。
配 Open WebUI
Ollama 本身只有命令行和 API,想要网页版界面就接 Open WebUI:
docker run -d -p 3000:8080 \
-v open-webui:/app/backend/data \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
--name open-webui \
ghcr.io/open-webui/open-webui:main
然后浏览器打开 http://localhost:3000 就能用了。
选模型参考
| 模型 | 大小 | 适合 |
|---|---|---|
| llama3.3 | 8B/70B | 通用对话,英文强 |
| deepseek-r1 | 7B-671B | 推理强,逻辑分析 |
| qwen3 | 0.6B-235B | 中文最好 |
| codellama | 7B-70B | 写代码 |
| mistral | 7B-8x22B | 快,轻量 |
| gemma3 | 1B-27B | Google 的 |
| llava | 7B/13B | 能看图的 |
性能贴士
- 7B 模型大概吃 8GB 内存,70B 要 40GB+
- Apple Silicon 自动用 GPU 加速,不用配
- Linux 上有 NVIDIA 卡会自动用 CUDA
- 模型默认 Q4_0 量化,精度和速度的折中
没了。下次断网的时候试试,你会发现本地有个 AI 跑着还挺踏实的。