以下是基于 Docker 部署的 Ollama 常用管理命令速查表,已按使用场景分类:
1. 容器生命周期管理
# 启动 / 停止 / 重启
docker start ollama
docker stop ollama
docker restart ollama
# 查看实时日志(排查问题必备)
docker logs -f ollama
# 进入容器内部 Shell
docker exec -it ollama bash
# 更新 Ollama 到最新版
docker pull ollama/ollama
docker stop ollama && docker rm ollama
# 然后重新执行之前的 docker run 启动命令(数据卷不会丢失)
2. 模型管理(核心操作)
💡 提示:以下命令均通过
docker exec在容器内执行,也可进入容器 Shell 后直接运行ollama xxx。
# 拉取模型
docker exec -it ollama ollama pull qwen2.5:7b # 指定版本
docker exec -it ollama ollama pull llama3.1 # 默认 latest
# 列出已下载的模型
docker exec -it ollama ollama list
# 查看模型详细信息(参数量、量化方式、文件大小等)
docker exec -it ollama ollama show qwen2.5:7b
# 删除模型(释放磁盘空间)
docker exec -it ollama ollama rm 模型名:标签
# 复制/重命名模型
docker exec -it ollama ollama cp qwen2.5:7b my-qwen:v1
3. 对话与测试
# 交互式对话
docker exec -it ollama ollama run qwen2.5:7b
# 单次提问(适合脚本调用)
docker exec -it ollama ollama run qwen2.5:7b "用Python写一个快排"
# 指定系统提示词
docker exec -it ollama ollama run qwen2.5:7b --system "你是一个资深Linux运维专家"
4. API 调用与服务检查
# 检查服务是否正常运行
curl -s http://localhost:11434/api/tags | python3 -m json.tool
# 流式对话请求
curl http://localhost:11434/api/chat -d '{
"model": "qwen2.5:7b",
"messages": [{"role": "user", "content": "你好"}],
"stream": true
}'
# 查看当前正在加载的模型及显存占用
curl -s http://localhost:11434/api/ps | python3 -m json.tool
# 卸载内存中的模型(释放显存)
curl -X POST http://localhost:11434/api/generate -d '{"model":"qwen2.5:7b","keep_alive":0}'
5. GPU 与性能监控
# 实时监控 GPU 使用率(每1秒刷新)
watch -n 1 nvidia-smi
# 查看 Docker 容器资源占用
docker stats ollama
# 确认容器是否正确识别 GPU
docker exec -it ollama nvidia-smi
注意事项
数据安全:所有模型存储在
ollama_data数据卷中,删除容器 (docker rm) 不会删除模型,但删除数据卷 (docker volume rm ollama_data) 会清空所有模型。显存管理:RTX 3060 (12GB) 同时只能加载一个 7B~9B 模型。如果切换模型时卡顿,可先用
api/ps检查旧模型是否已卸载。别名技巧:频繁操作可在宿主机添加快捷命令:
echo 'alias o="docker exec -it ollama ollama"' >> ~/.bashrc source ~/.bashrc # 之后可直接使用:o list / o pull xxx / o run xxx