Skip to content
 ollama

Ollama

Discord

快速上手大型语言模型。

macOS

下载

Windows

下载

Linux

curl -fsSL https://ollama.com/install.sh | sh

手动安装说明

Docker

官方 Ollama Docker 镜像 ollama/ollama 可在 Docker Hub 上获取。

快速入门

要运行并与 Llama 3.2 聊天:

ollama run llama3.2

模型库

Ollama 支持在 ollama.com/library 上提供的模型列表。

以下是一些可以下载的示例模型:

ModelParametersSizeDownload
Llama 3.23B2.0GBollama run llama3.2
Llama 3.21B1.3GBollama run llama3.2:1b
Llama 3.2 Vision11B7.9GBollama run llama3.2-vision
Llama 3.2 Vision90B55GBollama run llama3.2-vision:90b
Llama 3.18B4.7GBollama run llama3.1
Llama 3.170B40GBollama run llama3.1:70b
Llama 3.1405B231GBollama run llama3.1:405b
Phi 3 Mini3.8B2.3GBollama run phi3
Phi 3 Medium14B7.9GBollama run phi3:medium
Gemma 22B1.6GBollama run gemma2:2b
Gemma 29B5.5GBollama run gemma2
Gemma 227B16GBollama run gemma2:27b
Mistral7B4.1GBollama run mistral
Moondream 21.4B829MBollama run moondream
Neural Chat7B4.1GBollama run neural-chat
Starling7B4.1GBollama run starling-lm
Code Llama7B3.8GBollama run codellama
Llama 2 Uncensored7B3.8GBollama run llama2-uncensored
LLaVA7B4.5GBollama run llava
Solar10.7B6.1GBollama run solar

NOTE

你应该至少有 8 GB 的 RAM 来运行 7B 模型,16 GB 的 RAM 来运行 13B 模型,以及 32 GB 的 RAM 来运行 33B 模型。

自定义模型

从 GGUF 导入

Ollama 支持在 Modelfile 中导入 GGUF 模型:

  1. 创建一个名为 Modelfile 的文件,并在其中包含一个 FROM 指令,该指令指向你想要导入的模型的本地文件路径。

    FROM ./vicuna-33b.Q4_0.gguf
  2. 在 Ollama 中创建模型

    ollama create example -f Modelfile
  3. 运行模型

    ollama run example

从 PyTorch 或 Safetensors 导入

有关导入模型的更多信息,请参阅指南

自定义提示

来自 Ollama 库的模型可以通过提示进行自定义。例如,要自定义 llama3.2 模型:

ollama pull llama3.2

创建一个 Modelfile

FROM llama3.2

# set the temperature to 1 [higher is more creative, lower is more coherent]
PARAMETER temperature 1

# set the system message
SYSTEM """
You are Mario from Super Mario Bros. Answer as Mario, the assistant, only.
"""

接下来,创建并运行模型:

ollama create mario -f ./Modelfile
ollama run mario
>>> hi
Hello! It's your friend Mario.

对于更多示例,请参阅 examples 目录。有关如何使用 Modelfile 的更多信息,请参阅 Modelfile 文档。

命令行参考

创建模型

ollama create 用于从 Modelfile 创建模型。

ollama create mymodel -f ./Modelfile

拉取模型

ollama pull llama3.2

此命令也可以用于更新本地模型。只有差异部分会被拉取。

删除模型

ollama rm llama3.2

复制模型

ollama cp llama3.2 my-model

多行输入

对于多行输入,你可以用 """ 包裹文本:

>>> """Hello,
... world!
... """
I'm a basic program that prints the famous "Hello, world!" message to the console.

多模态模型

ollama run llava "What's in this image? /Users/jmorgan/Desktop/smile.png"
The image features a yellow smiley face, which is likely the central focus of the picture.

将提示作为参数传递

$ ollama run llama3.2 "Summarize this file: $(cat README.md)"
 Ollama is a lightweight, extensible framework for building and running language models on the local machine. It provides a simple API for creating, running, and managing models, as well as a library of pre-built models that can be easily used in a variety of applications.

显示模型信息

ollama show llama3.2

列出你计算机上的模型

ollama list

列出当前已加载的模型

ollama ps

停止当前正在运行的模型

ollama stop llama3.2

启动 Ollama

ollama serve 用于在不运行桌面应用程序的情况下启动 Ollama。

构建

参见 开发者指南

运行本地构建

接下来,启动服务器:

./ollama serve

最后,在单独的 shell 中运行模型:

./ollama run llama3.2

REST API

Ollama 拥有一个用于运行和管理模型的 REST API。

生成响应

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt":"Why is the sky blue?"
}'

与模型聊天

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    { "role": "user", "content": "why is the sky blue?" }
  ]
}'

请参阅 API 文档 以获取所有端点的信息。

社区集成

Web 与桌面端

云服务

终端

Apple Vision Pro

数据库

软件包管理器

移动端

  • Enchanted
  • Maid
  • Ollama App(现代且易于使用的多平台 Ollama 客户端)
  • ConfiChat(轻量级、独立、多平台且注重隐私的 LLM 聊天界面,可选加密)

扩展与插件

支持的后端

  • llama.cpp 项目由 Georgi Gerganov 创立。