ollama-大模型的部署与使用

Posted 5 days ago Updated 5 days ago

By Administrator

260~334 min read

linux

curl -fsSL https://ollama.com/install.sh | sh

因为安装过程有使用github相关资源，国内访问会有问题，需要加速。或者使用docker进行安装。各大云平台都有提供docker加速方法。

ollama的所有命令

Available Commands:
  serve       Start ollama
  create      Create a model from a Modelfile
  show        Show information for a model
  run         Run a model
  stop        Stop a running model
  pull        Pull a model from a registry
  push        Push a model to a registry
  list        List models
  ps          List running models
  cp          Copy a model
  rm          Remove a model
  help        Help about any command
  
# 查看给定模型的模型文件
ollama show --modelfile llama3.2

python中使用

在python中使用的时候应该先保证服务器中启动了ollama serve,否则会报如下错误:

ConnectionError: Failed to connect to Ollama. Please check that Ollama is downloaded, running and accessible. https://ollama.com/download

安装方式

pip install ollama

使用方式

from ollama import chat
from ollama import ChatResponse

response: ChatResponse = chat(model='llama3.2', messages=[
  {
    'role': 'user',
    'content': 'Why is the sky blue?',
  },
])
print(response['message']['content'])
# or access fields directly from the response object
print(response.message.content)

Model File的指令

使用方式：

创建模型文件./Modelfile
使用以下命令创建模型：ollama create choose-a-model-name -f ./Modelfile
运行模型：ollama run choose-a-model-name

指令	描述
FROM（必需）	定义要使用的基模型。
PARAMETER	设置 Ollama 运行模型时的参数。
TEMPLATE	要发送到模型的完整提示模板。
SYSTEM	指定模板中将设置的系统消息。
ADAPTER	定义要应用于模型的 (Q)LoRA 适配器。
LICENSE	指定法律许可。
MESSAGE	指定消息历史。

PARAMETER

参数	描述	类型	示例用法
num_ctx	设置用于生成下一个标记的上下文窗口大小。（默认值：2048）	整数	num_ctx 4096
repeat_last_n	设置模型回溯多远以防止重复。（默认值：64，0 = 禁用，-1 = num_ctx）	整数	repeat_last_n 64
repeat_penalty	设置对重复的惩罚强度。更高的值（例如 1.5）会更严格地惩罚重复，而较低的值（例如 0.9）会更宽松。（默认值：1.1）	浮点数	repeat_penalty 1.1
temperature	设置模型的温度。提高温度会使模型回答更具创造性。（默认值：0.8）	浮点数	temperature 0.7
seed	设置用于生成的随机数种子。设置为特定数字会使模型对相同提示生成相同文本。（默认值：0）	整数	seed 42
stop	设置停止序列。当遇到此模式时，LLM 将停止生成文本并返回。可以通过在模型文件中指定多个单独的停止参数来设置多个停止模式。	字符串	stop "AI assistant:"
num_predict	设置生成文本时预测的最大标记数量。（默认值：-1，无限生成）	整数	num_predict 42
top_k	减少生成无意义内容的概率。更高的值（例如 100）会生成更多样化的答案，而较低的值（例如 10）会更保守。（默认值：40）	整数	top_k 40
top_p	与 top-k 配合使用。更高的值（例如 0.95）会生成更多样化的文本，而较低的值（例如 0.5）会生成更专注和保守的文本。（默认值：0.9）	浮点数	top_p 0.9
min_p	作为 top_p 的替代方案，旨在确保质量和多样性的平衡。参数 p 表示相对于最可能标记的概率，一个标记被考虑的最小概率。例如，当 p=0.05 且最可能标记的概率为 0.9 时，概率小于 0.045 的标记将被过滤掉。（默认值：0.0）	浮点数	min_p 0.05

TEMPLATE

TEMPLATE 是传递到模型中的完整提示模板。它可以包括（可选）系统消息、用户消息以及模型的响应。注意：语法可能因模型而异。模板使用 Go 模板语法。

模板变量：

变量	描述
{{ .System }}	用于指定自定义行为的系统消息。
{{ .Prompt }}	用户提示消息。
{{ .Response }}	模型的响应。在生成响应时，此变量之后的文本将被忽略。

示例：

TEMPLATE """{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}{{ if .Prompt }}<|im_start|>user
{{ .Prompt }}<|im_end|>
{{ end }}<|im_start|>assistant
"""

使用modelscope加速模型的下载

搜索对应的模型,比如qwen，找到想要使用的模型，复制名称，前边添加modelscope.cn/
使用ollama run modelscope.cn/Qwen/Qwen3-8B-GGUF

其他问题

部分模型的运行需要更新大ollama的新版

运维, 大模型应用

License: CC BY 4.0