2022 年底 AI target=_blank class=infotextkey>OpenAI 發(fā)布 ChatGPT,隨后 2023 年大模型進(jìn)入了有史以來(lái)發(fā)展最快速的時(shí)候,在這一年中,相繼涌現(xiàn)了很多商業(yè)閉源或開源的大模型,本文就是通過(guò) Ollama 開源應(yīng)用程序?qū)㈤_源的大模型運(yùn)行在家用電腦之上。
Ollama 簡(jiǎn)介
Ollama 是一款開源應(yīng)用程序,可讓你通過(guò)命令行界面運(yùn)行、創(chuàng)建和共享大型語(yǔ)言模型。
支持的模型
Ollama 支持的可用開源模型列表網(wǎng)址:ollama.ai/library
下面是一些可下載的示例開源模型:
Model |
Parameters |
Size |
Download |
Llama 2 |
7B |
3.8GB |
ollama run llama2 |
Mistral |
7B |
4.1GB |
ollama run mistral |
Dolphin Phi |
2.7B |
1.6GB |
ollama run dolphin-phi |
Phi-2 |
2.7B |
1.7GB |
ollama run phi |
Neural Chat |
7B |
4.1GB |
ollama run neural-chat |
Starling |
7B |
4.1GB |
ollama run starling-lm |
Code Llama |
7B |
3.8GB |
ollama run codellama |
Llama 2 Uncensored |
7B |
3.8GB |
ollama run llama2-uncensored |
Llama 2 13B |
13B |
7.3GB |
ollama run llama2:13b |
Llama 2 70B |
70B |
39GB |
ollama run llama2:70b |
Orca Mini |
3B |
1.9GB |
ollama run orca-mini |
Vicuna |
7B |
3.8GB |
ollama run vicuna |
LLaVA |
7B |
4.5GB |
ollama run llava |
注意:本地運(yùn)行 7B 模型至少需要 8GB 的 RAM,運(yùn)行 13B 模型至少需要 16GB 的 RAM,如果運(yùn)行 33B 模型,則至少需要 32GB 的 RAM。
安裝和使用
1.本地方式安裝
使用一鍵安裝腳本進(jìn)行安裝:
$ curl https://ollama.ai/install.sh | sh
以服務(wù)方式重啟:
$ systemctl restart ollama
查看服務(wù)狀態(tài):
$ systemctl status ollama
查看服務(wù)日志:
$ journalctl -u ollama
使用腳本更新:
$ curl https://ollama.ai/install.sh | sh
運(yùn)行大模型:
$ ollama run codellama:7b-instruct
pulling manifest
pulling 3a43f93b78ec... 100% ▕████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 3.8 GB
pulling 8c17c2ebb0ea... 100% ▕████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 7.0 KB
pulling 590d74a5569b... 100% ▕████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 4.8 KB
pulling 2e0493f67d0c... 100% ▕████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 59 B
pulling 7f6a57943a88... 100% ▕████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 120 B
pulling 316526ac7323... 100% ▕████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 529 B
verifying sha256 digest
writing manifest
removing any unused layers
success
>>> Send a message (/? for help)
Ollama 會(huì)判別正在運(yùn)行的硬件并在可行的情況下調(diào)用 GPU 加速,不妨在推理時(shí)打開活動(dòng)監(jiān)視器或任務(wù)管理器觀察以驗(yàn)證。
運(yùn)行到這里,你本地的模型已經(jīng)運(yùn)行成功了,下面來(lái)簡(jiǎn)單使用下這個(gè)模型,輸入“請(qǐng)使用JAVA編寫一個(gè)冒泡排序方法”,讓其寫一個(gè)冒泡排序:

2.Docker 方式安裝
安裝 docker 后,我們可通過(guò) CPU 和 GPU 兩種方式運(yùn)行 ollama 容器。
CPU(默認(rèn))方式運(yùn)行 ollama 容器
$ docker run -d -v ollama:/root/.ollama -p 11434:11434
--name ollama ollama/ollama
GPU 方式運(yùn)行 ollama 容器
$ docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434
--name ollama ollama/ollama
運(yùn)行大模型:
$ docker exec -it ollama ollama run llama2