家中台式机性能还可以,能运行个本地小模型,正好用于实战,搜搜攻略开搞。
本地部署LLM语言大模型
Step1:下载安装Ollama
打开浏览器,访问 Ollama官网:https://ollama.com/
点击大大的 “Download” 按钮,然后选择 “Download for Windows”。
下载后,双击安装程序,一路点击”Next”即可。安装程序会自动处理环境变量等配置。
安装完成后,Ollama会在后台作为一个服务运行(你可以在任务栏右下角看到一个小小的羊驼图标)。
Step2:验证安装并拉取模型
打开Windows的“终端”或“命令提示符(CMD)”。
输入以下命令并回车:
1 | ollama --version |
如果安装成功,它会显示Ollama的版本号。
选择并拉取你的第一个模型。 我为你精选了3个不同特色的模型,让你感受一下:
通用全能王 (主力模型):
llama3:8b
Meta最新发布的模型,综合能力极强,代码能力和英文对话能力顶尖。是目前8B尺寸的王者。
在终端输入:
1
ollama pull llama3:8b
你会看到它开始下载模型文件(大约4.7GB)。请耐心等待。
中文小钢炮:
qwen2:7b
阿里巴巴通义千问的最新开源模型,对中文的理解和生成能力非常出色。
在终端输入:
1
ollama pull qwen2:7b
多模态新星(能看图):
llava:latest
这是一个多模态模型,不仅能对话,还能“看懂”图片的内容。
在终端输入:
1
ollama pull llava
Step3:运行并与本地LLM对话
拉取完成后,我们先来运行
llama3:8b
。在终端输入:1
ollama run llama3:8b
稍等片刻,当看到
>>> Send a message (/? for help)
的提示时,恭喜你!你的本地AI大脑已经启动并等着你提问了。现在,直接输入你的问题,例如:
你是谁?
按回车,模型会开始一个词一个词地生成答案。你会直观地感受到它在你自己的电脑上“思考”的过程。
要退出对话,可以输入
/bye
。要尝试其他模型,比如qwen2:7b
,只需再次运行ollama run qwen2:7b
。
Step4:验证GPU是否在工作
这是确保你获得最佳性能的关键一步。
- 在与模型对话时(当它正在快速生成文本时),按下
Ctrl + Shift + Esc
打开Windows的“任务管理器”。 - 点击左侧的“性能”选项卡。
- 在左侧列表中,找到你的 NVIDIA GeForce RTX 4070 SUPER 并点击它。
- 观察右侧的图表。你应该能看到 “3D” 或 “Cuda” 图表有明显的活动(利用率飙升),并且 “专用GPU内存” 使用量会显著上升(对于8B模型,大约会占用5-6GB)。
如果能看到GPU活动,那就完美了! 这意味着Ollama已经成功调用了你的显卡进行加速,你正在享受“满血”的本地LLM性能。如果GPU没有活动,通常是因为NVIDIA驱动程序问题,请确保更新到最新版Game Ready或Studio驱动。