家中台式机性能还可以,能运行个本地小模型,正好用于实战,搜搜攻略开搞。

本地部署LLM语言大模型

Step1:下载安装Ollama

打开浏览器,访问 Ollama官网:https://ollama.com/

点击大大的 “Download” 按钮,然后选择 “Download for Windows”。

下载后,双击安装程序,一路点击”Next”即可。安装程序会自动处理环境变量等配置。

安装完成后,Ollama会在后台作为一个服务运行(你可以在任务栏右下角看到一个小小的羊驼图标)。

Step2:验证安装并拉取模型

打开Windows的“终端”或“命令提示符(CMD)”。

输入以下命令并回车:

1
ollama --version

如果安装成功,它会显示Ollama的版本号。

选择并拉取你的第一个模型。 我为你精选了3个不同特色的模型,让你感受一下:

  • 通用全能王 (主力模型): llama3:8b

    • Meta最新发布的模型,综合能力极强,代码能力和英文对话能力顶尖。是目前8B尺寸的王者。

    • 在终端输入:

      1
      ollama pull llama3:8b
    • 你会看到它开始下载模型文件(大约4.7GB)。请耐心等待。

  • 中文小钢炮: qwen2:7b

    • 阿里巴巴通义千问的最新开源模型,对中文的理解和生成能力非常出色。

    • 在终端输入:

      1
      ollama pull qwen2:7b
  • 多模态新星(能看图): llava:latest

    • 这是一个多模态模型,不仅能对话,还能“看懂”图片的内容。

    • 在终端输入:

      1
      ollama pull llava

Step3:运行并与本地LLM对话

  1. 拉取完成后,我们先来运行llama3:8b。在终端输入:

    1
    ollama run llama3:8b
  2. 稍等片刻,当看到 >>> Send a message (/? for help) 的提示时,恭喜你!你的本地AI大脑已经启动并等着你提问了。

  3. 现在,直接输入你的问题,例如: 你是谁?

  4. 按回车,模型会开始一个词一个词地生成答案。你会直观地感受到它在你自己的电脑上“思考”的过程。

  5. 要退出对话,可以输入 /bye。要尝试其他模型,比如qwen2:7b,只需再次运行 ollama run qwen2:7b

Step4:验证GPU是否在工作

这是确保你获得最佳性能的关键一步。

  1. 在与模型对话时(当它正在快速生成文本时),按下 Ctrl + Shift + Esc 打开Windows的“任务管理器”。
  2. 点击左侧的“性能”选项卡。
  3. 在左侧列表中,找到你的 NVIDIA GeForce RTX 4070 SUPER 并点击它。
  4. 观察右侧的图表。你应该能看到 “3D”“Cuda” 图表有明显的活动(利用率飙升),并且 “专用GPU内存” 使用量会显著上升(对于8B模型,大约会占用5-6GB)。

如果能看到GPU活动,那就完美了! 这意味着Ollama已经成功调用了你的显卡进行加速,你正在享受“满血”的本地LLM性能。如果GPU没有活动,通常是因为NVIDIA驱动程序问题,请确保更新到最新版Game Ready或Studio驱动。