穷鬼博主是怎么跑本地模型的

穷鬼博主再次上线了，今天想聊聊，我之前是怎么跑本地模型的，以及现在为什么不了。

2024 年初，我去外地工作之前，就动过配一台电脑跑本地模型的念头。结果这事一拖再拖，没过几个月，看中的显卡突然涨价，也就不了了之了。直到 2025 年初，我还是心痒，觉得这东西不折腾一下，总归不死心。

我自己有个理论：一样东西，如果过了几个月还是想要，那多半就是真的想要。我对这事心心念念将近一年，也算是诚意十足了。于是货比三家了半天，最后犹犹豫豫地下了单。

因为当时我也不确定这东西对我来说到底是真有用，还是纯噱头，所以原则只有一个：能省则省。以下配件基本都是二手的，具体型号大家见图吧：

CPU

Image

内存

Image

硬盘

Image

主板

Image

显卡

Image

显卡这里还挺曲折的。一开始我想先试试纯 CPU 跑起来是什么感觉，后来发现确实太慢了，于是升级到 6G 那款；再后来又觉得显存还是太小，于是继续升级，换成了 16G 的 P100。

总的来说，如果不算后面加购的那张 P100，前前后后总花费大概就在一千元左右，勉强还能接受。反正就是抱着玩玩、研究一下的心态去折腾，钱就算扔了，也不至于太心疼。

那本地模型到底能拿来干什么？

当时对我来说，主要有三个用途。

第一个用途，是在 VS Code 里搭配 Continue 或者 RooCode 这类插件，用 7B 甚至更小的模型做代码补全。当然现在回头看，这已经有点像上个时代的功能了。

第二个用途，是拿来当本地聊天机器人，也就是离线版的 ChatGPT。本地模型的一个好处，是全程不用联网，也不用花钱买 API 或者订阅各种套餐。当然，大多数人真正在意的，其实还是两个字：自由。

能本地跑的模型大多是开源的，Hugging Face 上还有很多大神会放出各种魔改后的无审核版本。这类模型没有那种“这个话题太敏感了，我们换个话题吧”之类的限制，基本上你让它聊什么，它多少都会给点反应。只要不是那种特别人神共愤的话题，一般都问题不大。

那自然会有很多人拿这种模型去写色情小说，或者玩所谓的“酒馆”，让模型做各种角色扮演，可以说这些是本地开源大语言模型的最大的应用之一了。

第三个用途，就是文生图和视频。这也是当时少数几个开源模型还能和闭源模型掰掰手腕的方向。像 Stable Diffusion、ComfyUI 都是当时很常见的配套工具，很多人把生图这个过程叫“炼丹”。各种模型层出不穷，后来 Flux 系列、阿里的 Qwen Image，还有 Wan 系列模型，也都能生成效果不错的图片和视频。

我当时也试着用各种各样的本地模型写小说，会让它朝各种奇怪、刺激的方向去开展情节，来试探它的想象力和审查的边界，总的来说初试比较惊艳，写到后来就有点循环往复，没有新意。

而且我那时跑本地大语言模型，基本上还是以纯 CPU 为主。写一段几百字的小说，十分钟很正常。不过我之前在 Reddit 上查过，很多人也提到，如果你不是特别在意流式对话的实时性，其实慢一点问题也不大。它一边跑，我一边干自己的事就行。等 CPU 的轰鸣声停下来，我就知道它答完了。

我印象中，为了让模型跑得快一点，我后来干脆抛弃了 Ollama，直接用 llama.cpp 跑。另外我在研究参数的时候发现，其实模型处理输入内容的速度还挺快，真正慢的是后面一点一点往外吐字的过程。那时候我就在想，有没有一种工作流，是 prompt 可以很长，但模型每次只回答“是”或者“否”，这样输出量大幅减少，整体效率说不定会高很多。不过后来因为本地模型的质量实在比不过线上的闭源模型，所以我也就没有再继续深究下去。

除了文本，我也拿本地模型生成过不少图片。几个月下来，我估计跑出一万多张图应该是有的。这个东西就不是 CPU 能硬扛的了，这也是后来我为什么升级 GPU 的原因。我一般会在睡前开一堆任务，然后戴上耳塞，伴随着显卡的轰鸣声（英伟达的计算卡配上我淘宝买的风扇说是轰鸣声绝对不为过）入睡，早上起来检查跑图的成果。

虽然现在像 Grok Image、豆包这些模型也已经做得不错了，但是在自由度上还是比不了开源模型的。

总的来说，本地模型对我而言，更多还是玩票性质，真正能落到生产力上的东西并不多。这也是为什么我现在已经不跑本地模型了。

我一直看到网上有人在问“我这个配置能跑多大多大的本地模型”之类的问题。以前看到这种帖子，我也会忍不住畅想，自己是不是也能整一台穷鬼版出来。但现在我基本想明白了：就算你花几万块配一台机器，跑出来的本地模型，大概率还是远远比不上 ChatGPT 5.4、Claude Opus 或者 Sonnet 这一类闭源模型。与其砸几万块买硬件，不如老老实实拿去订阅服务。几万块钱，连 Anthropic 最贵的套餐估计都能用到想吐。