穷鬼博主再次上线了,今天想聊聊,我之前是怎么跑本地模型的,以及现在为什么不了。
2024 年初,我去外地工作之前,就动过配一台电脑跑本地模型的念头。结果这事一拖再拖,没过几个月,看中的显卡突然涨价,也就不了了之了。直到 2025 年初,我还是心痒,觉得这东西不折腾一下,总归不死心。
我自己有个理论:一样东西,如果过了几个月还是想要,那多半就是真的想要。我对这事心心念念将近一年,也算是诚意十足了。于是货比三家了半天,最后犹犹豫豫地下了单。
因为当时我也不确定这东西对我来说到底是真有用,还是纯噱头,所以原则只有一个:能省则省。以下配件基本都是二手的,具体型号大家见图吧:
CPU
Image
内存
Image
硬盘
Image
主板
Image
显卡
Image
Image
Image
显卡这里还挺曲折的。一开始我想先试试纯 CPU 跑起来是什么感觉,后来发现确实太慢了,于是升级到 6G 那款;再后来又觉得显存还是太小,于是继续升级,换成了 16G 的 P100。
总的来说,如果不算后面加购的那张 P100,前前后后总花费大概就在一千元左右,勉强还能接受。反正就是抱着玩玩、研究一下的心态去折腾,钱就算扔了,也不至于太心疼。
那本地模型到底能拿来干什么?
当时对我来说,主要有三个用途。
第一个用途,是在 VS Code 里搭配 Continue 或者 RooCode 这类插件,用 7B 甚至更小的模型做代码补全。当然现在回头看,这已经有点像上个时代的功能了。
第二个用途,是拿来当本地聊天机器人,也就是离线版的 ChatGPT。本地模型的一个好处,是全程不用联网,也不用花钱买 API 或者订阅各种套餐。当然,大多数人真正在意的,其实还是两个字:自由。
能本地跑的模型大多是开源的,Hugging Face 上还有很多大神会放出各种魔改后的无审核版本。这类模型没有那种“这个话题太敏感了,我们换个话题吧”之类的限制,基本上你让它聊什么,它多少都会给点反应。只要不是那种特别人神共愤的话题,一般都问题不大。
那自然会有很多人拿这种模型去写色情小说,或者玩所谓的“酒馆”,让模型做各种角色扮演,可以说这些是本地开源大语言模型的最大的应用之一了。
第三个用途,就是文生图和视频。这也是当时少数几个开源模型还能和闭源模型掰掰手腕的方向。像 Stable Diffusion、ComfyUI 都是当时很常见的配套工具,很多人把生图这个过程叫“炼丹”。各种模型层出不穷,后来 Flux 系列、阿里的 Qwen Image,还有 Wan 系列模型,也都能生成效果不错的图片和视频。
我当时也试着用各种各样的本地模型写小说,会让它朝各种奇怪、刺激的方向去开展情节,来试探它的想象力和审查的边界,总的来说初试比较惊艳,写到后来就有点循环往复,没有新意。
而且我那时跑本地大语言模型,基本上还是以纯 CPU 为主。写一段几百字的小说,十分钟很正常。不过我之前在 Reddit 上查过,很多人也提到,如果你不是特别在意流式对话的实时性,其实慢一点问题也不大。它一边跑,我一边干自己的事就行。等 CPU 的轰鸣声停下来,我就知道它答完了。
我印象中,为了让模型跑得快一点,我后来干脆抛弃了 Ollama,直接用 llama.cpp 跑。另外我在研究参数的时候发现,其实模型处理输入内容的速度还挺快,真正慢的是后面一点一点往外吐字的过程。那时候我就在想,有没有一种工作流,是 prompt 可以很长,但模型每次只回答“是”或者“否”,这样输出量大幅减少,整体效率说不定会高很多。不过后来因为本地模型的质量实在比不过线上的闭源模型,所以我也就没有再继续深究下去。
除了文本,我也拿本地模型生成过不少图片。几个月下来,我估计跑出一万多张图应该是有的。这个东西就不是 CPU 能硬扛的了,这也是后来我为什么升级 GPU 的原因。我一般会在睡前开一堆任务,然后戴上耳塞,伴随着显卡的轰鸣声(英伟达的计算卡配上我淘宝买的风扇说是轰鸣声绝对不为过)入睡,早上起来检查跑图的成果。
虽然现在像 Grok Image、豆包这些模型也已经做得不错了,但是在自由度上还是比不了开源模型的。
总的来说,本地模型对我而言,更多还是玩票性质,真正能落到生产力上的东西并不多。这也是为什么我现在已经不跑本地模型了。
我一直看到网上有人在问“我这个配置能跑多大多大的本地模型”之类的问题。以前看到这种帖子,我也会忍不住畅想,自己是不是也能整一台穷鬼版出来。但现在我基本想明白了:就算你花几万块配一台机器,跑出来的本地模型,大概率还是远远比不上 ChatGPT 5.4、Claude Opus 或者 Sonnet 这一类闭源模型。与其砸几万块买硬件,不如老老实实拿去订阅服务。几万块钱,连 Anthropic 最贵的套餐估计都能用到想吐。