返回AI變現指南
變現指南高級

2026 本地 LLM 完整指南:LM Studio 上手、模型選擇與硬體配置一次看懂

2026 Local LLM Guide: LM Studio Setup, Models, and Hardware

2026年3月15日
易賺Ai團隊
41 分鐘閱讀
#本地LLM#LM Studio#硬體配置#Mac Mini#NVIDIA#Qwen 3.5#GGUF#AI教學
2026 本地 LLM 完整指南:LM Studio 上手、模型選擇與硬體配置一次看懂

2026 本地 LLM 完整指南:LM Studio 上手、模型選擇與硬體配置一次看懂

很多人第一次聽到「本地 大型語言模型」,心裡會先冒出兩個念頭:會不會很難?會不會很貴?

這種擔心很正常。前兩年如果你想在自己的電腦上跑模型,常常得先碰命令列、裝一堆套件、研究顯卡、再承受一輪又一輪的報錯。可是在 2026 年,情況真的不一樣了。現在的本地 AI 已經從少數人折騰的玩具,慢慢變成一般使用者也能上手的工具。

如果你重視隱私、不想一直付月費,或只是想在沒有網路的環境下仍然可以寫作、整理文件、做摘要、翻譯內容、聊天問答,那本地 AI 已經很值得你認真看一次。

這篇文章會用人話把整件事講清楚。你會看到:

  • 為什麼越來越多人把 AI 搬回自己電腦
  • 2026 年最值得注意的本地模型
  • 硬體到底要看什麼,不再只靠「越貴越好」猜
  • 為什麼 LM Studio 會成為很多人的第一套本地 AI 工具
  • 怎麼用 Qwen 3.5-4B 當第一個示範模型
  • 如果出現記憶體不足、下載失敗、回答怪怪的,該怎麼處理

為什麼 2026 年大家開始認真跑本地 LLM?

最核心的原因,其實不是「酷」,而是「掌控感」。

1. 你的資料真的留在你手上

不論是工作文件、私人筆記、研究草稿、客戶資料,還是你不想上傳的 PDF,本地模型的最大價值,就是資料不必先送上雲端。對很多人來說,這不只是隱私問題,也是安心感問題。

2. 花一次硬體錢,比一直付月費更踏實

如果你每個月都在訂閱不同 AI 服務,久了很容易有一種感覺:工具很多,但帳單也越來越多。本地模型當然不是完全零成本,因為你還是要有能跑得動的設備,但至少它把支出從「持續扣款」變成「一次投入」。

3. 沒網路也能用

這一點很多人平常不會特別想,但一旦遇到出差、飛機、訊號不穩、公司網路限制,價值就會瞬間浮現。你不用等雲端回應,也不用擔心服務突然塞車。

4. 比起雲端工具,本地工具更像自己的工作台

你可以自由換模型、換量化版本、換聊天設定、換資料夾、換文件來源。你不一定每次都要追求「最強」,但你能決定自己要怎麼用。

5. 2026 年的工具成熟度已經夠高了

這是最重要的一點。今天的本地 AI 不是只有命令列。你已經可以透過桌面介面搜尋模型、下載模型、聊天、讀文件、啟動本機 API、調整參數,甚至把它當成一個自己的小型 AI 服務來用。


先搞懂一件事:你不是在「訓練」模型

很多人會把「跑本地模型」和「自己訓練一個模型」混在一起,這是最常見的誤會之一。

你現在做的事情,多半是:

  1. 下載別人已經訓練好的開源模型
  2. 用適合自己電腦的格式把它載入
  3. 在本機跟它對話、摘要、問答、整理文件

也就是說,你是在「使用模型」,不是在從零打造一個模型。

LM Studio 很適合這種需求,但它不是拿來從零訓練模型的工廠,也不是你一打開就可以把閉源商用模型整包搬到本機的魔法工具。這個觀念先分清楚,後面很多事情就不會混亂。


2026 年值得留意的本地模型有哪些?

2026 年的本地模型發展,已經很明顯走向兩條路:

  • 一條是更長的 Context Window,也就是一次能讀更多內容
  • 一條是更強的推理能力,尤其是在數學、邏輯、科學與程式任務上

如果你要先建立概念,可以先認識下面幾個家族。

1. Llama 4 系列:本地部署的明星班底

Llama 4 仍然是很多人談本地部署時第一個會提到的系列。

  • Scout:主打超長上下文,適合一次讀很長的資料,像是整份報告、長篇文件、甚至大型專案說明
  • Maverick:採用 MoE(混合專家模型) 架構,實際推理時不會每次都把全部參數一起動起來,所以在大模型路線裡比較有「大而不笨重」的感覺

如果你是重度文件整理、長文理解、知識庫問答的使用者,Llama 4 很值得關注。

2. Qwen 3.5 系列:中文使用者絕對首選

如果你是華語使用者,我會很直接地說:Qwen 3.5 幾乎是目前的本地部署標竿。它針對指令遵循、長文本理解與多語言環境做了極大優化。

以下是 Qwen 3.5 家族的具體模型與建議配置:

  • Qwen 3.5-27B/28B:本地編碼 (Coding) 與複雜邏輯的「甜點級」模型。建議顯存 16GB - 24GB。它在 4-bit 量化下可以完美塞入 RTX 4090 或 5080。
  • Qwen 3.5-9B:筆記本電腦首選,平衡了文件分析與對話性能。建議顯存/RAM 8GB - 12GB
  • Qwen 3.5-4B:輕量級多模態底座,適合快速原型開發或中階設備。建議顯存 6GB
  • Qwen 3.5-2B:端側主力。甚至可以在高效能手機上流暢運行,支持基本的圖像與文字理解。建議顯存 4GB
  • Qwen 3.5-0.8B:極致輕量,適合邊緣運算或非常簡單的意圖識別任务。建議顯存 2GB

3. 特別推薦:Qwen 3.5-35B-A3B (MoE)

這是一個 2026 年非常火紅的 MoE(混合專家模型)。它的名字中 35B-A3B 代表:

  • Total Parameters (35B):模型總共有 350 億顆參數,這決定了它的「知識深度」。
  • Active Parameters (3B):每次推理時,實際上只有 30 億顆參數在工作的 「Active(啟動)」 狀態。

為什麼它很強? 因為它既有 35B 等級的聰明才智,卻只消耗 3B 等級的運算效能(速度極快)。對於顯存夠大(如 24GB+)但追求秒回速度的用戶來說,這是神級選擇。

4. DeepSeek V3 / R1:推理導向的重量級選手

DeepSeek 這幾年一直是開源模型圈非常有存在感的一條線,尤其在推理類任務上,常常會讓人覺得「這不像開源模型」。

如果你的使用情境偏向:

  • 數學題
  • 邏輯推理
  • 技術分析
  • 多步驟思考

那 DeepSeek 很值得你列進候選清單。


第一次下載模型,應該怎麼選?

如果你現在只是想「先成功跑起來」,我建議你用這個原則:

最安全的起手式

  • 第一個模型:Qwen 3.5-4B
  • 第一個目標:先讓聊天能正常運作
  • 第一個任務:摘要一段文字、改寫一封訊息、整理一份筆記
  • 第一個心態:先求穩,再求大

很多新手第一次失敗,不是因為 LM Studio 難,而是因為一上來就下載太大的模型,結果卡在記憶體不足、速度太慢、回答還沒跑完人先失去耐心。


硬體到底看什麼?先看這 4 件事

跑本地模型時,很多人會先看 CPU 型號,但真正關鍵的通常是下面這幾項。

1. VRAM 才是重點中的重點

如果你是 PC 用戶,顯卡的顯存通常是影響體驗的第一要素。因為模型能不能大比例丟到 GPU 上跑,差很多。

2. 系統記憶體也不能太小

就算你有顯卡,系統記憶體還是會影響載入、緩衝、文件處理與大上下文對話。16GB 是比較像樣的起點,32GB 會舒服很多。

3. CPU 不是沒用,但通常不是第一瓶頸

沒有獨顯也不是完全不能用,你還是可以跑小模型,只是速度可能慢很多。對於只想體驗本地 AI 的人來說,CPU-only 並非不行,但不要期待像雲端模型那樣流暢。

4. 儲存空間也要預留

模型不是小檔案。不同 GGUF 版本一個就可能是幾 GB 到十幾 GB 起跳。如果你打算多裝幾個版本,硬碟空間記得先留。


2026 年硬體配置:不再只是看顯存

在 2026 年,本地 AI 硬體已經分成了兩大陣營:PC (NVIDIA 顯卡)Mac (Apple Silicon)

1. Mac Mini & Mac Studio:目前的「性價比王者」

為什麼 2026 年大家都在推 Mac Mini (M2/M4 Pro 系列)?原因在於它的 「統一記憶體 (Unified Memory)」 架構。

  • 優勢: 一般 PC 的記憶體和顯存是分開的,但 Mac 把兩者合一。如果你買一台 64GB RAM 的 Mac,AI 模型幾乎可以完整吃到超過 40-50GB 的空間,這讓你能在萬元級預算內跑動 35B 甚至 70B 的大模型。
  • 建議: 對於新手,Mac Mini M4 (16GB/32GB RAM) 是最穩定的起點。只要一台小方塊,就能流暢跑動 Qwen 3.5-4B 甚至 7B 的模型。

2. NVIDIA PC:生產力的天花板

如果你是 Windows 使用者,唯一的重點就是顯卡(GPU)的顯存。在 2026 年,我們建議優先考慮 RTX 40 系列與最新的 RTX 50 系列,因為它們對本地推理的優化(如新一代 Tensor Core 與更大的 L2 緩存)有顯著進步。

  • 實用主流 (RTX 4060 Ti 16GB / RTX 4070 Ti): 16GB 顯存是一個甜蜜點,能流暢運行大多數 7B-14B 的主流模型。
  • 旗艦性能 (RTX 4090 / RTX 5080 24GB): 這兩張卡擁有 24GB 大顯存,是家用玩家的高端選擇,能極速生成文字(Token/s),支撐複雜的自動化任務。
  • 專業頂尖 (RTX 5090): 2026 年效能之王,具備極強的推理吞吐量。

💡 進階工具推介: 想知道你目前的配備跑某個模型到底有多快?推薦使用我們站內的 LLM 算力計算器,輸入你的硬體規格,直接幫你估算每秒生成的 Token 速度。

3. NVIDIA DGX & Spark 專業工作站

如果你是企業或是需要 24/7 不間斷推理的開發者:

  • DGX Station: 這是一台「裝在箱子裡的超級電腦」,通常配備 4-8 張 A100/H200 等級的算力卡,總顯存可達數百GB,適合團隊共用或處理超大規模數據。
  • NVIDIA Spark / Precision 系列: 這些專業工作站強調的是「低噪音」與「高穩定度」,適合放在辦公室而不是機房。

硬體等級與模型推薦表

下面這張表幫助你快速對照:

配置等級典型設備比較適合的模型
輕量入門16GB RAM Mac Mini / RTX 4060Qwen 3.5-2B/4B、Llama 4 (Scout)
實用主流Mac Mini M4 (32GB) / RTX 4070 Ti (16GB)Qwen 3.5-9B、Qwen 3.5-27B (Q3/Q4)
進階生產力Mac Studio (64GB) / RTX 4090/5080Qwen 3.5-27B/28B、Qwen 3.5-35B-A3B
企業/發燒友NVIDIA DGX / RTX 5090 工作站Llama 4 (70B+)、DeepSeek-R1 (Full/Quant)

沒有高階顯卡的人,還值得玩嗎?

值得。只是玩法要換一下:

  • 優先使用 LM Studio 的 "CPU Offloading" 功能,雖然慢,但能跑。
  • 專攻「小而美」的模型,例如 1B-3B 等級,在 2026 年它們的理解能力已經大幅超越了當年的 GPT-3.5。

先選工具:LM Studio、Ollama、Open WebUI 怎麼分?

如果你只想知道一句話版:

  • 想最快上手、最有圖形介面:選 Ollama 之外,很多人第一個會愛上的是 LM Studio
  • 想用命令列、把模型當系統服務:Ollama 很適合
  • 想要更像網頁知識庫或多人共享介面:Open WebUI、AnythingLLM 這類工具也很好用

但如果你是第一次接觸本地 LLM,我還是最推薦先從 LM Studio 開始,因為它把「找模型、下載模型、聊天、讀文件、開本機服務」做在同一個地方,學習曲線真的低很多。

三種工具的直覺差異

工具最適合誰特色
LM Studio想圖形化上手的人模型搜尋、下載、聊天、文件問答、本機伺服器幾乎都包了
Ollama不排斥命令列的人輕巧、穩定、像把模型當作系統服務來用
Open WebUI / AnythingLLM想做知識庫、多人共用或網頁式操作的人介面像網頁版 AI 平台,適合文件工作流延伸

為什麼很多人先裝 LM Studio?

因為它很像「本地 AI 的桌面控制台」。你打開就能看到模型、下載、聊天、設定、伺服器,整體邏輯很直觀。對初學者來說,這種可視化差很多。


為什麼 LM Studio 在 2026 年還是很值得裝?

LM Studio 不只是「可以下載模型」而已,它的完整度比很多人想像中高。

1. Discover:像逛應用商店一樣找模型

你不需要自己去搬模型檔,再研究要放哪裡。LM Studio 直接提供模型搜尋與下載流程,很多模型來自 Hugging Face,介面會幫你把可選版本攤開。

這裡你最常看到的兩個關鍵字,就是 GGUFQuantization(量化)

  • GGUF:目前本地模型常見的格式,適合本機推理
  • 量化:把模型壓縮成更省資源的版本,代價通常是些微精度損失

2. My Models:不只是下載模型,更是模型管理中心

LM Studio 會幫你下載並管理來自 Hugging Face 的權重。Hugging Face 加載了全球開發者的心血,是 AI 界的 GitHub。

這裡你需要知道兩個核心概念:

  • Hugging Face / Unsloth (加速平台)

    • Hugging Face 是目前最大的模型分享平台,你可以在 LM Studio 內直接搜尋其庫存。
    • Unsloth / bartowski / mradermacher:如果你在搜尋模型時看到這些名字,這代表他們利用了 Unsloth(優化量化工具) 或特定的 Quantization(量化) 流程,將模型進行了輕量化處理,讓你在普通顯存上也能跑動更大的模型。
  • GGUF 與量化(Quantization): 這是目前本地模型最通用的格式。量化技術能將模型的精細度「壓縮」,例如 Q4(4-bit)模型雖然犧牲了極小的精度,但能將顯存需求降低 50% 以上,是本地部署的支柱。

3. 內建 Chat:這是很多人最容易忽略,但其實最實用的功能

LM Studio 不是只有技術功能,它本身就有很完整的聊天介面。你可以把它想成「桌面版、本地版的 Chatbot」。

它的好處是:

  • 可以直接選模型開始聊
  • 可以建立多個對話
  • 可以保存聊天歷史
  • 可以設定 System Prompt
  • 可以調整 Temperature 與其他推理參數
  • 可以附加文件做本地問答

這件事很重要,因為很多人一開始以為自己還需要再裝別的聊天工具,其實未必。對一般人來說,LM Studio 內建 chat 已經夠用很久。

4. Chat with Documents:讓模型讀你的文件

這是 LM Studio 很多人真正開始感受到「原來本地 AI 很有用」的時刻。

你可以把 PDF、Word、TXT、CSV,甚至部分程式碼資料夾內容交給它讀,然後直接問:

  • 這份文件的重點是什麼?
  • 幫我整理成三點
  • 哪一段提到價格、時間、限制條件?
  • 幫我用白話文重講一次

這背後常被稱為 RAG(檢索增強生成)。如果你不想背名詞,可以直接把它理解成:「不是只靠模型腦中的舊知識,而是先去讀你交給它的資料,再回來回答你。」

5. Local Server:把桌面工具變成本機 AI 服務

LM Studio 的另一個很強的地方,是你可以把它啟動成本機服務。開啟之後,它就不只是你眼前的一個聊天視窗,而是可以被其他程式呼叫的本地模型端點。

這對一般人來說,不一定是第一步,但很值得知道:

  • 你之後如果想做自己的小工具,可以接這個服務
  • 你可以把本地模型當成自己的 API
  • 很多呼叫方式會沿用 OpenAI 相容格式,比較容易上手

6. 進階用戶也不會很快用膩

LM Studio 這幾年的方向很明確,不只是給新手試玩,也一直在加強進階能力,例如:

  • 使用者模式切換,例如 User、Power User、Developer
  • 模型載入護欄,避免一口氣把機器塞爆
  • 背景伺服器或 headless 類型的執行方式
  • 對不同硬體後端的加速支援
  • LM Link 這類遠端算力共享能力
  • 外掛與 MCP 類整合能力
  • 部分新版本與引擎優化下的多模型工作流與連續批處理能力

你不必一開始就把這些全部學完,但它至少讓你知道:這套工具不是只給你玩一天的新鮮感而已。


2026 年新手完整上手流程:從下載到第一次對話

如果你已經準備好硬體,接下來只需 10 分鐘,就能讓你的電腦擁有第一個 AI 大腦。

第一步:前往官網下載並安裝

請認準官方渠道,避免從不明第三方下載被植入木馬的安裝包:

  • LM Studio 官網:lmstudio.ai
  • 點擊首頁下載按鈕,Windows 用戶通常下載 .exe 安裝檔,Mac 用戶根據 CPU (M1/M2/M3/M4 或 Intel) 選擇對應版本。
  • 安裝過程非常簡單,一路點擊「下一步」即可,不需要調整任何複雜路徑。

第二步:搜尋並下載模型(以 Qwen 3.5-4B 為例)

  1. 打開 LM Studio,點擊左側導航欄的 「🔍 Discover」(放大鏡圖示)。
  2. 在輸入框打入 Qwen 3.5 4B
  3. 你會看到很多結果,請選擇標籤為 "GGUF" 且來自 "Qwen 官方" 或常見封裝者(如 bartowski)的模型。
  4. 在右側的版本列表中,新手建議選擇 「Q4_K_M」「Q5_K_M」 的量化版本。這類版本在效能與模型智商之間平衡得最好。
  5. 點擊 Download,等待進度條跑完。

第三步:載入模型並開始聊天

  1. 點擊左側的 「💬 AI Chat」 圖示。
  2. 在視窗頂部的下拉選單 "Select a model to load" 中,選取你剛才下載好的 Qwen 模型。
  3. 等待下方狀態欄顯示「Loaded」,這表示模型已經進駐你的顯存或記憶體。
  4. 現在,你可以在輸入框輸入:你好,請用繁體中文幫我寫一個關於 AI 改變生活的短標題。
  5. 恭喜! 這是你電腦第一次完全「斷網」後產生的智慧輸出。

第四步:進階實戰——讀取本地文件

  1. 在 AI Chat 介面,找到 「Chat with Documents」 功能(通常在側邊欄或對話框上方)。
  2. 將你電腦裡的 PDF、Word 或純文字檔拖進去。
  3. 模型會開始對文件進行「索引」(Indexing),這不需要上傳雲端。
  4. 索引完成後,直接問它:這份文件的第三頁提到的那項預算到底是多少?

你一定會遇到的名詞,先用人話講一次

本地 LLM 最大的門檻,不全是技術,而是名詞太多。下面這些只要先懂八成就夠用。

GGUF 是什麼?

GGUF 是本地模型很常見的檔案格式。你可以把它理解成:為本機推理整理好的模型包裝方式。很多熱門開源模型都有 GGUF 版本,方便桌面工具直接載入。

量化是什麼?

量化 是把模型壓縮,讓它用更少資源跑起來。常見名稱像 Q4_K_MQ5_K_MQ8_0

直覺上你可以這樣記:

  • 數字越大,通常精度越高,檔案也越大
  • 同系列裡,檔案越大,通常效果越好,但更吃資源
  • 不確定怎麼選時,Q4_K_M 往往是很好的平衡點
  • 如果電腦比較吃緊,Q4_K_S 這種更小的版本有時能救你一命

Full GPU Offload Possible 是什麼?

當 LM Studio 顯示這類綠色提示時,意思通常是:這個模型有很大機會可以完整丟到 GPU 上跑,速度和體驗通常會好很多。

Context Length 是什麼?

也就是 Context Window。簡單說,就是模型一次能「記得、看到、一起處理」多少內容。

不是越大越好,因為越大通常越吃資源。新手一開始不用硬拉太高,先從實用值開始最穩。

Token 是什麼?

Token 可以把它想成模型在處理文字時的計算單位。你貼的內容越長、模型回得越長,通常吃的 token 就越多。

Temperature 是什麼?

Temperature 控制回答的發散程度。

  • 低一點:更穩、更保守、更適合摘要與資訊整理
  • 高一點:更活、更有創意,但也比較容易跑偏

System Prompt 是什麼?

System Prompt 就是你先替模型訂下的「做事風格」。例如:

  • 請一律用繁體中文回答
  • 請先列重點,再補充說明
  • 請不要亂猜,沒把握就直接說不知道

這個設定非常實用,尤其是你想讓模型穩定維持某種語氣或輸出格式時。


LM Studio 新手完整上手流程

下面這一段,你可以直接照著做。

第一步:下載並安裝

前往 LM Studio 官網下載對應版本:

  • Mac:選 Apple Silicon 版本
  • Windows:下載安裝檔,建議搭配較新的顯卡效果更好
  • Linux:也有對應版本可用

安裝之後第一次打開,通常會先讓你選擇使用模式。如果你是新手,先選 User 或 Power User 都可以;之後熟了再切到 Developer 模式。

安裝後,先做 3 件小事

  1. 到設定頁看看語言選項
  2. 檢查模型下載位置要不要改
  3. 看一下資源監控區,知道目前 RAM 和 CPU 大概怎麼跳

如果你的 C 槽空間本來就很緊,模型儲存位置最好早點改,不然之後一口氣下載幾個模型會很有感。

第二步:到 Discover 搜尋模型

第一次我建議你不要逛太久,直接找 Qwen 3.5-4B

搜尋時你會看到很多不同版本,不要被嚇到。你只要先看兩個重點:

  • 格式是不是 GGUF
  • 量化是不是你電腦吃得下

第一次下載怎麼選版本?

可以先照這個順序選:

  1. 如果你有 RTX 50 系列,而且列表有適合版本,可以留意 NVFP4 類型
  2. 如果你是一般用戶,多數情況先選 Q4_K_M
  3. 如果你之前就常遇到記憶體不足,可以試 Q4_K_S
  4. 如果你硬體比較強、想多追一點品質,再考慮 Q5_K_M

選版本時看什麼提示?

如果你看到像「Full GPU Offload Possible」這種綠色標示,通常代表這個版本比較有機會在你目前的硬體上跑得順。

第三步:下載後進入聊天

下載完成後,點進 Chat,選剛剛下載的模型,然後開始你的第一段對話。

第一次對話不要太難,先試這種任務:

請用繁體中文回答。
我會給你一段文章,請你先用 3 點整理重點,再用 150 字白話總結。

如果你只是想先確認模型有沒有正常工作,這種任務很容易看出好壞。

你可以馬上試的 4 個任務

  • 摘要一篇文章
  • 把一段訊息改寫成更有禮貌的語氣
  • 幫你整理會議筆記
  • 把一段難懂的文字重講成白話文

這四種任務很適合本地模型當第一個成功體驗,因為它們不需要極強推理,但很能讓你感受到實際價值。

第四步:設定基本參數,不要一上來亂調全部

你不需要第一次就把所有旋鈕摸遍。先把下面這幾個理解就好:

設定新手建議作用
Context Length2048 或 4096 起步先求穩,不要一開始拉太大
Temperature0.6 到 0.8摘要可低一點,創作可高一點
GPU Offload能高就高,但以不爆顯存為前提影響速度很大
CPU Threads先用預設,或 4 到 8沒把握時不要亂拉滿
Keep Model in Memory開啟避免每次都重新載入
Batch Size先用預設太高可能更快,也可能更吃資源

如果你完全沒概念,真的可以先用預設值。很多時候最容易出錯的不是預設,而是「看不懂但全都亂改」。

至於 Top K、Top P、Repeat Penalty、Flash Attention、RoPE 這些進階設定,除非你已經知道自己要優化什麼,不然先保持預設通常最穩。

第五步:試試內建 Chat with Documents

這是 LM Studio 非常值得用的地方。

你可以直接把文件拖進去,再問它:

  • 幫我整理這份 PDF 的重點
  • 找出裡面提到風險的段落
  • 幫我做成簡單摘要
  • 這份文件的結論是什麼

對一般使用者來說,這個功能就已經很接近「自己的離線研究助理」。

如果你只是偶爾讀 PDF、報告、說明書,LM Studio 內建的文件聊天已經夠用了。你不一定要一開始就再裝別的知識庫工具。


Qwen 3.5-4B 實際怎麼當第一個示範模型?

如果你問我:「那我現在手邊真的就想開始,最推薦怎麼設?」我會給一個很務實的版本。

推薦起手設定

  • 模型:Qwen 3.5-4B
  • 量化:Q4_K_M
  • Context Length:2048 或 4096
  • Temperature:0.7
  • Keep Model in Memory:開啟
  • GPU Offload:能開多少就開多少,但先以穩定為優先

適合拿來做什麼?

  • 短文摘要
  • 會議整理
  • 郵件改寫
  • 筆記潤稿
  • 文件問答
  • 離線聊天

不用一開始就逼它做什麼?

  • 超長專案級代碼理解
  • 超大文件跨章節精準問答
  • 高難度數學長鏈推理
  • 幾乎零失誤的專業知識判斷

這不是說它做不到,而是說,第一次接觸時,把任務設在它擅長的區間,你會更快建立對本地模型的正確認知。


如果你想把 LM Studio 當成本機 API 來用

這一段比較偏進階,但很多人遲早會用到。

在 LM Studio 的 Local Server 或 Developer 區域,你可以啟動本機服務。開起來後,常見端點會像這樣:

  • GET /v1/models
  • POST /v1/chat/completions
  • POST /v1/completions
  • POST /v1/embeddings

也就是說,你可以把 LM Studio 當成自己電腦上的 AI 伺服器。

如果你只是想確認它有沒有正常工作,可以用很簡單的 Python 範例測試:

import requests

url = "http://localhost:1234/v1/chat/completions"

payload = {
    "model": "qwen3.5-4b",
    "messages": [
        {
            "role": "system",
            "content": "你是一位擅長摘要的中文助手,請一律用繁體中文回答。"
        },
        {
            "role": "user",
            "content": "請把這段內容整理成 3 點重點,最後再用 120 字總結。"
        }
    ],
    "temperature": 0.6,
    "max_tokens": 200
}

response = requests.post(url, json=payload, timeout=60)
print(response.json()["choices"][0]["message"]["content"])

這裡有一個常見小提醒

實際可用的模型名稱,最好以 GET /v1/models 回傳結果為準。因為不同下載版本、不同量化名稱,模型 ID 可能不完全一樣。

如果你不會寫程式,這段可以先跳過嗎?

可以,完全沒問題。LM Studio 的價值不是你非得開 API 才能感受到。就算你只用內建 Chat,它也已經很有用。


AnythingLLM、Open WebUI 需要一起裝嗎?

不一定。

這是很多人在看本地 AI 教學時,最容易被工具數量嚇到的地方。

什麼情況下,LM Studio 單獨就夠?

如果你的需求是:

  • 下載模型
  • 本地聊天
  • 試不同模型
  • 用文件問答
  • 偶爾啟動本機 API

那 LM Studio 單獨就很夠用。

什麼情況下,才需要再加其他工具?

如果你之後想要:

  • 更像知識庫的多工作區管理
  • 更強的網頁介面
  • 多人共同使用
  • 更完整的文件工作流

這時候才可以再看 Open WebUI 或 AnythingLLM。

換句話說,LM Studio 不是一定要搭配別的工具才能用。它本身就有聊天功能,很多人其實到這一步就已經很夠了。


LM Studio 內還有哪些容易忽略,但其實很實用的細節?

1. 聊天記錄是存在本機的

這對重視隱私的人來說很重要。你不用擔心聊天紀錄自動漂到雲端,而且如果你有備份習慣,也可以自己整理聊天檔案。

2. 可以調整模型載入護欄

如果你常常不小心選太大的模型,LM Studio 一些版本裡會有類似 guardrails 的資源保護設定。對新手來說,這個功能很像安全欄杆,能避免你一個不小心把機器塞爆。

3. 不同硬體後端的支援其實不錯

LM Studio 並不是只照顧單一平台。依照裝置不同,你可能會用到:

  • NVIDIA CUDA
  • Apple Silicon 的 Metal / MLX
  • Vulkan
  • 部分 AMD 或其他平台加速方案

對一般使用者來說,你不需要把這些底層全部背起來,只要知道:它不是只偏好某一種機器,跨平台支援算完整。

4. 如果你真的很在意「完全開源」

這點值得先講清楚。LM Studio 非常方便,但它不是那種從頭到尾都完全開源、每一層都讓你看原始碼的工具。對大多數一般使用者來說,這不會妨礙使用;但如果你對軟體開放程度特別敏感,這是你在選工具前應該知道的事。


常見問題與錯誤排解

這一段我建議你先存起來,因為第一次跑本地模型,真的很容易踩到這些坑。

1. 下載模型時出現檔案找不到

如果你看到類似「File can no longer be found」這種訊息,通常代表模型來源更新、連結失效,或原本的發佈位置改了。

這時候不要卡在原地等,直接換思路:

  • 改搜同系列其他量化版本
  • 換社群維護比較穩定的版本
  • 先選熱門模型家族,不要執著單一檔名

2. 出現 not enough memory

這是最經典的錯誤之一,尤其當你選了太大的模型或太重的量化版本。

如果你看到類似下面這種訊息:

DefaultCPUAllocator: not enough memory

大方向通常只有三條:

  • 模型太大
  • 量化版本太重
  • 上下文與初始化設定太激進

很務實的解法

  • 從 Q5 降到 Q4
  • 從 7B 降到 4B
  • 把 Context Length 先降到 2048
  • 把 GPU Offload、Batch Size、CPU Threads 調回保守值
  • 如果沒有 GPU,不要一開始就選高參數模型

如果你真的只是想先成功開跑,模型變小不是退步,是正確的學習順序

3. 模型有跑起來,但超慢

這通常代表模型太大、CPU 扛太多、或 GPU 沒有真的吃到主要工作。

你可以先檢查:

  • 有沒有開啟 GPU Offload
  • 模型是否能完整放進顯存
  • 量化版本是否太大
  • Context 是否設太高

很多時候,把設定調保守一點,整體體驗反而變更好。

4. 中文回答不自然,或者會亂猜

這時候常見原因有三個:

  • 模型本身不擅長中文
  • System Prompt 沒有先指定「請用繁體中文回答」
  • 你的任務太長、太模糊,讓模型容易出現幻覺

你可以先試這三招:

  • 換成對中文更友善的模型,例如 Qwen 系列
  • 先在 system prompt 寫清楚語言與格式
  • 把問題拆小,不要一次丟五個任務

5. 問文件時效果普通,不夠準

這不一定是模型太笨,有時候只是文件本身不適合直接餵。

例如:

  • 掃描品質差的 PDF
  • 表格很多但文字很少
  • 文件太亂、章節結構差
  • 一次塞太多不相關文件

做文件問答時,前置整理永遠有幫助。很多時候,先把文件整理得像人看的東西,模型回答就會明顯變好。


一個很重要的觀念:先追求「穩定可用」,不要先追求「最大最強」

這件事我想單獨寫一節,因為它真的能幫你少走很多冤枉路。

很多人剛進本地 LLM 世界時,會自然地想:

  • 我要不要直接裝最大的模型?
  • 70B 比 4B 好,那當然要裝 70B 吧?
  • 量化越少越完整,那我是不是該先選最大的版本?

這種想法不難理解,但對新手來說,最有效率的路通常相反:

  • 先選容易成功的模型
  • 先讓硬體穩定
  • 先把工作流跑順
  • 再慢慢升級

因為你真正要的是「開始用」,不是「下載成功之後一直報錯」。


如果你今天就要開始,我會怎麼建議你?

如果你完全是第一次接觸,我會這樣排順序:

  1. 安裝 LM Studio
  2. 搜尋並下載 Qwen 3.5-4B
  3. 先選 Q4_K_M 這種比較平衡的版本
  4. 進 Chat 介面做 3 次簡單任務
  5. 再試一次文件問答
  6. 最後才碰本機 API 或進階參數

這 3 次簡單任務可以這樣做

任務一:摘要

請把這段文章整理成 3 個重點,再用 100 字總結。

任務二:改寫

請把下面這段話改寫得更有禮貌、更自然,但不要太官腔。

任務三:文件問答

這份 PDF 最重要的結論是什麼?如果我要 1 分鐘講給同事聽,應該怎麼說?

當你這三件事都做順了,你再往下玩 Local Server、文件工作流、更多模型比較,會輕鬆很多。


LM Studio vs Ollama:2026 本地 LLM 使用者到底誰比較適合你?

這其實不是誰比較強,而是誰比較適合你的習慣。

如果你是這種人,選 LM Studio

  • 喜歡看得到介面
  • 想直接搜尋模型
  • 想聊天、讀文件、調參數一次到位
  • 不想第一天就跟命令列打架

如果你是這種人,Ollama 也很適合

  • 習慣終端機
  • 想把模型當成本地服務穩定跑著
  • 不在意自己手動管理一些細節
  • 比起 GUI,更重視腳本化與自動化

最實際的答案

很多人最後兩個都會裝。

但如果你現在只想先選一個,並且目標是「今天就成功跑出第一個本地模型」,那 LM Studio 的成功率通常更高。


延伸閱讀:把本地 LLM 接到更進階的 AI 工作流

結語:本地 LLM 已經過了「只能看高手玩」的階段

到 2026 年,本地 LLM 真正有趣的地方,已經不是跑排行榜,而是你終於可以把 AI 變成自己電腦裡的一個可靠工具。

它不一定每一次都比最強雲端模型聰明,但它有幾個很難被取代的優點:

  • 你的資料更能掌控
  • 不用一直付月費
  • 沒網路也能工作
  • 工具和模型都可以自己選
  • 你可以按照自己的節奏慢慢升級

如果你現在就想開始,我最實際的建議還是那一句:

不要先追最大模型,先追第一個穩穩跑起來的模型。

而對大多數人來說,LM Studio 加上 Qwen 3.5-4B,就是一個很好的起點。

當你第一次在自己的電腦上,離線讀完一份文件、問出重點、拿到像樣的回覆時,你大概就會明白,為什麼越來越多人不想只把 AI 留在雲端了。