【LLM #1】什麼是 LLM (Large Language Model)？給自己的一點入門筆記

前言

最近 AI 工具真的滿山滿谷，
ChatGPT、Claude、Gemini… 感覺不用一下就會被時代丟在後面 🫠

說實在自從 2023 年後，我自己也是大量在用這些工具，
但我發現我好像都「會用」但沒有真的「理解」這些東西是什麼，
於是就想來寫一篇給自己看的筆記 XD。

這篇文章不會深入到數學公式或 Transformer 架構，
純粹是從「使用者」角度，把我自己常被問的幾個關鍵字整理一下。
如果你也是剛開始接觸 LLM 的朋友，希望對你有幫助！

什麼是 LLM？

LLM = Large Language Model，中文翻作大型語言模型。

一句話版本：

一個「吃了超多文字」之後，學會「接下一個字」的機率模型。

然後這個「超多文字」真的是超多，
通常是整個網路上能抓到的大部分公開文本 (書、論文、維基、Reddit、GitHub… 什麼都有)，
模型參數量動輒幾十億 (B) 到幾千億 (T)。

所以它不是真的「理解」什麼事情，
而是「統計上」知道下一個字最有可能是什麼 — 只是這個統計好到讓我們覺得它在思考 XD

常見混淆：LLM ≠ encoder-decoder 架構

這邊順便釐清一個很多人會搞混（包括以前的我）的地方。

有人問「LLM 是什麼？」時，反射動作常常會從架構角度答：
「它是 Transformer，有 encoder 跟 decoder…」

這個回答其實不太精準。

LLM 最核心的定義是它「做什麼」，不是「怎麼做」。
最乾淨的版本就是上面那句：「能一直接下一個字的大模型」。

現代主流 LLM（GPT、Claude、Llama 家族）架構上其實都是 decoder-only，沒有 encoder。
「encoder-decoder」的印象來自 2017 年原始的 Transformer 論文（那篇是為機器翻譯設計的），
但 LLM 後來演化成另一種樣子了。

架構是實作細節，定義是它做什麼。
講定義時先給「生下一個字」，架構的部分可以之後再補。

這題其實滿值得展開，我寫在了系列第二篇：【LLM #2】LLM 跟 Encoder / Decoder 的關係。

LLM 能做什麼

老實說目前大家也還在摸索邊界，但以我日常用到的來看：

寫程式：寫 code、debug、解釋別人的 code、不同程式語言互轉
整理資訊：摘要長文、抓重點、翻譯、改寫
文字創作：寫文章初稿、email、slogan、社群貼文
閱讀助手：丟一份論文/文件問它裡面的內容
Agent 類應用：串工具 (檔案系統、瀏覽器、API) 幫你跑任務

對我個人影響最大的其實不是「產出」，
而是「能隨時問一個不會不耐煩的對象」這件事 XDD

幾個一定會遇到的關鍵字

Token

LLM 不是用「字」或「word」在算，而是用 Token (子詞)。

英文大約 1 個 token ≈ 0.75 個單字
中文常常 1 個字 ≈ 1~2 個 token (看 tokenizer)

為什麼要知道這個？

因為 LLM 的計費、輸入長度限制，通通是按 token 算。

Context Window

又叫做「上下文視窗」，指的是模型一次最多可以「看進去」多少 token。

常見的幾個數字：

早期 GPT-3.5：4K tokens (差不多幾千字)
現在主流：128K ~ 200K tokens
部分旗艦：1M tokens (可以丟整本小說進去)

超過 context window 的內容，模型就「看不到」了，
這也是為什麼長對話久了會覺得它開始「失憶」的原因。

Prompt

就是你丟給模型的輸入。

聽起來很簡單，但其實「怎麼寫 prompt」本身已經演化成一門學問，
大家叫它 Prompt Engineering。
簡單的心法：

把「角色」、「任務」、「限制條件」、「輸出格式」講清楚
給 1~2 個範例 (few-shot) 通常會比空口白話好很多

Hallucination (幻覺)

這是 LLM 最有名的毛病：

它會「一本正經地胡說八道」，
語氣非常自信，但內容是錯的、甚至是它自己編的。

所以重要的事情還是要驗證，尤其是：

具體的人名、書名、論文、API 規格
法律、醫療、財務類建議
冷門領域的事實

用 LLM 的一個心態我覺得滿重要：
把它當成「很強但有點唬爛的實習生」，
能大幅提升效率，但不能全然信任。

常見的幾家 LLM

快速流水帳版本 (2026 年初視角)：

家族	公司	特色
GPT 系列	OpenAI	最有名，生態最大
Claude 系列	Anthropic	長文處理、寫作品質我自己最愛
Gemini 系列	Google	多模態強，整合 Google 產品
Llama 系列	Meta	開源大宗，能自己部署
Qwen / DeepSeek	阿里 / DeepSeek	中文開源模型代表
Mistral	Mistral AI	歐洲開源，小而美

我的使用習慣是 Claude 寫東西、GPT 問一些快答案、
本地小任務跑 Qwen 之類的開源模型，
看你的需求與預算來選就好！

小結：以「做筆記的站長」視角看 LLM

這個網站的初衷是「幫我自己整理筆記」，
AI 崛起後我一度懷疑這件事還有沒有意義 (畢竟什麼都可以問 LLM 了 🫠)，
但用了這麼多它之後，我反而覺得：

LLM 給的是「即時但可能錯」的答案
自己的筆記是「慢慢累積但被自己驗證過」的答案

兩者並不衝突，甚至互補 —
我現在常常把 LLM 當成「第一層草稿機」，
然後再自己整理成能放上網站的筆記，效率高很多。

佛系經營 + AI 輔助，似乎是個滿舒服的組合 🌿