前言
最近 AI 工具真的滿山滿谷,
ChatGPT、Claude、Gemini… 感覺不用一下就會被時代丟在後面 🫠
說實在自從 2023 年後,我自己也是大量在用這些工具,
但我發現我好像都「會用」但沒有真的「理解」這些東西是什麼,
於是就想來寫一篇給自己看的筆記 XD。
這篇文章不會深入到數學公式或 Transformer 架構,
純粹是從「使用者」角度,把我自己常被問的幾個關鍵字整理一下。
如果你也是剛開始接觸 LLM 的朋友,希望對你有幫助!
什麼是 LLM?
LLM = Large Language Model,中文翻作大型語言模型。
一句話版本:
- 一個「吃了超多文字」之後,學會「接下一個字」的機率模型。
然後這個「超多文字」真的是超多,
通常是整個網路上能抓到的大部分公開文本 (書、論文、維基、Reddit、GitHub… 什麼都有),
模型參數量動輒幾十億 (B) 到幾千億 (T)。
所以它不是真的「理解」什麼事情,
而是「統計上」知道下一個字最有可能是什麼 — 只是這個統計好到讓我們覺得它在思考 XD
常見混淆:LLM ≠ encoder-decoder 架構
這邊順便釐清一個很多人會搞混(包括以前的我)的地方。
有人問「LLM 是什麼?」時,反射動作常常會從架構角度答:
「它是 Transformer,有 encoder 跟 decoder…」
這個回答其實不太精準。
- LLM 最核心的定義是它「做什麼」,不是「怎麼做」。
- 最乾淨的版本就是上面那句:「能一直接下一個字的大模型」。
現代主流 LLM(GPT、Claude、Llama 家族)架構上其實都是 decoder-only,沒有 encoder。
「encoder-decoder」的印象來自 2017 年原始的 Transformer 論文(那篇是為機器翻譯設計的),
但 LLM 後來演化成另一種樣子了。
架構是實作細節,定義是它做什麼。
講定義時先給「生下一個字」,架構的部分可以之後再補。
這題其實滿值得展開,我寫在了系列第二篇:【LLM #2】LLM 跟 Encoder / Decoder 的關係。
LLM 能做什麼
老實說目前大家也還在摸索邊界,但以我日常用到的來看:
- 寫程式:寫 code、debug、解釋別人的 code、不同程式語言互轉
- 整理資訊:摘要長文、抓重點、翻譯、改寫
- 文字創作:寫文章初稿、email、slogan、社群貼文
- 閱讀助手:丟一份論文/文件問它裡面的內容
- Agent 類應用:串工具 (檔案系統、瀏覽器、API) 幫你跑任務
對我個人影響最大的其實不是「產出」,
而是「能隨時問一個不會不耐煩的對象」這件事 XDD
幾個一定會遇到的關鍵字
Token
LLM 不是用「字」或「word」在算,而是用 Token (子詞)。
- 英文大約 1 個 token ≈ 0.75 個單字
- 中文常常 1 個字 ≈ 1~2 個 token (看 tokenizer)
為什麼要知道這個?
- 因為 LLM 的計費、輸入長度限制,通通是按 token 算。
Context Window
又叫做「上下文視窗」,指的是模型一次最多可以「看進去」多少 token。
常見的幾個數字:
- 早期 GPT-3.5:4K tokens (差不多幾千字)
- 現在主流:128K ~ 200K tokens
- 部分旗艦:1M tokens (可以丟整本小說進去)
超過 context window 的內容,模型就「看不到」了,
這也是為什麼長對話久了會覺得它開始「失憶」的原因。
Prompt
就是你丟給模型的輸入。
聽起來很簡單,但其實「怎麼寫 prompt」本身已經演化成一門學問,
大家叫它 Prompt Engineering。
簡單的心法:
- 把「角色」、「任務」、「限制條件」、「輸出格式」講清楚
- 給 1~2 個範例 (few-shot) 通常會比空口白話好很多
Hallucination (幻覺)
這是 LLM 最有名的毛病:
- 它會「一本正經地胡說八道」,
- 語氣非常自信,但內容是錯的、甚至是它自己編的。
所以重要的事情還是要驗證,尤其是:
- 具體的人名、書名、論文、API 規格
- 法律、醫療、財務類建議
- 冷門領域的事實
用 LLM 的一個心態我覺得滿重要:
把它當成「很強但有點唬爛的實習生」,
能大幅提升效率,但不能全然信任。
常見的幾家 LLM
快速流水帳版本 (2026 年初視角):
| 家族 | 公司 | 特色 |
|---|---|---|
| GPT 系列 | OpenAI | 最有名,生態最大 |
| Claude 系列 | Anthropic | 長文處理、寫作品質我自己最愛 |
| Gemini 系列 | 多模態強,整合 Google 產品 | |
| Llama 系列 | Meta | 開源大宗,能自己部署 |
| Qwen / DeepSeek | 阿里 / DeepSeek | 中文開源模型代表 |
| Mistral | Mistral AI | 歐洲開源,小而美 |
我的使用習慣是 Claude 寫東西、GPT 問一些快答案、
本地小任務跑 Qwen 之類的開源模型,
看你的需求與預算來選就好!
小結:以「做筆記的站長」視角看 LLM
這個網站的初衷是「幫我自己整理筆記」,
AI 崛起後我一度懷疑這件事還有沒有意義 (畢竟什麼都可以問 LLM 了 🫠),
但用了這麼多它之後,我反而覺得:
- LLM 給的是「即時但可能錯」的答案
- 自己的筆記是「慢慢累積但被自己驗證過」的答案
兩者並不衝突,甚至互補 —
我現在常常把 LLM 當成「第一層草稿機」,
然後再自己整理成能放上網站的筆記,效率高很多。
佛系經營 + AI 輔助,似乎是個滿舒服的組合 🌿