【LLM #1】什麼是 LLM (Large Language Model)?給自己的一點入門筆記

從零開始整理 LLM 的基本觀念:什麼是大型語言模型、它能做什麼、幾個常見的術語(Token、Context Window、Prompt、Hallucination),以及市面上幾家主流 LLM。

前言

最近 AI 工具真的滿山滿谷,
ChatGPT、Claude、Gemini… 感覺不用一下就會被時代丟在後面 🫠

說實在自從 2023 年後,我自己也是大量在用這些工具,
但我發現我好像都「會用」但沒有真的「理解」這些東西是什麼,
於是就想來寫一篇給自己看的筆記 XD。

這篇文章不會深入到數學公式或 Transformer 架構,
純粹是從「使用者」角度,把我自己常被問的幾個關鍵字整理一下。
如果你也是剛開始接觸 LLM 的朋友,希望對你有幫助!

什麼是 LLM?

LLM = Large Language Model,中文翻作大型語言模型

一句話版本:

  • 一個「吃了超多文字」之後,學會「接下一個字」的機率模型。

然後這個「超多文字」真的是超多,
通常是整個網路上能抓到的大部分公開文本 (書、論文、維基、Reddit、GitHub… 什麼都有),
模型參數量動輒幾十億 (B) 到幾千億 (T)。

所以它不是真的「理解」什麼事情,
而是「統計上」知道下一個字最有可能是什麼 — 只是這個統計好到讓我們覺得它在思考 XD

常見混淆:LLM ≠ encoder-decoder 架構

這邊順便釐清一個很多人會搞混(包括以前的我)的地方。

有人問「LLM 是什麼?」時,反射動作常常會從架構角度答:
「它是 Transformer,有 encoder 跟 decoder…」

這個回答其實不太精準。

  • LLM 最核心的定義是它「做什麼」,不是「怎麼做」。
  • 最乾淨的版本就是上面那句:「能一直接下一個字的大模型」

現代主流 LLM(GPT、Claude、Llama 家族)架構上其實都是 decoder-only沒有 encoder
「encoder-decoder」的印象來自 2017 年原始的 Transformer 論文(那篇是為機器翻譯設計的),
但 LLM 後來演化成另一種樣子了。

架構是實作細節,定義是它做什麼。
講定義時先給「生下一個字」,架構的部分可以之後再補。

這題其實滿值得展開,我寫在了系列第二篇:【LLM #2】LLM 跟 Encoder / Decoder 的關係

LLM 能做什麼

老實說目前大家也還在摸索邊界,但以我日常用到的來看:

  • 寫程式:寫 code、debug、解釋別人的 code、不同程式語言互轉
  • 整理資訊:摘要長文、抓重點、翻譯、改寫
  • 文字創作:寫文章初稿、email、slogan、社群貼文
  • 閱讀助手:丟一份論文/文件問它裡面的內容
  • Agent 類應用:串工具 (檔案系統、瀏覽器、API) 幫你跑任務

對我個人影響最大的其實不是「產出」,
而是「能隨時問一個不會不耐煩的對象」這件事 XDD

幾個一定會遇到的關鍵字

Token

LLM 不是用「字」或「word」在算,而是用 Token (子詞)。

  • 英文大約 1 個 token ≈ 0.75 個單字
  • 中文常常 1 個字 ≈ 1~2 個 token (看 tokenizer)

為什麼要知道這個?

  • 因為 LLM 的計費、輸入長度限制,通通是按 token 算

Context Window

又叫做「上下文視窗」,指的是模型一次最多可以「看進去」多少 token。

常見的幾個數字:

  • 早期 GPT-3.5:4K tokens (差不多幾千字)
  • 現在主流:128K ~ 200K tokens
  • 部分旗艦:1M tokens (可以丟整本小說進去)

超過 context window 的內容,模型就「看不到」了
這也是為什麼長對話久了會覺得它開始「失憶」的原因。

Prompt

就是你丟給模型的輸入

聽起來很簡單,但其實「怎麼寫 prompt」本身已經演化成一門學問,
大家叫它 Prompt Engineering
簡單的心法:

  • 把「角色」、「任務」、「限制條件」、「輸出格式」講清楚
  • 給 1~2 個範例 (few-shot) 通常會比空口白話好很多

Hallucination (幻覺)

這是 LLM 最有名的毛病:

  • 它會「一本正經地胡說八道」
  • 語氣非常自信,但內容是錯的、甚至是它自己編的。

所以重要的事情還是要驗證,尤其是:

  • 具體的人名、書名、論文、API 規格
  • 法律、醫療、財務類建議
  • 冷門領域的事實

用 LLM 的一個心態我覺得滿重要:
把它當成「很強但有點唬爛的實習生」,
能大幅提升效率,但不能全然信任。

常見的幾家 LLM

快速流水帳版本 (2026 年初視角):

家族公司特色
GPT 系列OpenAI最有名,生態最大
Claude 系列Anthropic長文處理、寫作品質我自己最愛
Gemini 系列Google多模態強,整合 Google 產品
Llama 系列Meta開源大宗,能自己部署
Qwen / DeepSeek阿里 / DeepSeek中文開源模型代表
MistralMistral AI歐洲開源,小而美

我的使用習慣是 Claude 寫東西、GPT 問一些快答案、
本地小任務跑 Qwen 之類的開源模型,
看你的需求與預算來選就好!

小結:以「做筆記的站長」視角看 LLM

這個網站的初衷是「幫我自己整理筆記」,
AI 崛起後我一度懷疑這件事還有沒有意義 (畢竟什麼都可以問 LLM 了 🫠),
但用了這麼多它之後,我反而覺得:

  • LLM 給的是「即時但可能錯」的答案
  • 自己的筆記是「慢慢累積但被自己驗證過」的答案

兩者並不衝突,甚至互補 —
我現在常常把 LLM 當成「第一層草稿機」,
然後再自己整理成能放上網站的筆記,效率高很多。

佛系經營 + AI 輔助,似乎是個滿舒服的組合 🌿

Reference

使用 Hugo 建立
主題 StackJimmy 設計