自然语言处理中的分词：新手入门全指南

分词、文本处理、自然语言处理、标记化、机器学习、大语言模型、子词分词、字节对编码——如果你刚刚踏入 AI 领域，这些高频关键词可能会让你头大。别担心，本文会用通俗易懂的方式拆解“分词”这个听起来枯燥、却决定大模型成败的关键环节。

什么是 NLP 中的分词？

在 自然语言处理 中，文本朗读给人类听毫无障碍，却令模型头疼：它们只能处理数字。因此，我们需要一把 翻译器，把句子拆成可通过数字表示的最小单位，这些单位就叫 token（标记）。整套流程即 分词 (tokenization)。

例如，句子「AI 改变世界」经过模型专属的分词器后，被映射为：

[ 9942, 2675, 4589, 987 ]

模型处理完数字，再反向翻译回文字，你就收到了熟悉的回答。可以说，没有分词，就没有现代 大语言模型 (LLM)。

（在无表格要求情况下，上述信息仍会呈现为纯文本描述，详见后文。）

将空格与标点作为天然分隔符：

文本: Grammarly loves grammar.
Token 序列: [Grammarly, loves, grammar, .]

缺陷很明显：遇到专有名「Grammarly」就得新建 token，字会越来越大；同义词复数、时态也会滋生长尾。

核心思路是「常拼在一起的字节就合并成一个 token」，用 字节对编码 (Byte-Pair Encoding, BPE) 训练即可。
示例（GPT-4o）：

"Grammarly" -> "Gr" + "amm" + "arly"

把每个 Unicode 字符拆开：

"cat" -> ["c", "a", "t"]

词汇极小，但序列过长，导致计算量暴增。仅在低资源场景或拼写纠偏任务偶尔采用。

直接把整句当 token：

"AI 改变世界。" -> [AI 改变世界。]

仅适合句子情感极性分类等特殊任务，通用性差得惊人。

小例子：
语料只有 abc abcd，迭代合并后最终得到 token：

["a","b","c"," ","d","ab","abc"]

冷启动时自行训练会消耗昂贵算力，因此多数团队直接复用第三方已训练的分词器。

Q1. 为什么我的模型有时会把同一个单词拆成不同数量的 token？
A：子词分词由频率驱动，不同版本的分词器或新增语料都可能改变合并规则。

Q2. 中文没有空格，怎么分词？
A：可用 字符级 或 基于 BPE 的子词级；后者对繁体、粤语、古文都更友好。

Q3. 分词器体积会不会影响线上部署？
A：本身仅几十 MB，瓶颈更多来自参数规模千亿级的大模型。

Q4. 想自定义领域词，BPE 能增量热更新吗？
A：主流库支持 add_tokens，但需重新嵌入矩阵并重训或微调模型。

Q5. 低资源语言能直接套用英文分词器吗？
A：易出现 OOV，最好自建小语料 BPE 或用 SentencePiece 的 unigram 算法。

多模态融合、长上下文、低资源语言三大方向，都要求分词器继续进化。字节跳动、Meta、OpenAI 相继推出 混合粒度 tokenizers，以同时兼容文本、代码、乐谱、DNA 序列。

至此，你已拥有完备的分词视角。下次面对“token”这个词，你不再陌生，而是可以自信地侃侃而谈它在 自然语言处理、机器学习、大语言模型 中的关键作用。