论文阅读笔记:Text-To-Text Transfer Learning
论文:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
作者:Colin Raffel et al. (Google Research)
链接:arXiv:1910.10683
阅读动机与背景
在 NLP 模型大一统的潮流中,BERT、GPT、BART 等预训练方法层出不穷。然而,它们在以下方面仍存在分裂:
- 任务格式五花八门(分类、生成、问答格式不同);
- 训练与微调方式不一致;
- 不利于统一架构的研究和部署。
T5 的核心目标是:
将所有 NLP 任务统一为“文本到文本”的格式,并用统一的 Transformer 架构解决它们。
论文核心贡献概览
编号 | 贡献内容 |
---|---|
1️⃣ | 将所有 NLP 任务(分类、翻译、摘要、问答等)统一为文本到文本格式 |
2 | 提出 Span-Corruption 预训练目标,替代传统 token-level MLM |
3 | 构建大规模清洗语料库 C4(Colossal Clean Crawled Corpus) |
4 | 系统比较各种架构、目标与超参组合,提供标准 benchmark |
5 | 首次在 SuperGLUE 上达到或超过人类表现(T5-11B) |
模型与训练方法
核心理念:Text-to-Text Format
所有任务都以纯文本形式表示,输入/输出皆为字符串。
任务类型 | 输入文本示例 | 输出文本 |
---|---|---|
翻译 | translate English to German: That is good |
Das ist gut |
情感分析 | sst2 sentence: I loved the film |
positive |
QA | question: Who wrote Hamlet? context: ... |
Shakespeare |
摘要 | summarize: The article says... |
This article ... |
好处:简化接口,支持端到端训练、多任务融合、微调统一。
预训练目标:Span-Corruption(连续片段掩码)
- 类似 BERT,但不是随机掩盖 token,而是 随机删除多个连续 token
- 输入句子:
The cat <extra_id_0> on the <extra_id_1> mat.
- 目标输出:
<extra_id_0> sat <extra_id_1> warm
这种训练方式更符合自然语言生成习惯,提升泛化能力。
模型结构:Encoder-Decoder Transformer
T5 采用标准的 Transformer 架构(非 decoder-only):
1 | +--------------------------+ |
支持端到端训练与 sequence-to-sequence 推理。模型版本有:
版本 | 参数量 |
---|---|
T5-Small | 60M |
T5-Base | 220M |
T5-Large | 770M |
T5-3B | 3B |
T5-11B | 11B |
输入构造:Prefix Prompt + Text
训练中,每个任务会带有任务前缀(prefix)提示模型该怎么做:
1 | input = "summarize: The food was great. The staff were polite." |
微调策略
- 使用统一的文本 loss(Cross Entropy)
- 可在单一任务微调,也可用多任务 joint training
- 只需换 prefix 与数据即可迁移到新任务
数据集与评估
预训练语料:C4
- 从 Common Crawl 网页数据中清洗得到
- 去除脚本、日志、重复、垃圾邮件等
- 最终约 750GB,远大于 Wikipedia 语料
下游任务评估
包含多个 benchmark:
类别 | 数据集例子 |
---|---|
文本分类 | GLUE, SuperGLUE |
问答 | SQuAD, TriviaQA |
摘要生成 | CNN/DailyMail |
翻译 | WMT English-German/French |
T5-11B 在 SuperGLUE 上得分首次超越人类:
模型 | SuperGLUE Score |
---|---|
BERT | ~70 |
RoBERTa | ~89 |
T5-11B | 89.3 |
人类平均 | ~89.0 |
消融与对比分析
论文还分析了以下问题:
比较维度 | 结论 |
---|---|
MLM vs Span Mask | Span Corruption 更有效 |
输入格式 vs prompt | prefix prompt 更有效 |
单任务 vs 多任务 | 多任务微调更稳健 |
Encoder-only vs Encoder-Decoder | Encoder-Decoder 更泛化 |
阅读收获与启发
对我的启示
- 统一任务格式有利于通用模型设计与部署;
- Prompt engineering 的潜力早已体现;
- 预训练目标的设计决定了泛化能力;
- 预训练语料质量和规模是成功关键;
- 多任务学习 + decoder 模型是未来趋势;