论文阅读笔记:Text-To-Text Transfer Learning

论文:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
作者:Colin Raffel et al. (Google Research)
链接:arXiv:1910.10683


阅读动机与背景

在 NLP 模型大一统的潮流中,BERT、GPT、BART 等预训练方法层出不穷。然而,它们在以下方面仍存在分裂:

  • 任务格式五花八门(分类、生成、问答格式不同);
  • 训练与微调方式不一致;
  • 不利于统一架构的研究和部署。

T5 的核心目标是:

将所有 NLP 任务统一为“文本到文本”的格式,并用统一的 Transformer 架构解决它们。


论文核心贡献概览

编号 贡献内容
1️⃣ 将所有 NLP 任务(分类、翻译、摘要、问答等)统一为文本到文本格式
2 提出 Span-Corruption 预训练目标,替代传统 token-level MLM
3 构建大规模清洗语料库 C4(Colossal Clean Crawled Corpus)
4 系统比较各种架构、目标与超参组合,提供标准 benchmark
5 首次在 SuperGLUE 上达到或超过人类表现(T5-11B)

模型与训练方法

核心理念:Text-to-Text Format

所有任务都以纯文本形式表示,输入/输出皆为字符串。

任务类型 输入文本示例 输出文本
翻译 translate English to German: That is good Das ist gut
情感分析 sst2 sentence: I loved the film positive
QA question: Who wrote Hamlet? context: ... Shakespeare
摘要 summarize: The article says... This article ...

好处:简化接口,支持端到端训练、多任务融合、微调统一。


预训练目标:Span-Corruption(连续片段掩码)

  • 类似 BERT,但不是随机掩盖 token,而是 随机删除多个连续 token
  • 输入句子:The cat <extra_id_0> on the <extra_id_1> mat.
  • 目标输出:<extra_id_0> sat <extra_id_1> warm

这种训练方式更符合自然语言生成习惯,提升泛化能力。


模型结构:Encoder-Decoder Transformer

T5 采用标准的 Transformer 架构(非 decoder-only):

1
2
3
4
5
6
7
           +--------------------------+
Input ---> | Encoder | ---> Encoder hidden states
+--------------------------+

+--------------------------+
Shifted input --> Decoder | ---> Token-by-token generation
+--------------------------+

支持端到端训练与 sequence-to-sequence 推理。模型版本有:

版本 参数量
T5-Small 60M
T5-Base 220M
T5-Large 770M
T5-3B 3B
T5-11B 11B

输入构造:Prefix Prompt + Text

训练中,每个任务会带有任务前缀(prefix)提示模型该怎么做:

1
2
input = "summarize: The food was great. The staff were polite."
target = "The service and food were excellent."

微调策略

  • 使用统一的文本 loss(Cross Entropy)
  • 可在单一任务微调,也可用多任务 joint training
  • 只需换 prefix 与数据即可迁移到新任务

数据集与评估

预训练语料:C4

  • 从 Common Crawl 网页数据中清洗得到
  • 去除脚本、日志、重复、垃圾邮件等
  • 最终约 750GB,远大于 Wikipedia 语料

下游任务评估

包含多个 benchmark:

类别 数据集例子
文本分类 GLUE, SuperGLUE
问答 SQuAD, TriviaQA
摘要生成 CNN/DailyMail
翻译 WMT English-German/French

T5-11B 在 SuperGLUE 上得分首次超越人类:

模型 SuperGLUE Score
BERT ~70
RoBERTa ~89
T5-11B 89.3
人类平均 ~89.0

消融与对比分析

论文还分析了以下问题:

比较维度 结论
MLM vs Span Mask Span Corruption 更有效
输入格式 vs prompt prefix prompt 更有效
单任务 vs 多任务 多任务微调更稳健
Encoder-only vs Encoder-Decoder Encoder-Decoder 更泛化

阅读收获与启发

对我的启示

  • 统一任务格式有利于通用模型设计与部署;
  • Prompt engineering 的潜力早已体现;
  • 预训练目标的设计决定了泛化能力;
  • 预训练语料质量和规模是成功关键;
  • 多任务学习 + decoder 模型是未来趋势;

参考资源