论文阅读笔记：Text-To-Text Transfer Learning

Posted on 2025-07-18 Edited on 2025-07-19 In 研零学习记录 Views:

论文：Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
作者：Colin Raffel et al. (Google Research)
链接：arXiv:1910.10683

阅读动机与背景

在 NLP 模型大一统的潮流中，BERT、GPT、BART 等预训练方法层出不穷。然而，它们在以下方面仍存在分裂：

任务格式五花八门（分类、生成、问答格式不同）；
训练与微调方式不一致；
不利于统一架构的研究和部署。

T5 的核心目标是：

将所有 NLP 任务统一为“文本到文本”的格式，并用统一的 Transformer 架构解决它们。

论文核心贡献概览

编号	贡献内容
1️⃣	将所有 NLP 任务（分类、翻译、摘要、问答等）统一为文本到文本格式
2	提出 Span-Corruption 预训练目标，替代传统 token-level MLM
3	构建大规模清洗语料库 C4（Colossal Clean Crawled Corpus）
4	系统比较各种架构、目标与超参组合，提供标准 benchmark
5	首次在 SuperGLUE 上达到或超过人类表现（T5-11B）

模型与训练方法

核心理念：Text-to-Text Format

所有任务都以纯文本形式表示，输入/输出皆为字符串。

任务类型	输入文本示例	输出文本
翻译	`translate English to German: That is good`	`Das ist gut`
情感分析	`sst2 sentence: I loved the film`	`positive`
QA	`question: Who wrote Hamlet? context: ...`	`Shakespeare`
摘要	`summarize: The article says...`	`This article ...`

好处：简化接口，支持端到端训练、多任务融合、微调统一。

预训练目标：Span-Corruption（连续片段掩码）

类似 BERT，但不是随机掩盖 token，而是 随机删除多个连续 token
输入句子：The cat <extra_id_0> on the <extra_id_1> mat.
目标输出：<extra_id_0> sat <extra_id_1> warm

这种训练方式更符合自然语言生成习惯，提升泛化能力。

模型结构：Encoder-Decoder Transformer

T5 采用标准的 Transformer 架构（非 decoder-only）：

           +--------------------------+
Input ---> |        Encoder           | ---> Encoder hidden states
           +--------------------------+
                     ↓
           +--------------------------+
    Shifted input -->  Decoder        | ---> Token-by-token generation
           +--------------------------+

支持端到端训练与 sequence-to-sequence 推理。模型版本有：

版本	参数量
T5-Small	60M
T5-Base	220M
T5-Large	770M
T5-3B	3B
T5-11B	11B

输入构造：Prefix Prompt + Text

训练中，每个任务会带有任务前缀（prefix）提示模型该怎么做：

1 2	input = "summarize: The food was great. The staff were polite." target = "The service and food were excellent."

微调策略

使用统一的文本 loss（Cross Entropy）
可在单一任务微调，也可用多任务 joint training
只需换 prefix 与数据即可迁移到新任务

数据集与评估

预训练语料：C4

从 Common Crawl 网页数据中清洗得到
去除脚本、日志、重复、垃圾邮件等
最终约 750GB，远大于 Wikipedia 语料

下游任务评估

包含多个 benchmark：

类别	数据集例子
文本分类	GLUE, SuperGLUE
问答	SQuAD, TriviaQA
摘要生成	CNN/DailyMail
翻译	WMT English-German/French

T5-11B 在 SuperGLUE 上得分首次超越人类：

模型	SuperGLUE Score
BERT	~70
RoBERTa	~89
T5-11B	89.3
人类平均	~89.0

消融与对比分析

论文还分析了以下问题：

比较维度	结论
MLM vs Span Mask	Span Corruption 更有效
输入格式 vs prompt	prefix prompt 更有效
单任务 vs 多任务	多任务微调更稳健
Encoder-only vs Encoder-Decoder	Encoder-Decoder 更泛化

阅读收获与启发

对我的启示

统一任务格式有利于通用模型设计与部署；
Prompt engineering 的潜力早已体现；
预训练目标的设计决定了泛化能力；
预训练语料质量和规模是成功关键；
多任务学习 + decoder 模型是未来趋势；