文本风格迁移的深度学习:
调查
作者:金*
亚马逊
Alexa人工智能
djinamzn@amazon.com
Zhijing Jin*
马克斯·普朗克研究所
智能系统
经验推理部
和苏黎世联邦理工学院系
计算机科学
zjin@tue.mpg.de
Zhiting Hu
加州大学圣地亚哥分校
Halıcıoğlu 数据科学研究所 (高清SI)
zhh019@ucsd.edu
奥尔加·维奇托莫娃
滑铁卢大学
工程学院
ovechtom@uwaterloo.ca
拉达·米哈尔恰
密歇根大学
电子计算机系统, 工程学院
mihalcea@umich.edu
文本风格迁移是自然语言生成中的一项重要任务, 其目的是控制
生成文本中的某些属性, 比如礼貌, 情感, 幽默, 和许多其他人.
在自然语言处理领域有着悠久的历史, 并且最近又重新获得了
深度神经模型带来的有前景的性能引起了广泛关注. 在这个
文章, 我们对神经文本风格迁移的研究进行了系统的调查, 跨越
100 自第一篇神经文本风格迁移工作以来的代表性文章 2017. 我们讨论的是
* 同等贡献.
提交材料已收到: 25 四月 2021; 收到修订版: 30 八月 2021; 接受出版:
4 十二月 2021.
https://doi.org/10.1162/COLI 00426
© 2022 计算语言学协会
根据知识共享署名-非商业性-禁止衍生品发布 4.0 国际的
(CC BY-NC-ND 4.0) 执照
我
D
哦
w
n
哦
A
d
e
d
F
r
哦
米
H
t
t
p
:
/
/
d
我
r
e
C
t
.
米
我
t
.
e
d
你
/
C
哦
我
我
/
我
A
r
t
我
C
e
–
p
d
F
/
/
/
/
4
8
1
1
5
5
2
0
0
6
6
0
8
/
C
哦
我
我
_
A
_
0
0
4
2
6
p
d
.
F
乙
y
G
你
e
s
t
t
哦
n
0
8
S
e
p
e
米
乙
e
r
2
0
2
3
计算语言学
体积 48, 数字 1
任务制定, 现有数据集和子任务, 评估, 以及丰富的方法论
存在并行和非并行数据时. 我们还提供各种讨论
关于这项任务未来发展的重要主题。1
1. 介绍
语言是有情境的. 每句话都适合特定的时间, 地方, 和场景,
传达说话者的具体特征, 并且通常有明确的意图.
例如, 不确定的人更有可能使用标签问题 (例如, “这
是真的, 不是吗?”) 比陈述句 (例如, “This is definitely true.”). 相似地, A
professional setting is more likely to include formal statements (例如, “Please consider
taking a seat.”) as compared to an informal situation (例如, “Come and sit!”). For artificial
intelligence systems to accurately understand and generate language, it is necessary
to model language with style/attribute,2 which goes beyond merely verbalizing the
semantics in a non-stylized way. The values of the attributes can be drawn from a wide
range of choices depending on pragmatics, such as the extent of formality, politeness,
simplicity, 性格, 情感, partner effect (例如, reader awareness), genre of writing
(例如, fiction or non-fiction), 等等.
The goal of TST is to automatically control the style attributes of text while preserv-
ing the content. TST has a wide range of applications, as outlined by McDonald and
普斯特约夫斯基 (1985) 和霍维 (1987). 语言风格至关重要,因为它使
自然语言处理更加以用户为中心. TST 有许多直接应用.
例如, 智能机器人就是这样的应用之一, 用户更喜欢独特且
一致的人 (例如, 善解人意的) 而不是冷漠或不一致的角色.
另一个应用是智能写作助手的开发; 例如,
非专业作家通常需要润色他们的写作以更好地符合他们的目的, 为了
例子, 更专业, 有礼貌的, 客观的, 幽默, 或其他高级写作
要求, 这可能需要多年的经验才能掌握. 其他应用包括
自动文本简化 (目标风格是“简单”), 消除在线文本偏差
(目标风格是“客观”), 对抗攻击性语言 (哪里的
目标风格是“非攻击性”), 等等.
正式定义 TST, 让我们将目标话语表示为 x(西德:48) 和目标
话语风格属性(西德:48). TST 旨在塑造 p(X(西德:48)|A, X), 其中 x 是给定文本
携带源属性值a. 考虑前面所表达的文本示例
通过两种不同程度的形式:
源句x:
目标句子x(西德:48):
源属性a:
“Come and sit!”
“请考虑坐下。”目标属性a(西德:48):
非正式的
正式的
在这种情况下, TST 模型应该能够修改形式并生成
正式句子x(西德:48) =“请考虑坐下。”给定非正式输入 x = “来
然后坐下!”. 请注意,TST 与其他 NLP 任务的主要区别, 风格制约的
语言建模, 是后者仅以样式标记为条件, 而尖沙咀
1 我们精选的论文列表位于 https://github.com/zhijing-jin/Text_Style_Transfer_Survey.
2 请注意,我们在本次调查中交替使用术语“样式”和“属性”. 属性范围更广
可以包含内容偏好的术语, 例如, 情绪, 话题, 等等. 本次调查采用风格
以同样广泛的方式, 遵循最近论文中的常见做法 (参见章节 2.1).
156
我
D
哦
w
n
哦
A
d
e
d
F
r
哦
米
H
t
t
p
:
/
/
d
我
r
e
C
t
.
米
我
t
.
e
d
你
/
C
哦
我
我
/
我
A
r
t
我
C
e
–
p
d
F
/
/
/
/
4
8
1
1
5
5
2
0
0
6
6
0
8
/
C
哦
我
我
_
A
_
0
0
4
2
6
p
d
.
F
乙
y
G
你
e
s
t
t
哦
n
0
8
S
e
p
e
米
乙
e
r
2
0
2
3
金等人.
文本风格迁移的深度学习: 调查
将目标样式属性 a 作为输入(西德:48) 和一个源句子 x 约束
内容.
定义风格迁移的关键是“风格”和“内容”的区别,”
有两种常见的做法. 第一个是根据语言定义, 在哪里
非功能性语言特征被分类为风格 (例如, 形式), 和
语义被分类到内容中. 相比之下, 第二种做法是数据驱动的——
给定两个语料库 (例如, 正面评论集和负面评论集), 不变性
两个语料库之间是内容, 而差异是风格 (例如, 情绪,
话题) (穆和维奇托莫娃 2020).
受 TST 需求不断增长的推动, 这一领域的积极研究已经出现,
从传统的语言学方法, 到最近的基于神经网络的
方法. 传统方法依赖于术语替换和模板. 对于前-
充足, NLG 天气预报的早期工作构建了特定于领域的模板
为不同用户表达不同类型的天气,具有不同程度的不确定性
(斯里帕达等人. 2004; 赖特等人. 2005; 贝尔兹 2008; 格卡齐亚, 柠檬, 和里瑟 2017).
更明确地关注 TST 的研究从基于框架语言开始
系统 (麦克唐纳和普斯特约夫斯基 1985), 和基于模式的 NLG 系统 (蓝色的
1987, 1990) 它生成具有实用约束的文本,例如在以下情况下的形式
小规模的明确定义的模式. 大多数早期工作都需要特定于领域的
模板, 表达某种属性的手写短语集 (例如, 友好的), 和
有时是具有相同含义但多个不同的表达式的查找表
属性 (贝特曼和帕里斯 1989; 斯塔马塔托斯等人. 1997; 力量, 斯科特, 和布阿亚德-
阿迦 2003; 赖特, 罗伯逊, 和奥斯曼 2003; 谢卡和墨水笔 2011; 市长和
沃克 2011).
随着过去十年深度学习的成功, 多种神经方法
最近建议进行 TST. 如果提供并行数据, 标准序列-
通常直接应用序列模型 (拉奥和特特罗 2018) (参见章节 4).
然而, 大多数用例没有并行数据, 所以非平行语料库上的 TST 有
成为一个多产的研究领域 (参见章节 5). 第一条方法解开
将文本转化为潜在空间中的内容和属性, 并应用生成建模
(胡等. 2017; 沉等人. 2017). 随后,另一条独特的产品线也加入了这一趋势
方法的, 原型编辑 (李等人. 2018), 它提取一个句子模板并
它的属性标记来生成文本. 另一个范式很快随之而来, 即,
伪并行语料库构建,以监督方式训练模型
伪并行数据 (张等人. 2018d; 金等人. 2019). 这三个方向, (1)
角度, (2) 原型编辑, 和 (3) 伪平行语料库构建,
随着基于 Transformer 的模型的出现进一步发展 (苏达卡尔,
乌帕迪亚, 和马赫斯瓦兰 2019; 矿石, 塞维林, 和罗特 2020).
鉴于 TST 方法的进步, 它现在开始扩大其影响
下游应用, 例如基于角色的对话生成 (牛和班萨尔
2018; 黄等人。. 2018), 文体总结 (金等人. 2020A), 程式化语言
模仿特定作者的建模 (赛义德等人. 2020), 在线文本去偏 (普里赞特
等人. 2020; 马等人. 2020), 明喻生成 (查克拉巴蒂, 穆雷桑, 和彭 2020),
和许多其他人.
TST 调查的动机. 对文本风格建模的兴趣日益浓厚
被视为一种趋势,反映出 NLP 研究人员开始更加关注
以用户为中心和个性化. 然而, 尽管人们对 TST 的兴趣日益浓厚,
现有文献显示基准数据集的选择存在很大差异,
157
我
D
哦
w
n
哦
A
d
e
d
F
r
哦
米
H
t
t
p
:
/
/
d
我
r
e
C
t
.
米
我
t
.
e
d
你
/
C
哦
我
我
/
我
A
r
t
我
C
e
–
p
d
F
/
/
/
/
4
8
1
1
5
5
2
0
0
6
6
0
8
/
C
哦
我
我
_
A
_
0
0
4
2
6
p
d
.
F
乙
y
G
你
e
s
t
t
哦
n
0
8
S
e
p
e
米
乙
e
r
2
0
2
3
计算语言学
体积 48, 数字 1
桌子 1
调查概览.
动机
数据
方法
扩展应用
• 艺术写作
• 沟通
• 减轻社会影响
问题
• 毒性
任务
• 正式性
• 礼貌 • 作者身份
• 性别
• 幽默
• 浪漫
• 偏见 • 政治倾向
• 简单
• 情绪
• 话题
主要特性
• 并行与. 非平行
• 大学- 与. 双向
• 数据集大小
• 大与. 小词
重叠
关于并行数据
• 多任务处理
• 推理技术
• 数据增强
关于非并行数据
• 解开纠缠
• 原型编辑
• 伪数据构造
帮助其他 NLP 任务
• 释义
• 数据增强
• 对抗稳健性
• 角色一致的对话
• 匿名化
• 总结
• 特定风格的机器翻译
方法论框架, 和评价指标. 因此, 这项调查的目的是
提供一些重要方面的总结和潜在的标准化
TST, 比如术语, 问题定义, 基准数据集, 和评价
指标. 我们还旨在提供有关 TST 方法的不同观点,
并为我们拟议的研究提出一些潜在的交叉研究问题
该领域的议程. 如表所示 1, 本次调查的主要贡献
如下面所述:
1. 我们进行了第一次全面审查,涵盖了大多数现有的
作品 (多于 100 文件) 基于深度学习的TST.
2. 我们提供任务设置的概述, 术语定义,
基准数据集 (部分 2), 以及我们所针对的评估指标
提出的标准实践可能对未来的工作有所帮助
(部分 3).
3. 我们对并行数据的现有方法进行分类 (部分 4) 和
非平行数据 (部分 5) 为此我们提炼出一些统一的
方法论框架.
4. 我们讨论 TST 的潜在研究议程 (部分 6), 包括
扩大风格范围, 改进方法论, 松动
数据集假设, 并改进评估指标.
5. 我们为如何扩大 TST 的影响提供了愿景 (部分 7),
包括连接到更多 NLP 任务, 以及更专业的
下游应用, 以及考虑一些重要的道德
影响.
论文选择. 本次调查审阅的神经TST论文主要来自顶级
NLP 和人工智能领域的会议 (人工智能), 包括前交叉韧带, EMNLP, 全国AACL,
科林, CoNLL, 神经信息处理系统, ICML, ICLR, AAAI, and IJCAI. 除会议外
文件, 我们还包括一些未经同行评审的预印本论文,它们可以提供一些
158
我
D
哦
w
n
哦
A
d
e
d
F
r
哦
米
H
t
t
p
:
/
/
d
我
r
e
C
t
.
米
我
t
.
e
d
你
/
C
哦
我
我
/
我
A
r
t
我
C
e
–
p
d
F
/
/
/
/
4
8
1
1
5
5
2
0
0
6
6
0
8
/
C
哦
我
我
_
A
_
0
0
4
2
6
p
d
.
F
乙
y
G
你
e
s
t
t
哦
n
0
8
S
e
p
e
米
乙
e
r
2
0
2
3
金等人.
文本风格迁移的深度学习: 调查
数字 1
风格的语言定义和数据驱动的风格定义的维恩图.
有关该领域的深刻信息. 选择非同行评审的主要因素
预印本论文包括新颖性和完整性, 除其他外.
2. 什么是文本风格迁移?
本节提供风格迁移任务的概述. 部分 2.1 经过
风格的定义和本次调查的范围. 部分 2.2 给出任务表述
并介绍了将在整个调查中使用的符号. 最后, 部分 2.3 列表
神经 TST 的所有常见子任务,可以节省文献综述的工作
未来的研究人员.
2.1 如何定义风格?
风格的语言学定义. 风格的直观概念是指
语义被表达 (麦克唐纳和普斯特约夫斯基 1985). 正如每个人都有的那样
他们自己的签名, 风格起源于每个人固有的特征
发声, 可以通过使用某些文体手段来表达,例如
隐喻, 以及词语的选择, 句法结构, 等等. 款式还可以
超越句子层面进入话语层面, 比如文体结构
整个作品, 例如, 意识流, 或闪回.
超越内在的个人风格, 出于实用目的, 风格进一步成为
protocol to regularize the manner of communication. 例如, for academic writ-
英, the protocol requires formality and professionalism. 蓝色的 (1987) defines style by its
pragmatic aspects, including both personal (例如, 性格, 性别) and interpersonal
(例如, 幽默, romance) aspects. Most existing literature also takes these well-defined
categories of styles.
Data-Driven Definition of Style as the Scope of this Survey. This survey aims to provide an
overview of existing neural TST approaches. To be concise, we will limit the scope to
the most common settings of existing literature. Specifically, most deep learning work
on TST adopts a data-driven definition of style, and the scope of this survey covers the
styles in currently available TST datasets. The data-driven definition of style is different
from the linguistic or rule-based definition of style, 理论上限制了什么
构成一种风格,而不是什么, 例如风格指南 (例如, 美国心理学
协会 2020) 这要求正式文本不包含任何缩写, 例如, “不是。”
两种风格定义的区别如图所示 1.
159
我
D
哦
w
n
哦
A
d
e
d
F
r
哦
米
H
t
t
p
:
/
/
d
我
r
e
C
t
.
米
我
t
.
e
d
你
/
C
哦
我
我
/
我
A
r
t
我
C
e
–
p
d
F
/
/
/
/
4
8
1
1
5
5
2
0
0
6
6
0
8
/
C
哦
我
我
_
A
_
0
0
4
2
6
p
d
.
F
乙
y
G
你
e
s
t
t
哦
n
0
8
S
e
p
e
米
乙
e
r
2
0
2
3
数据驱动风格语言风格语言风格没有现有的大型数据集来匹配风格, 例如, 欢快的风格。数据集中的属性与现有语言风格不匹配,但可用于基于深度学习的 TST 模型, 例如, Yelp 数据集。数据集中与语言风格相对应的属性(通常由人工注释), 例如,形式数据集.
计算语言学
体积 48, 数字 1
随着TST深度学习方法的兴起, 数据驱动的风格定义
将语言风格扩展到更广泛的概念——文本的一般属性. 它考虑到
“风格”作为随数据集变化的属性, 与以下特征相反
保持不变 (穆和维奇托莫娃 2020). 原因是深度学习模型
(哪些是本次调查的重点) 需要大型语料库来学习风格, 但不是
所有风格都有配套的大语料库. 所以, 除了极少数手动
具有语言风格定义的注释数据集, 比如形式上的 (拉奥和特特罗
2018) 和幽默 & romance (甘等人. 2017), 许多最近的数据集收集工作
自动查找元信息以将语料库链接到特定属性. 一个典型的
例子是广泛使用的 Yelp 评论数据集 (沉等人. 2017), 哪里的评论
低评级被放入负面语料库, 并且将高评价的评论放入
积极语料库, 虽然消极与. 积极的意见不是一种风格
根据语言学的定义, 但更多的是与内容相关的属性.
本次调查中提到的大多数方法都可以应用于以下场景
这种数据驱动的风格定义. 作为一把双刃剑, 大多数人的先决条件
方法的关键在于每种感兴趣的风格都存在特定于风格的语料库, 要么平行
或非平行. 请注意,未来的工作可能不采用这种假设,
这将在章节中讨论 6.3.
两种定义的比较. 数据驱动产生了两种现象
风格的定义与语言风格相对. 一是数据驱动的定义-
风格的起始可以包括更广泛的属性,包括内容和主题
文本的偏好. 另一个是数据驱动的风格, 如果通过自动收集-
通过元信息(例如评级)进行自动分类, 用户信息, 和来源
文本的, 可能比语言定义的风格更加模糊. 如图所示
等人. (2019, 部分 4.1.1), 一些自动收集的数据集有一个令人担忧的问题
当注释者处于较高的不可判定率和注释者间分歧率时
要求将数据集与人类定义的风格相关联,例如政治倾向和
特定性别的音调.
数据驱动风格的优点是可以与深度学习很好地结合
方法,因为大多数神经模型通过学习区分来学习风格的概念-
构建多种风格语料库. 为了 (非数据驱动) 语言风格, 虽然它
TST现有的深度学习工作中尚未得到充分探索, 我们在部分提供 6.3
讨论潜在的未来作品如何能够在没有任何影响的情况下学习语言学风格的 TST
匹配数据.
2.2 任务制定
我们在表中定义了本次调查中使用的主要符号 2.
正如前面章节中提到的 2.1, 大多数神经方法假设给定
属性值集合A, 每个属性值都有自己的语料库. 例如, 如果
任务是关于形式转移, 那么对于文本形式属性, 有
两个属性值, a =“正式”并且a(西德:48) =“非正式,” 对应于语料库 X1
正式句子和另一个非正式句子语料库 X2. 风格语料库可以
平行或不平行. 并行数据意味着每个具有属性a的句子
与具有另一个属性 a 的对应句子配对(西德:48). 相比之下, 非平行
数据仅假设单一风格语料库.
160
我
D
哦
w
n
哦
A
d
e
d
F
r
哦
米
H
t
t
p
:
/
/
d
我
r
e
C
t
.
米
我
t
.
e
d
你
/
C
哦
我
我
/
我
A
r
t
我
C
e
–
p
d
F
/
/
/
/
4
8
1
1
5
5
2
0
0
6
6
0
8
/
C
哦
我
我
_
A
_
0
0
4
2
6
p
d
.
F
乙
y
G
你
e
s
t
t
哦
n
0
8
S
e
p
e
米
乙
e
r
2
0
2
3
金等人.
文本风格迁移的深度学习: 调查
桌子 2
各变量的表示法及其对应的含义.
类别
符号
意义
属性
句子
模型
嵌入
A
A(西德:48)
A
人工智能
X
X(西德:48)
席
希
(西德:98)X(西德:48)
乙
G
足球俱乐部
θE
θG
θfc
z
A
属性值, 例如, 正式风格
属性值不同于
一组预定义的属性值
A 中的第 i 个属性值
属性值为a的句子
属性值为a的句子(西德:48)
属性值为ai的句子语料库
语料库 Xi 中的一句话
模型学习到的x的属性转移句
TST 模型的编码器
TST 模型的生成器
属性分类器
编码器参数
发电机参数
属性分类器的参数
文本的潜在表示, IE。, z
文本中属性值的潜在表示
Δ=E(X)
我
D
哦
w
n
哦
A
d
e
d
F
r
哦
米
H
t
t
p
:
/
/
d
我
r
e
C
t
.
米
我
t
.
e
d
你
/
C
哦
我
我
/
我
A
r
t
我
C
e
–
p
d
F
/
/
/
/
4
8
1
1
5
5
2
0
0
6
6
0
8
/
C
哦
我
我
_
A
_
0
0
4
2
6
p
d
.
F
乙
y
G
你
e
s
t
t
哦
n
0
8
S
e
p
e
米
乙
e
r
2
0
2
3
2.3 具有数据集的现有子任务
我们在表中列出了神经 TST 的常见子任务和相应的数据集 3. 这
感兴趣的属性因风格特征而异 (例如, 正式和礼貌) 内容
优先 (例如, 情绪和话题). 下面将详细阐述其中的每项任务.
形式. 调整文本的正式程度首先由 Hovy 提出 (1987).
这是最独特的风格方面之一,可以通过许多方面观察到。
语言现象, 比如更多的全名 (例如, “电视”) 而不是缩写-
系统蒸发散 (例如, “电视”), 和更多名词 (例如, “招揽”) 而不是动词 (例如, “要求”).
形式数据集, Grammarly 的雅虎答案形式语料库 (甘肃省农业农村联合会) (饶
和泰特罗 2018), 包含通过首次获取 50K 检索到的 50K 正式-非正式对
雅虎问答语料库中的非正式句子, 然后招募众包
工人以正式的方式重写它们. 布里亚库等人. (2021乙) 延长手续
数据集转换为包含另外三种语言的多语言版本, 巴西葡萄牙语,
法语, 和意大利语.
礼貌. 礼貌传递 (马达安等人. 2020) 旨在控制礼貌
文本. 例如, “你能把数据发给我吗??”是比较礼貌的表达方式
而不是“向我发送数据!”. 马达安等人. (2020) 编制了一个数据集 1.39 百万
来自原始安然语料库的自动标记实例 (谢蒂和阿迪比 2004).
由于礼貌取决于文化, 该数据集主要关注北方的礼貌
美式英语.
161
计算语言学
体积 48, 数字 1
桌子 3
TST常见子任务列表及其对应的属性值和数据集. 为了
具有多个特定属性语料库的数据集, 我们通过数量来报告它们的大小
所有语料库中最小的句子. 我们还报告数据集是否并行 (帕?).
任务
属性值
数据集
风格特点
形式
非正式↔正式
GYAFC3 (拉奥和特特罗 2018)
XFORMAL4 (布里亚库等人. 2021乙)
礼貌
不礼貌→有礼貌
礼貌5 (马达安等人. 2020)
性别
幽默 &
浪漫
男性↔女性
叫喊性别6 (普拉布莫耶等人。. 2018)
事实↔幽默↔
浪漫的
FlickrStyle7 (甘等人. 2017)
偏见
偏向→中性
维基中立性8 (普里赞特等人. 2020)
毒性
进攻性→非-
进攻
推特 (两位圣人, 梅尔尼克, 和帕迪 2018)
红迪网 (两位圣人, 梅尔尼克, 和帕迪 2018)
红迪网政治 (特兰, 张, 和
苏莱马尼 2020)
作者身份
莎士比亚↔现代莎士比亚 (徐等. 2012)
不同的圣经翻译-
托尔斯
圣经9 (卡尔森, 里德尔, 和洛克莫尔 2018)
简单
复杂→简单
参与度
平淡→有吸引力
内容偏好
情绪
正↔负
普华永道计划 (朱, 伯恩哈德, 和古列维奇 2010)
专家 (登贝尔肯, 啜饮, 和洛菲 2019)
MIMIC-III10 (翁, 钟, 和
绍洛维茨 2019)
默沙东11 (曹等人. 2020)
数学12 (Koncel-Kedziorski等人. 2016)
标题造型师13 (金等人. 2020A)
叫喊14 (沉等人. 2017)
亚马逊15 (他和麦考利 2016)
话题
政治
娱乐↔政治
雅虎! 答案16 (黄等人。. 2020)
民主党↔共和党政治17 (沃伊特等人. 2018)
尺寸
帕?
50K
1K
(西德:51)
(西德:51)
(西德:55)
1中号
2.5中号 (西德:55)
(西德:51)
5K
181K (西德:51)
58K
224K (西德:55)
350K
18K
28中号
(西德:51)
108K (西德:51)
(西德:51)
2.2K
(西德:55)
59K
114K (西德:51)
(西德:51)
<1K
146K (cid:55)
250K (cid:55)
277K
153K (cid:55)
540K (cid:55)
3GYAFC data: https:>下载pdf