浅谈问题生成（Question Generation）

刘璐 PaperWeekly 2022-07-04

收录于合集

©作者 | 刘璐

学校 | 北京邮电大学

研究方向 | 问题生成与QA

问题生成（Question Generation）是文本生成中的重要子任务，旨在根据输入数据（文本、知识库、图像等类型，本文仅聚焦文本类型）生成与输入相关且自然流畅的问题。由于机器阅读理解（Machine Reading Comprehension, MRC）和智能问答系统的蓬勃发展，问题生成受到了越来越广泛的关注。

本文将根据时间线对问题生成的相关研究进行梳理，并在文末介绍了一些个人认为有价值的研究方向。

传统的问题生成依赖于人工设计的规则和模版将陈述句转换为疑问句，这样的方法需耗费大量人力且依赖于深层的语法知识，泛化性能和可扩展能力较差。

使用深度学习方法进行问题生成最早在 2017 年被提出。Learning to Ask: Neural Question Generation for Reading Comprehension （ACL 2017）将端到端训练的神经网络应用于问题生成，采用 seq2seq+attention 模型架构，摆脱了转换规则与模版的局限，取得了相比于传统方法更好的性能。另一篇将神经网络应用于 QG 的奠基工作 Neural question generation from text: A preliminary study（EMNLP 2017）在编码时额外考虑了答案位置与语法信息，取得了更好的性能。

之后到 2019 年，相关研究主要以 seq2seq 架构为基础，改变模型结构和或使用一些技巧来提升模型的性能，具体包括以下几个方面。

答案编码

将答案作为输入来指导模型生成问题时更关注答案以提升模型性能，常用方法包括将答案位置作为输入特征或使用额外的编码器对答案编码。

Answer-focused and Position-aware Neural Question Generation.EMNLP, 2018
Improving Neural Question Generation Using Answer Separation.AAAI, 2019.
Answer-driven Deep Question Generation based on Reinforcement Learning.COLING, 2020.

语言特征

将额外的语言特征与词向量拼接作为输入来提升 QG，例如 word case、POS 和 NER 标签等。

Automatic Question Generation using Relative Pronouns and Adverbs.ACL, 2018.
Learning to Generate Questions by Learning What not to Generate.WWW, 2019.

问题类型建模

通过对问题类型或疑问词的显式建模来改善生成问题疑问词预测不准确的问题。

Question Generation for Question Answering.EMNLP,2017.
Answer-focused and Position-aware Neural Question Generation.EMNLP, 2018.
Question-type Driven Question Generation.EMNLP, 2019.

段落级别上下文

利用输入文本周围的相关上下文增加输入信息来提升问题生成效果。

Harvesting paragraph-level question-answer pairs from wikipedia.ACL, 2018.
Leveraging Context Information for Natural Question Generation.ACL, 2018.
Paragraph-level Neural Question Generation with Maxout Pointer and Gated Self-attention Networks.EMNLP, 2018.
Capturing Greater Context for Question Generation.AAAI, 2020.

内容选择

当答案信息不提供给模型时，给定输入段落，QG 系统需自动识别段落中值得提问的部分再生成问题。

Identifying Where to Focus in Reading Comprehension for Neural Question Generation.EMNLP, 2017.
Neural Models for Key Phrase Extraction and Question Generation.ACL Workshop, 2018.
A Multi-Agent Communication Framework for Question-Worthy Phrase Extraction and Question Generation.AAAI, 2019.

答案已知时，识别与答案相关的内容也有利于提升生成问题的效果。

Improving Question Generation With to the Point Context.EMNLP, 2019.

特定的训练目标

通过优化 ground truth 的对数似然来训练模型会对生成问题的多样性造成影响，一些工作通过结合强化学习使特定的奖励最大化来改善模型训练。

Teaching Machines to Ask Questions.IJCAI, 2018.
Natural Question Generation with Reinforcement Learning Based Graph-to-Sequence Model.NeurIPS Workshop, 2019.
Addressing Semantic Drift in Question Generation for Semi-Supervised Question Answering.EMNLP, 2019.
Exploring Question-Specific Rewards for Generating Deep Questions.COLING, 2020.
Answer-driven Deep Question Generation based on Reinforcement Learning.COLING, 2020.

多任务学习

通过一些辅助任务来提升 QG 的能力，如通过语言建模来提升句子表示；通过复述生成增加表达的多样性；通过语义匹配和答案位置预测来缓解生成的疑问词不合适和 copy 不相关词汇的问题。

Multi-Task Learning with Language Modeling for Question Generation.EMNLP, 2019.
How to Ask Good Questions? Try to Leverage Paraphrases.ACL, 2020.
Improving Question Generation with Sentence-level Semantic Matching and Answer Position Inferring.AAAI, 2020.

多样性

对潜在空间（如 VAE）和生成空间（如随机采样）进行控制来提升生成问题的多样性。

Variational Attention for Sequence-to-Sequence Models. ICML, 2018.
Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEs.ACL, 2020.
On the Importance of Diversity in Question Generation for QA.ACL, 2020.

预训练语言模型提出后，大多方法通过微调预训练模型实现问题生成，进一步改善了生成效果，常用模型包括 UniLM、BART、T5 等。

Unified Language Model Pre-training for Natural Language Understanding and Generation.NeurIPS, 2019.
UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training.arXiv, 2020.
ERNIE-GEN: An Enhanced Multi-Flow Pre-training and Fine-tuning Framework for Natural Language Generation.IJCAI, 2020.（SOTA）

此后，相关研究工作大多聚焦于问题生成在其他任务上的应用，不再通过修改模型提升生成效果，而是把问题生成作为整个系统的一部分直接使用。

数据增强

问题生成最直接的应用就是为问答模型或检索模型提供更多的训练数据，降低人工标注成本，提升模型的性能。

Addressing Semantic Drift in Question Generation for Semi-Supervised Question Answering.EMNLP, 2019.
Synthetic QA Corpora Generation with Roundtrip Consistency.ACL, 2019.
Template-Based Question Generation from Retrieved Sentences for Improved Unsupervised Question Answering.ACL, 2020.
Training Question Answering Models From Synthetic Data.EMNLP, 2020.
Embedding-based Zero-shot Retrieval through Query Generation.arXiv, 2020.
Towards Robust Neural Retrieval Models with Synthetic Pre-Training.arXiv, 2021.

领域迁移

在目标领域生成问题/问答对来进一步训练问答模型可以提升模型的领域适应能力。由于问题生成模型学习到的是对知识点的提问方式，相比于问答模型扩展能力更强（不依赖于特定领域），因此将在源领域训练好的问题生成模型用于目标域生成问题的质量不会下降太多。

End-to-End Synthetic Data Generation for Domain Adaptation of Question Answering Systems.EMNLP, 2020.
Improving Question Answering Model Robustness with Synthetic Adversarial Data Generation.ACL 2021.
Back-Training excels Self-Training at Unsupervised Domain Adaptation of Question Generation and Passage Retrieval.arXiv, 2021.

OpenQA

开放域问答系统（OpenQA）通常使用检索-阅读架构实现，虽在精度方面已取得较好的效果，但阅读器的线上推理会非常耗时。利用问题生成模型将文档转换为常见问答对（FAQ）的形式，线上仅需通过问题间的匹配来实现问答，保证准确率的同时大大提高了效率，提升了开放域问答模型的实用性。

Open-domain question answering with pre-constructed question spaces.NAACL, 2021.
Accelerating real-time question answering via question generation.AAAI, 2021.
PAQ: 65 Million Probably-Asked Questions and What You Can Do With Them.arXiv, 2021.

事实检查

通过问答对生成来构造一致性衡量指标或声明来进行事实检查。

Improving Factual Consistency of Abstractive Summarization via Question Answering.ACL, 2021.
Zero-shot Fact Verification by Claim Generation.ACL, 2021.

其他

近期还有一些其他的相关研究方向受到了广泛关注，如控制生成问题的难度、在问答式对话中生成问题、生成更深层次的问题（如多跳推理问题）、阐明性问题生成（Clarification Question Generation）等。

目前问题生成仍存在一些尚未解决却值得研究的问题。

评估

目前大多数模型使用 BLEU、ROUGE、METETOR 等自动评估指标对生成的问题进行评价，这些指标是对生成文本与参考文本重合程度的度量，最先用于机器翻译、摘要生成等任务，适用于相对确定的长文本生成的质量评估，对于问题这种多样且短小的文本并不是太合适。但是人工评估又耗时耗力。

目前也有一些针对评估的研究工作，主要思路是将主观的人工评估指标数学化，比如可回答性、语义、词汇多样性等。

Towards a Better Metric for Evaluating Question Generation Systems.EMNLP, 2018.
On the Importance of Diversity in Question Generation for QA.ACL, 2020.
Evaluating for Diversity in Question Generation over Text.arXiv, 2020.

为问题生成模型设计合适的评估指标可以进一步促进模型的性能提升。

一致性

模型生成的问答对不能保证抽取的答案可以作为生成问题的合适答案，存在事实错误、内容不相关等情况。目前做法是通过添加过滤模型（常用的为问答模型）过滤掉不一致的问答对。探索如何保证生成问答对的一致性是值得思考的问题。

多样性

我们希望模型可以根据输入文本从多个角度对不同的提问点进行提问。目前工作对多样性的研究主要针对问题的表达多样性，即同样语义的问题使用不同的问法。由于现有数据集标注不充分，针对多个提问点的生成模型的训练、对生成问题覆盖度和多样性的评估均是难以解决的问题。

非事实问题生成

目前研究主要集中于事实性问题生成，问题对应的答案通常为命名实体或简短的片段。然而在许多领域非事实问题或开放式问题占比很大，因此非事实问题生成十分值得研究。此类问题对应的答案为多个句子或片段，因此生成问题需更好地把握答案与文章的整体含义，更具有挑战性。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

浅谈问题生成（Question Generation）

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

生成图片，分享到微信朋友圈

浅谈问题生成（Question Generation）

您可能也对以下帖子感兴趣