- Unsupervised Question Answering by Cloze Translation, ACL 2019
- 随机从文本中抽取noun phrases或者named entity作为答案
- 将答案部分mask掉,生成cloze question
- 利用无监督翻译,将cloze question转化为natural question
缺点:
- 直接利用原句生成问题,问题与原文有较大重叠,不利于后续QA模型的训练
Github仓库
- Template-Based Question Generation from Retrieved Sentences for Improved Unsupervised Question Answering, ACL 2020
- 首先找到待提问的句子
- 把该句作为query,从corpus中查询与其相似的句子
- 基于相似的句子,利用模板生成问题
优点:
- 相较于前一篇文章,不再直接利用原句生成问题,而是优先寻找与其相似的句子,进而生成问题
缺点:
- 模板比较简单,不一定适用于所有句子结构,生成的问题可能会有语法错误
- 寻找到的相似句子在语义上未必与原句一致
Github仓库
- Harvesting and Refining Question-Answer Pairs for Unsupervised QA, ACL 2020
优点:
- 引文和原文相比,表达内容相近,表达方式又有所区别,非常有利于提问
缺点:
- 引文和原文的内容未必完全相同,这种构造问题的方式会产生一些冗余信息(29%)
- 利用语法依存树来构造问题,经常出现语法错误、表达不通顺的情况(62%)
- Improving Unsupervised Question Answering via Summarization-Informed Question Generation, EMNLP 2021
- 利用人工标注的summarization数据集来解决context和question间的重叠问题
- Unsupervised Question Answering via Answer Diversifying,COLING 2022
- 丰富答案的类型,不只是entity
综述:
Unsupervised Question Answering: Challenges, Trends, and Outlook