横扫一众基准测试的BERT等NLP模型,好像没那么强了。
因为它们遇到了一个中文数据集。
康奈尔大学留学生发布了第一个自由形式的中文阅读理解多选题数据集,其中86.6%的问题都需要文档外的知识。
在这个数据集上,各个模型的正确率最高也只有68%,比起人类的96%的表现,还是差距明显。
数据集C3
而机器阅读理解最大的挑战就是回答这类问题。而且中文在这方面的表现比英文差很多,一个原因是缺乏专门的数据集。
这份数据集命名为C3(free-form multiple-Choice Chinese machine reading Comprehension dataset)
收集的主要是形式自由的多项选择题,阅读材料来自汉语水平考试和民族汉语考试,包括试卷和练习。
一共有13369篇文章和19577个问题,其中的60%用是训练集,20%是开发集,20%是测试集。
数据集从类型上分为两个部分:
分别是正式书面文本和口语化文本。书面文本比口语化文本更长,但是两者都不能拿来作机器阅读长文章的训练数据集。
数据集统计情况如下表:
需要先验知识的问题共分为十类
研究者分析了回答什么样的问题需要先验知识。如果一个问题能够在文档中进行匹配,回答起来就几乎不需要先验知识,而需要先验知识的问题分为三类:
1、关于语言的知识:需要词汇/语法知识,例如:习语、谚语、否定、反义词、同义词、单词可能的含义和语法转换。
2、关于某个特定领域:需要但不限于一些事实上的知识,这些事实与特定领域的概念,概念定义和属性,概念之间的关系。
3、一般世界:需要有关世界如何运作的一般知识,或者被称为常识。在这个数据集中主要指的是百科全书假定不需要解释读者就知道的知识。
在第三类中,研究者又将问题分为8个子类型:
1、计算:数值计算和分析
2、内涵:关于对某物或某人隐含的感情、情感和语气
3、因果:事件B引发事件A,通常用来回答“为什么”的问题
4、暗示:要点、建议、意见、事实或事件没有在文本中明确表达
5、部分与整体:需要知道A是B的一部分
6、场景:观察到人类行为或活动以及相应的时间/位置信息。还需要了解参与者的个人信息(如职业、教育程度、个性、心理或身体状况),以及参与者之间的关系。
7、前提:如果A没有发生,那么B不会发生。
8、其它
基于支持回答问题句子的最少数量。研究者将所有问题分为三类:单个,多个,独立
所有问题的分类情况和简写标记如下表:
目前训练结果离人类水平差距大
用已有的方法和神经网络模型,研究者对数据集进行了训练,结果如下:
语言模型的预训练效果比基于规则的方法、基于Bi-LSTM的模型要明显优秀,但是性能最佳的模型只正确率也只有68%,比起人类的96%的表现,还是差距明显。
更好的模型还有待开发。
传送门
https://github.com/nlpdata/c3
“