头像 名字 简介 数据提供方 上传时间 大小 格式
中文微博情绪识别数据集
对于输入的整条微博,任务要求判断出该微博是否包含情绪。对包含情绪的微博,要求判别其情绪分类输出为 anger 愤怒、disgust 厌恶、fear 恐惧、happiness 高兴、like 喜好、sadness 悲伤、surprise 惊讶中的一种,即单分类输出。需要注意的是,一条微博中可能包含多个个体的不同情绪,情绪分类应以博主的主要情绪为准。
徐睿峰(哈工大深圳研究生院)、李寿山(苏州大学)
2019.4.22
18MB
zip
中文微博情感分析数据集
评测数据来自新浪微博,对于输入的整条微博,任务要求判断出该微博是否包含情绪。对包含情绪的微博,要求判别其情绪分类输出为 anger 愤怒、disgust 厌恶、fear 恐惧、happiness 高兴、like 喜好、sadness 悲伤、surprise 惊讶。
徐睿峰(哈工大深圳研究生院)
2019.4.22
18MB
zip
情感分类数据集
本数据集包括4万多条句子,分为“其他(Null)”,“喜好(Like)”,“悲伤(Sad)”,“厌恶(Disgust)”,“本数据集包括4万多条句子,分为“其他(Null)”,“喜好(Like)”,“悲伤(Sad)”,“厌恶(Disgust)”,“本数据集包括4万多条句子,分为“其他(Null)”,“喜好(Like)”,“悲伤(Sad)”,“厌恶(Disgust)”,“
清华大学计算机科学与技术系黄民烈副教授实验室
2018.1.1
2.8MB
json
情感对话生成
情感对话生成数据集(Emotional Conversation Generation, ECG)包括6000多条句子,分为喜好(Like),悲伤(Sad),厌恶(Disgust),愤怒(Anger),高兴(Happiness)六类,情绪类别在emotion列给出。
清华大学计算机科学与技术系黄民烈副教授实验室
2018.2.28
45MB
zip
开放域问答数据集
该任务来自NLPCC 2015评测任务,该任务提供了两个测试数据集,分别为英文和中文。每个测试集都包含一系列问题。我们提供每个问题的标准答案。这些数据可用于提取候选答案或训练QA系统。
微软亚洲研究院段楠主管研究员
2018.4.18
9.02MB
zip
中文搜索中实体识别与链接数据集
该任务来自NLPCC 2015评测任务,该任务的目标是对短queries中的实体进行识别并链接到对应的中文知识库中。本数据集包括一个中文知识库,该知识库来自各类中文百科的信息框,包括中文维基百科和百度百科
北京大学冯岩松副教授
2018.4.18
1.36MB
zip
面向微博的中文新闻摘要数据集
该任务来自NLPCC 2015评测任务,该任务被定义为自动生成一篇中文新闻的摘要任务。每一条微博信息都由一个人工编辑撰写和发布,我们认为它是相关新闻文章的书面摘要。
北京大学计算机科学技术研究所万小军研究员
2018.4.18
1.64MB
zip
微博文本的中文分词数据
该任务来自NLPCC 2016评测任务,该任务目的是研究微博文本的中文分词技术。与传统单一的分词评价方法不同,本任务引入了一种新的多粒度分词评价准则。该数据集是从新浪微博收集的,无论是训练和测试文件都是UTF-8编码。
复旦大学计算机科学技术学院邱锡鹏副教授
2018.4.18
18MB
zip
中文词相似度数据
该任务来自NLPCC 2016评测任务,该任务提供了一个中文词汇相似度数据集,用于评估和比较词汇相似度的不同语义度量,包括500个词对及其相似度。
北京大学计算语言学研究所吴云芳副教授
2018.4.18
237 KB
zip
中文微博中的立场检测数据
该任务来自NLPCC 2016评测任务,该任务的目的是自动确定一个微博文本的作者是否喜爱给定的目标,或不喜欢给定的目标,或者两者都不是。应该注意到这里给定的目标可能并没有在微博文本中。
哈尔滨工业大学深圳研究生院计算机科学与技术学院徐睿峰教授
2018.4.18
2.5MB
zip
体育新闻自动生成数据
该任务来自NLPCC 2016评测任务,该任务是评估从网络直播文本中生成中文体育新闻的摘要技术。一个网络直播文本的内容通常是很长的,因此该任务可以视为对长文本进行摘要生成。该数据集中包括样本(训练)数据和测试数据。
北京大学计算机科学技术研究所万小军研究员
2018.4.18
962 KB
zip
中文词语义关系分类数据描
该任务来自NLPCC 2017评测任务,本任务以词的语义分析为研究对象,旨在研究中文词汇语义关系的自动分类技术。
北京大学计算语言学研究所吴云芳副教授
2018.4.18
226 KB
zip
新闻标题分类数据
该任务来自NLPCC 2017评测任务,该任务的目的是评价短文本自动分类技术,即中文新闻标题的分类。每个新闻标题(即新闻标题)都需要被划分为一个或多个预定义的类别。
复旦大学计算机科学技术学院邱锡鹏副教授
2018.4.18
14.7MB
zip
文档摘要数据集
该任务来自NLPCC 2017评测任务,该任务提供了一个用于中文新闻文档摘要的数据集,用来评价和比较不同的文档摘要技术。“TTnews”语料库包含测试集和训练集。
头条AI实验室Lifeng Hua
2018.4.18
zip
开放域问答数据集
该任务来自NLPCC 2017评测任务,开放域问答评价任务主要包括三项子任务,基于知识库的问答(kbqa),基于文档的问答(dbqa),和基于表的问答(tbqa)。kbqa的任务是基于知识库的中文问题回答。。
微软亚洲研究院段楠主管研究员
2018.4.18
20.1 MB
zip
社交媒体用户建模
该任务来自NLPCC 2017评测任务,该任务提供了一个社交媒体数据集,包括以下异构信息:用户属性(如性别、年龄)、社交关系(following关系)、用户标签、用户发布的推文和用户的位置信息
微软亚洲研究院张富峥研究员
2018.4.18
41.9MB
zip
对话系统问题生成数据集
对话系统问题生成数据集(Dialogue Question Generation, DQG)中所有输入输出对都是从Weibo数据集中基于特定的规则筛选得到,共计约49万组。我们筛选了所有session中的第一次对话(与上文无关),且要求Response中包含疑问词(或问号),所包含的疑问词的列表同样在数据集中给出。我们剔除了那些不包含动词或名词的回复从而避免过多的通用提问。数据集中,Post为对话的输入,Response为筛选后的提问回复。
清华大学计算机系黄民烈副教授
2018.6.26
zip
个性化对话生成数据集
个性化对话生成数据集(Personality Conversatrion Generation Dataset)共包含93,262条训练数据和1,000条测试数据,数据覆盖十类属性,分别为姓名(name)、性别(gender)、年龄(age)、居住地(location)、体重(weight)、星座(constellation)、爱好(hobby)、工作(employer)、特长(speciality)以及偶像(idol)。
清华大学计算机系黄民烈副教授
2018.6.26
zip
含句式标签的回复生成数据集
含句式标签的回复生成数据集(Response Generation with Sentence Function Labels)包含近200万个单轮对话(即请求-回复的语句对),每个语句对都含有回复的句式类型标签,分别代表疑问句(Interrogative)、陈述句(Declarative)和祈使句(Imperative)。该数据集的对话部分已经分词,句式类型的标签通过分类器的自动标注获得。
清华大学计算机系黄民烈副教授
2018.6.26
tar,gz
多关系问答对数据集
多关系问答对数据集(PathQuestion)包括针对知识图谱路径的多关系问答对 (问题-答案-对应路径) 9000余条。从知识库抽取不同长度的路径,根据路径包含的关系的不同采用不同的模板生成问题。答案为路径终点的实体。对于一对多关系,给出了合理答案实体的集合。
清华大学计算机系黄民烈副教授
2018.6.26
zip
常识对话生成数据集
常识对话生成数据集(Commonsense Conversation Dataset)包括3,000,000多条对话数据,相关常识知识库包含20,000多个实体,44个关系,120,000多个知识三元组。对话数据由 Reddit 论坛收集而来,经过常识知识库的匹配后,保证其 Post 与 Response 都存在至少一个实体蕴含在一个常识知识三元组中。
清华大学计算机系黄民烈副教授
2018.6.26
tar.gz