头像 | 名字 | 简介 | 数据提供方 | 上传时间 | 大小 | 格式 |
---|---|---|---|---|---|---|
中文微博情绪识别数据集
|
对于输入的整条微博,任务要求判断出该微博是否包含情绪。对包含情绪的微博,要求判别其情绪分类输出为 anger 愤怒、disgust 厌恶、fear 恐惧、happiness 高兴、like 喜好、sadness 悲伤、surprise 惊讶中的一种,即单分类输出。需要注意的是,一条微博中可能包含多个个体的不同情绪,情绪分类应以博主的主要情绪为准。
|
徐睿峰(哈工大深圳研究生院)、李寿山(苏州大学)
|
2019.4.22
|
18MB
|
zip
|
|
中文微博情感分析数据集
|
评测数据来自新浪微博,对于输入的整条微博,任务要求判断出该微博是否包含情绪。对包含情绪的微博,要求判别其情绪分类输出为 anger 愤怒、disgust 厌恶、fear 恐惧、happiness 高兴、like 喜好、sadness 悲伤、surprise 惊讶。
|
徐睿峰(哈工大深圳研究生院)
|
2019.4.22
|
18MB
|
zip
|
|
情感分类数据集
|
本数据集包括4万多条句子,分为“其他(Null)”,“喜好(Like)”,“悲伤(Sad)”,“厌恶(Disgust)”,“本数据集包括4万多条句子,分为“其他(Null)”,“喜好(Like)”,“悲伤(Sad)”,“厌恶(Disgust)”,“本数据集包括4万多条句子,分为“其他(Null)”,“喜好(Like)”,“悲伤(Sad)”,“厌恶(Disgust)”,“
|
清华大学计算机科学与技术系黄民烈副教授实验室
|
2018.1.1
|
2.8MB
|
json
|
|
情感对话生成
|
情感对话生成数据集(Emotional Conversation Generation, ECG)包括6000多条句子,分为喜好(Like),悲伤(Sad),厌恶(Disgust),愤怒(Anger),高兴(Happiness)六类,情绪类别在emotion列给出。
|
清华大学计算机科学与技术系黄民烈副教授实验室
|
2018.2.28
|
45MB
|
zip
|
|
开放域问答数据集
|
该任务来自NLPCC 2015评测任务,该任务提供了两个测试数据集,分别为英文和中文。每个测试集都包含一系列问题。我们提供每个问题的标准答案。这些数据可用于提取候选答案或训练QA系统。
|
微软亚洲研究院段楠主管研究员
|
2018.4.18
|
9.02MB
|
zip
|
|
中文搜索中实体识别与链接数据集
|
该任务来自NLPCC 2015评测任务,该任务的目标是对短queries中的实体进行识别并链接到对应的中文知识库中。本数据集包括一个中文知识库,该知识库来自各类中文百科的信息框,包括中文维基百科和百度百科
|
北京大学冯岩松副教授
|
2018.4.18
|
1.36MB
|
zip
|
|
面向微博的中文新闻摘要数据集
|
该任务来自NLPCC 2015评测任务,该任务被定义为自动生成一篇中文新闻的摘要任务。每一条微博信息都由一个人工编辑撰写和发布,我们认为它是相关新闻文章的书面摘要。
|
北京大学计算机科学技术研究所万小军研究员
|
2018.4.18
|
1.64MB
|
zip
|
|
微博文本的中文分词数据
|
该任务来自NLPCC 2016评测任务,该任务目的是研究微博文本的中文分词技术。与传统单一的分词评价方法不同,本任务引入了一种新的多粒度分词评价准则。该数据集是从新浪微博收集的,无论是训练和测试文件都是UTF-8编码。
|
复旦大学计算机科学技术学院邱锡鹏副教授
|
2018.4.18
|
18MB
|
zip
|
|
中文词相似度数据
|
该任务来自NLPCC 2016评测任务,该任务提供了一个中文词汇相似度数据集,用于评估和比较词汇相似度的不同语义度量,包括500个词对及其相似度。
|
北京大学计算语言学研究所吴云芳副教授
|
2018.4.18
|
237 KB
|
zip
|
|
中文微博中的立场检测数据
|
该任务来自NLPCC 2016评测任务,该任务的目的是自动确定一个微博文本的作者是否喜爱给定的目标,或不喜欢给定的目标,或者两者都不是。应该注意到这里给定的目标可能并没有在微博文本中。
|
哈尔滨工业大学深圳研究生院计算机科学与技术学院徐睿峰教授
|
2018.4.18
|
2.5MB
|
zip
|
|
体育新闻自动生成数据
|
该任务来自NLPCC 2016评测任务,该任务是评估从网络直播文本中生成中文体育新闻的摘要技术。一个网络直播文本的内容通常是很长的,因此该任务可以视为对长文本进行摘要生成。该数据集中包括样本(训练)数据和测试数据。
|
北京大学计算机科学技术研究所万小军研究员
|
2018.4.18
|
962 KB
|
zip
|
|
中文词语义关系分类数据描
|
该任务来自NLPCC 2017评测任务,本任务以词的语义分析为研究对象,旨在研究中文词汇语义关系的自动分类技术。
|
北京大学计算语言学研究所吴云芳副教授
|
2018.4.18
|
226 KB
|
zip
|
|
新闻标题分类数据
|
该任务来自NLPCC 2017评测任务,该任务的目的是评价短文本自动分类技术,即中文新闻标题的分类。每个新闻标题(即新闻标题)都需要被划分为一个或多个预定义的类别。
|
复旦大学计算机科学技术学院邱锡鹏副教授
|
2018.4.18
|
14.7MB
|
zip
|
|
文档摘要数据集
|
该任务来自NLPCC 2017评测任务,该任务提供了一个用于中文新闻文档摘要的数据集,用来评价和比较不同的文档摘要技术。“TTnews”语料库包含测试集和训练集。
|
头条AI实验室Lifeng Hua
|
2018.4.18
|
zip
|
||
开放域问答数据集
|
该任务来自NLPCC 2017评测任务,开放域问答评价任务主要包括三项子任务,基于知识库的问答(kbqa),基于文档的问答(dbqa),和基于表的问答(tbqa)。kbqa的任务是基于知识库的中文问题回答。。
|
微软亚洲研究院段楠主管研究员
|
2018.4.18
|
20.1 MB
|
zip
|
|
社交媒体用户建模
|
该任务来自NLPCC 2017评测任务,该任务提供了一个社交媒体数据集,包括以下异构信息:用户属性(如性别、年龄)、社交关系(following关系)、用户标签、用户发布的推文和用户的位置信息
|
微软亚洲研究院张富峥研究员
|
2018.4.18
|
41.9MB
|
zip
|
|
对话系统问题生成数据集
|
对话系统问题生成数据集(Dialogue Question Generation, DQG)中所有输入输出对都是从Weibo数据集中基于特定的规则筛选得到,共计约49万组。我们筛选了所有session中的第一次对话(与上文无关),且要求Response中包含疑问词(或问号),所包含的疑问词的列表同样在数据集中给出。我们剔除了那些不包含动词或名词的回复从而避免过多的通用提问。数据集中,Post为对话的输入,Response为筛选后的提问回复。
|
清华大学计算机系黄民烈副教授
|
2018.6.26
|
zip
|
||
个性化对话生成数据集
|
个性化对话生成数据集(Personality Conversatrion Generation Dataset)共包含93,262条训练数据和1,000条测试数据,数据覆盖十类属性,分别为姓名(name)、性别(gender)、年龄(age)、居住地(location)、体重(weight)、星座(constellation)、爱好(hobby)、工作(employer)、特长(speciality)以及偶像(idol)。
|
清华大学计算机系黄民烈副教授
|
2018.6.26
|
zip
|
||
含句式标签的回复生成数据集
|
含句式标签的回复生成数据集(Response Generation with Sentence Function Labels)包含近200万个单轮对话(即请求-回复的语句对),每个语句对都含有回复的句式类型标签,分别代表疑问句(Interrogative)、陈述句(Declarative)和祈使句(Imperative)。该数据集的对话部分已经分词,句式类型的标签通过分类器的自动标注获得。
|
清华大学计算机系黄民烈副教授
|
2018.6.26
|
tar,gz
|
||
多关系问答对数据集
|
多关系问答对数据集(PathQuestion)包括针对知识图谱路径的多关系问答对 (问题-答案-对应路径) 9000余条。从知识库抽取不同长度的路径,根据路径包含的关系的不同采用不同的模板生成问题。答案为路径终点的实体。对于一对多关系,给出了合理答案实体的集合。
|
清华大学计算机系黄民烈副教授
|
2018.6.26
|
zip
|
||
常识对话生成数据集
|
常识对话生成数据集(Commonsense Conversation Dataset)包括3,000,000多条对话数据,相关常识知识库包含20,000多个实体,44个关系,120,000多个知识三元组。对话数据由 Reddit 论坛收集而来,经过常识知识库的匹配后,保证其 Post 与 Response 都存在至少一个实体蕴含在一个常识知识三元组中。
|
清华大学计算机系黄民烈副教授
|
2018.6.26
|
tar.gz
|