中文的带有情感标注的语料库比较少, 所以我特地整理了一些公开的语料库, 有些怕丢失, 放到了自己的百度网盘里, 有需要的请自行下载。
中文对话情绪语料
sentiment_XS_test.txt
包含11577个手动标记的实例(文中提到的XS_test)。 sentiment_XS_30k.txt
包含几乎30k个自动标记的实例(文中提到的XS_30k)。
所有数据均来自人机对话日志,并由Jieba
工具进行分词。
如果你使用这个数据集,请参阅第12届计算智能与安全国际会议(CIS2016),论文:卷积神经网络的情感分类:大规模中文会话语料库的实验研究。
下载地址: https://github.com/xxxspy/Chinese_conversation_sentiment
中文微博情感分析测评数据
说明:数据来自腾讯微博 1。评测数据全集包括 20 个话题,每个话题采集大约1000条微博,共约20000条微博。数据采用xml格式,已经预先切分好句子。每条句子的所有标注信息都包含在
下载地址: https://pan.baidu.com/s/1psjysSXpKOEb1ciem7DsRw 密码:7hb4
中文情感词汇本体
中文情感词汇本体库是大连理工大学信息检索研究室在林鸿飞教授的指导下经过全体教研室成员的努力整理和标注的一个中文本体资源。该资源从不同角度描述一个中文词汇或者短语,包括词语词性种类、情感类别、情感强度及极性等信息。
中文情感词汇本体的情感分类体系是在国外比较有影响的Ekman的6大类情感分类体系的基础上构建的。在Ekman的基础上,词汇本体加入情感类别“好”对褒义情感进行了更细致的划分。最终词汇本体中的情感共分为7大类21小类。
构造该资源的宗旨是在情感计算领域,为中文文本情感分析和倾向性分析提供一个便捷可靠的辅助手段。中文情感词汇本体可以用于解决多类别情感分类的问题,同时也可以用于解决一般的倾向性分析的问题。
- 本体格式介绍
情感词汇本体中,一般的格式为。
表1 情感词汇本体格式举例
词语 词性种类 词义数 词义序号 情感分类 强度 极性 辅助情感分类 强度 极性
无所畏惧 idiom 1 1 PH 7 1
手头紧 idiom 1 1 NE 7 0
周到 adj 1 1 PH 5 1
言过其实 idiom 1 1 NN 5 2
其中,一个情感词可能对应多个情感,情感分类用于刻画情感词的主要情感分类,辅助情感为该情感词在具有主要情感分类的同时含有的其他情感分类。
- 情感分类及情感强度
情感分类按照论文《情感词汇本体的构造》所述,情感分为7大类21小类。
情感强度分为1,3,5,7,9五档,9表示强度最大,1为强度最小。
情感分类如表2所示:
表2 情感分类
编号 情感大类 情感类 例词
1 乐 快乐(PA) 喜悦、欢喜、笑眯眯、欢天喜地
2 安心(PE) 踏实、宽心、定心丸、问心无愧
3 好 尊敬(PD) 恭敬、敬爱、毕恭毕敬、肃然起敬
4 赞扬(PH) 英俊、优秀、通情达理、实事求是
5 相信(PG) 信任、信赖、可靠、毋庸置疑
6 喜爱(PB) 倾慕、宝贝、一见钟情、爱不释手
7 祝愿(PK) 渴望、保佑、福寿绵长、万寿无疆
8 怒 愤怒(NA) 气愤、恼火、大发雷霆、七窍生烟
9 哀 悲伤(NB) 忧伤、悲苦、心如刀割、悲痛欲绝
10 失望(NJ) 憾事、绝望、灰心丧气、心灰意冷
11 疚(NH) 内疚、忏悔、过意不去、问心有愧
12 思(PF) 思念、相思、牵肠挂肚、朝思暮想
13 惧 慌(NI) 慌张、心慌、不知所措、手忙脚乱
14 恐惧(NC) 胆怯、害怕、担惊受怕、胆颤心惊
15 羞(NG) 害羞、害臊、面红耳赤、无地自容
16 恶 烦闷(NE) 憋闷、烦躁、心烦意乱、自寻烦恼
17 憎恶(ND) 反感、可耻、恨之入骨、深恶痛绝
18 贬责(NN) 呆板、虚荣、杂乱无章、心狠手辣
19 妒忌(NK) 眼红、吃醋、醋坛子、嫉贤妒能
20 怀疑(NL) 多心、生疑、将信将疑、疑神疑鬼
21 惊 惊奇(PC) 奇怪、奇迹、大吃一惊、瞠目结舌
词性种类
情感词汇本体中的词性种类一共分为7类,分别是名词(noun),动词(verb),形容词(adj),副词(adv),网络词语(nw),成语(idiom),介词短语(prep)。
极性标注
每个词在每一类情感下都对应了一个极性。其中,0代表中性,1代表褒义,2代表贬义,3代表兼有褒贬两性。
注:褒贬标注时,通过词本身和情感共同确定,所以有些情感在一些词中可能极性1,而其他的词中有可能极性为0。存储格式及规模
中文情感本体以excel的格式进行存储,共含有情感词共计27466个,文件大小为1.22M。
下载地址: https://pan.baidu.com/s/1jTw3F-Zme2ekspQUUsCiNQ 密码:py1q
修改版下载地址: https://figshare.com/articles/___/6881282/1
中文褒贬义词词典
下载链接:https://pan.baidu.com/s/1RzqIGwrE023PmnEZGFszHg 密码:hu1h
商品评论情感语料库
中文情感分析语料库,包含 酒店、服装、水果、平板、洗发水 等 5 个领域的评价数据,每个领域各包含 5000 条正面和负面评价,数据抓取于 携程网 和 京东 ,仅供科研学习之用,欢迎下载使用!
下载地址: https://pan.baidu.com/s/1_9sGJFD29gssC9ZrQaMa7A 密码:h5hf
关注本页, 未完待续
我们逐渐补充更多的中文情感分析语料库, 希望对大家的研究有所帮助, 如果有特殊需求, 如网络数据抓取可以联系我。