最全中文词向量数据下载-都是训练好的优质向量

分享时@该用户已经被封, 我就能回答你的问题奥!

文章目录
  1. 1. 中文词向量
    1. 1.1. 引用
    2. 1.2. 格式
    3. 1.3. 预训练的中文单词矢量
      1. 1.3.1. 基本设置
      2. 1.3.2. 各种领域词向量
      3. 1.3.3. 词共现性
    4. 1.4. 表示
    5. 1.5. 上下文特征
    6. 1.6. 语料库
    7. 1.7. 工具包
    8. 1.8. 中文推理基准
    9. 1.9. 评估工具包

词向量是进行自然语言处理的常用技术, 但是训练词向量需要很多语料库和计算力, 于是有人训练好了很多词向量供我们使用, 下面是一些优质的词向量, 可以直接下载使用。

中文词向量

以下文字由本站站长翻译而来:原文在此

这个项目提供100多个用不同表示(密集和稀疏),上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量(嵌入)。可以轻松获得具有不同属性的预先训练的向量,并将它们用于下游任务。

此外,我们提供了一个中文类比推理数据集 CA8 和评估工具包,供用户评估其词向量的质量。

引用

请引用论文,如果使用这些嵌入和CA8数据集。

Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du, Analogical Reasoning on Chinese Morphological and Semantic Relations, accepted by ACL 2018.

1
2
3
4
5
6
@article{shen2018analogical,
title={Analogical Reasoning on Chinese Morphological and Semantic Relations},
author={Shen, Li and Zhe, Zhao and Renfen, Hu and Wensi, Li and Tao, Liu and Xiaoyong, Du},
journal={arXiv preprint arXiv:1805.06504},
year={2018}
}
1
2
3
4
5
@InProceedings{shen2018analogical,
title={Analogical Reasoning on Chinese Morphological and Semantic Relations},
author={Shen, Li and Zhe, Zhao and Renfen, Hu and Wensi, Li and Tao, Liu and Xiaoyong, Du},
year={2018},
}

格式

预先训练好的向量文件是文本格式。每行包含一个单词和它的向量。每个值由空格分隔。第一行记录元信息:第一个数字表示文件中的字数,第二个数字表示向量大小。

除了密集的单词向量(用SGNS训练)之外,我们还提供稀疏向量(用PPMI训练)。它们与liblinear的格式相同,其中“:”之前的数字表示维度索引,“:”之后的数字表示该值。

预训练的中文单词矢量

基本设置

Window Size Dynamic Window Sub-sampling Low-Frequency Word Iteration Negative Sampling*
5 Yes 1e-5 10 5 5

各种领域词向量

用不同的表示法,上下文特征和语料库训练的中文单词向量。下面的下载链接都是我的百度网盘, 因为怕资料丢失, 所以统一保存在了我的网盘, 后期可能回不时更新。

Word2vec / Skip-Gram with Negative Sampling (SGNS)
Corpus Context Features
Word Word + Ngram Word + Character Word + Character + Ngram
Baidu Encyclopedia 百度百科 300d 300d 300d 300d
Wikipedia_zh 中文维基百科 300d 300d 300d 300d
People’s Daily News 人民日报 300d 300d 300d 300d
Sogou News 搜狗新闻 300d 300d 300d 300d
Financial News 金融新闻 300d 300d 300d 300d
Zhihu_QA 知乎问答 300d 300d 300d 300d
Weibo 微博 300d 300d 300d 300d
Literature 文学作品 300d 300d 300d 300d
Complete Library in Four Sections
四库全书
300d 300d NAN NAN
Mixed-large 综合 300d 300d 300d 300d

Positive Pointwise Mutual Information (PPMI)
Corpus Context Features
Word Word + Ngram Word + Character Word + Character + Ngram
Baidu Encyclopedia 百度百科 300d 300d 300d 300d
Wikipedia_zh 中文维基百科 300d 300d 300d 300d
People’s Daily News 人民日报 300d 300d 300d 300d
Sogou News 搜狗新闻 300d 300d 300d 300d
Financial News 金融新闻 300d 300d 300d 300d
Zhihu_QA 知乎问答 300d 300d 300d 300d
Weibo 微博 300d 300d 300d 300d
Literature 文学作品 300d 300d 300d 300d
Complete Library in Four Sections
四库全书
300d 300d NAN NAN
Mixed-large 综合 300d 300d 300d 300d

词共现性

我们发布的词向量来自不同的共现统计量。目标和上下文向量在一些相关论文中通常被称为输入和输出向量。

在这一部分中,可以获得超出单词的任意语言单位的向量。例如,字符向量(word-character)。

所有向量均由SGNS在百度百科上进行训练。








Feature Co-occurrence Type Target Word Vectors Context Word Vectors
Word Word → Word 300d 300d
Ngram Word → Ngram (1-2) 300d 300d
Word → Ngram (1-3) 300d 300d
Ngram (1-2) → Ngram (1-2) 300d 300d
Character Word → Character (1) 300d 300d
Word → Character (1-2) 300d 300d
Word → Character (1-4) 300d 300d
Radical Radical 300d 300d
Position Word → Word (left/right) 300d 300d
Word → Word (distance) 300d 300d
Global Word → Text 300d 300d
Syntactic Feature Word → POS 300d 300d
Word → Dependency 300d 300d

表示

现有的单词表示方法分为两类,即密集稀疏向量。 SGNS模型(word2vec工具包中的一个模型)和PPMI模型分别是这两类的典型方法。 SGNS模型通过浅层神经网络训练低维实数(密集)向量。它也被称为神经嵌入方法。 PPMI模型是一种稀疏的特征表示,通过PPM加权方案进行加权。

上下文特征

三个上下文特征: word ngram character 常见于文献中。大多数单词表示方法主要利用单词共现统计,即使用单词作为上下文特征(单词特征)。受语言建模问题的启发,我们在上下文中引入了ngram特性。 word-word和word-ngram共现统计都用于训练(ngram特征)。对于中国人来说,汉字(汉字)通常表达强烈的语义。为此,我们考虑使用单词和单词字符共现统计来学习单词向量。字符级ngram的长度范围从1到4 (字符特征)

除了word,ngram和character之外,还有其他对单词向量的属性具有实质影响的特征。例如,使用整个文本作为上下文特征可以将更多的主题信息引入词向量;使用依赖关系解析作为上下文特征可以为词向量添加语法约束。本项目考虑了17种同现类型。

语料库

我们费了很大劲收集各个领域的语料。所有文本数据都通过删除html和xml标签进行预处理。只保留纯文本,并且[HanLP(v_1.5.3)](https://github.com/hankcs/HanLP)用于分词。详细的语料库信息如下所示:

Corpus Size Tokens Vocabulary Size Description
Baidu Encyclopedia
百度百科
4.1G 745M 5422K Chinese Encyclopedia data from
https://baike.baidu.com/
Wikipedia_zh
中文维基百科
1.3G 223M 2129K Chinese Wikipedia data from
https://dumps.wikimedia.org/
People’s Daily News
人民日报
3.9G 668M 1664K News data from People’s Daily(1946-2017)
http://data.people.com.cn/
Sogou News
搜狗新闻
3.7G 649M 1226K News data provided by Sogou labs
http://www.sogou.com/labs/
Financial News
金融新闻
6.2G 1055M 2785K Financial news collected from multiple news websites
Zhihu_QA
知乎问答
2.1G 384M 1117K Chinese QA data from
https://www.zhihu.com/
Weibo
微博
0.73G 136M 850K Chinese microblog data provided by NLPIR Lab
http://www.nlpir.org/download/weibo.7z
Literature
文学作品
0.93G 177M 702K 8599 modern Chinese literature works
Mixed-large
综合
22.6G 4037M 10653K We build the large corpus by merging the above corpora.
Complete Library in Four Sections
四库全书
1.5G 714M 21.8K The largest collection of texts in pre-modern China.

所有的单词都考虑在内,包括低频词。

工具包

所有的单词向量由[ngram2vec](https://github.com/zhezhaoa/ngram2vec/)工具箱进行训练。 Ngram2vec工具箱是[word2vec](https://github.com/svn2github/word2vec)和[fasttext](https://github.com/facebookresearch/fastText)工具箱的超集,支持任意上下文特性和模型。

中文推理基准

词向量的质量通常通过推理问题任务来评估。在这个项目中,有两个基准被用于评估。首先是CA翻译,其中大多数类比问题直接从英语基准转换而来。虽然CA翻译已被广泛用于许多中文word embedding论文,但它只包含三个语义问题的问题,涵盖了134个中文单词。相比之下,CA8是专门为中文而设计的。它包含了17813个类比问题,涵盖了全面的形态和语义关系。 CA转换后的CA8及其详细描述在[ testsets ](https://github.com/Embedding/Chinese-Word-Vectors/tree/master/testsets)文件夹中提供。

评估工具包

我们在[evaluation](https://github.com/Embedding/Chinese-Word-Vectors/tree/master/evaluation)文件夹中提供评估工具包。

运行以下代码来评估密集向量。

1
2
`$ python ana_eval_dense.py -v <vector.txt> -a CA8/morphological.txt
$` python ana_eval_dense.py -v <vector.txt> -a CA8/semantic.txt

运行以下代码来评估稀疏向量。
`
$ python ana_eval_sparse.py -v <vector.txt> -a CA8/morphological.txt $

注意
本文由jupyter notebook转换而来, 您可以在这里下载notebook
有问题可以直接在下方留言
或者给我发邮件675495787[at]qq.com
请记住我的网址: mlln.cn 或者 jupyter.cn