最全中文词向量数据下载-都是训练好的优质向量

2018年06月28日

文章目录

1. 中文词向量

词向量是进行自然语言处理的常用技术, 但是训练词向量需要很多语料库和计算力, 于是有人训练好了很多词向量供我们使用, 下面是一些优质的词向量, 可以直接下载使用。

中文词向量

以下文字由本站站长翻译而来:原文在此

这个项目提供100多个用不同表示（密集和稀疏），上下文特征（单词，ngram，字符等）和语料库训练的中文单词向量（嵌入）。可以轻松获得具有不同属性的预先训练的向量，并将它们用于下游任务。

此外，我们提供了一个中文类比推理数据集** CA8 **和评估工具包，供用户评估其词向量的质量。

引用

请引用论文，如果使用这些嵌入和CA8数据集。

Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du, Analogical Reasoning on Chinese Morphological and Semantic Relations, accepted by ACL 2018.

@article{shen2018analogical,
  title={Analogical Reasoning on Chinese Morphological and Semantic Relations},
  author={Shen, Li and Zhe, Zhao and Renfen, Hu and Wensi, Li and Tao, Liu and Xiaoyong, Du},
  journal={arXiv preprint arXiv:1805.06504},
  year={2018}
}

@InProceedings{shen2018analogical,
  title={Analogical Reasoning on Chinese Morphological and Semantic Relations},
  author={Shen, Li and Zhe, Zhao and Renfen, Hu and Wensi, Li and Tao, Liu and Xiaoyong, Du},
  year={2018},
}

格式

预先训练好的向量文件是文本格式。每行包含一个单词和它的向量。每个值由空格分隔。第一行记录元信息：第一个数字表示文件中的字数，第二个数字表示向量大小。

除了密集的单词向量（用SGNS训练）之外，我们还提供稀疏向量（用PPMI训练）。它们与liblinear的格式相同，其中“：”之前的数字表示维度索引，“：”之后的数字表示该值。

预训练的中文单词矢量

基本设置

Window Size	Dynamic Window	Sub-sampling	Low-Frequency Word	Iteration	Negative Sampling^*
5	Yes	1e-5	10	5	5

各种领域词向量

用不同的表示法，上下文特征和语料库训练的中文单词向量。下面的下载链接都是我的百度网盘, 因为怕资料丢失, 所以统一保存在了我的网盘, 后期可能回不时更新。

Word2vec / Skip-Gram with Negative Sampling (SGNS)
Corpus	Context Features
Corpus	Word	Word + Ngram	Word + Character	Word + Character + Ngram
Baidu Encyclopedia 百度百科	300d	300d	300d	300d
Wikipedia_zh 中文维基百科	300d	300d	300d	300d
People's Daily News 人民日报	300d	300d	300d	300d
Sogou News 搜狗新闻	300d	300d	300d	300d
Financial News 金融新闻	300d	300d	300d	300d
Zhihu_QA 知乎问答	300d	300d	300d	300d
Weibo 微博	300d	300d	300d	300d
Literature 文学作品	300d	300d	300d	300d
Complete Library in Four Sections 四库全书^*	300d	300d	NAN	NAN
Mixed-large 综合	300d	300d	300d	300d

Positive Pointwise Mutual Information (PPMI)
Corpus	Context Features
Corpus	Word	Word + Ngram	Word + Character	Word + Character + Ngram
Baidu Encyclopedia 百度百科	300d	300d	300d	300d
Wikipedia_zh 中文维基百科	300d	300d	300d	300d
People's Daily News 人民日报	300d	300d	300d	300d
Sogou News 搜狗新闻	300d	300d	300d	300d
Financial News 金融新闻	300d	300d	300d	300d
Zhihu_QA 知乎问答	300d	300d	300d	300d
Weibo 微博	300d	300d	300d	300d
Literature 文学作品	300d	300d	300d	300d
Complete Library in Four Sections 四库全书^*	300d	300d	NAN	NAN
Mixed-large 综合	300d	300d	300d	300d

词共现性

我们发布的词向量来自不同的共现统计量。目标和上下文向量在一些相关论文中通常被称为输入和输出向量。

在这一部分中，可以获得超出单词的任意语言单位的向量。例如，字符向量(word-character)。

所有向量均由SGNS在百度百科上进行训练。

Feature	Co-occurrence Type	Target Word Vectors	Context Word Vectors
Word	Word → Word	300d	300d
Ngram	Word → Ngram (1-2)	300d	300d
	Word → Ngram (1-3)	300d	300d
	Ngram (1-2) → Ngram (1-2)	300d	300d
Character	Word → Character (1)	300d	300d
	Word → Character (1-2)	300d	300d
	Word → Character (1-4)	300d	300d
Radical	Radical	300d	300d
Position	Word → Word (left/right)	300d	300d
Position	Word → Word (distance)	300d	300d
Global	Word → Text	300d	300d
Syntactic Feature	Word → POS	300d	300d
Syntactic Feature	Word → Dependency	300d	300d

## 表示现有的单词表示方法分为两类，即**密集**和**稀疏**向量。 SGNS模型（word2vec工具包中的一个模型）和PPMI模型分别是这两类的典型方法。 SGNS模型通过浅层神经网络训练低维实数（密集）向量。它也被称为神经嵌入方法。 PPMI模型是一种稀疏的特征表示，通过PPM加权方案进行加权。

上下文特征

三个上下文特征：** word ， ngram 和 character 常见于文献中。大多数单词表示方法主要利用单词共现统计，即使用单词作为上下文特征（单词特征）。受语言建模问题的启发，我们在上下文中引入了ngram特性。 word-word和word-ngram共现统计都用于训练（ngram特征）**。对于中国人来说，汉字（汉字）通常表达强烈的语义。为此，我们考虑使用单词和单词字符共现统计来学习单词向量。字符级ngram的长度范围从1到4 （字符特征）。

除了word，ngram和character之外，还有其他对单词向量的属性具有实质影响的特征。例如，使用整个文本作为上下文特征可以将更多的主题信息引入词向量;使用依赖关系解析作为上下文特征可以为词向量添加语法约束。本项目考虑了17种同现类型。

语料库

我们费了很大劲收集各个领域的语料。所有文本数据都通过删除html和xml标签进行预处理。只保留纯文本，并且[HanLP（v_1.5.3）]（https://github.com/hankcs/HanLP）用于分词。详细的语料库信息如下所示：

Corpus	Size	Tokens	Vocabulary Size	Description
Baidu Encyclopedia 百度百科	4.1G	745M	5422K	Chinese Encyclopedia data from https://baike.baidu.com/
Wikipedia_zh 中文维基百科	1.3G	223M	2129K	Chinese Wikipedia data from https://dumps.wikimedia.org/
People's Daily News 人民日报	3.9G	668M	1664K	News data from People's Daily(1946-2017) http://data.people.com.cn/
Sogou News 搜狗新闻	3.7G	649M	1226K	News data provided by Sogou labs http://www.sogou.com/labs/
Financial News 金融新闻	6.2G	1055M	2785K	Financial news collected from multiple news websites
Zhihu_QA 知乎问答	2.1G	384M	1117K	Chinese QA data from https://www.zhihu.com/
Weibo 微博	0.73G	136M	850K	Chinese microblog data provided by NLPIR Lab http://www.nlpir.org/download/weibo.7z
Literature 文学作品	0.93G	177M	702K	8599 modern Chinese literature works
Mixed-large 综合	22.6G	4037M	10653K	We build the large corpus by merging the above corpora.
Complete Library in Four Sections 四库全书	1.5G	714M	21.8K	The largest collection of texts in pre-modern China.

所有的单词都考虑在内，包括低频词。

工具包

所有的单词向量由[ngram2vec]（https://github.com/zhezhaoa/ngram2vec/）工具箱进行训练。 Ngram2vec工具箱是[word2vec]（https://github.com/svn2github/word2vec）和[fasttext]（https://github.com/facebookresearch/fastText）工具箱的超集，支持任意上下文特性和模型。

中文推理基准

词向量的质量通常通过推理问题任务来评估。在这个项目中，有两个基准被用于评估。首先是CA翻译，其中大多数类比问题直接从英语基准转换而来。虽然CA翻译已被广泛用于许多中文word embedding论文，但它只包含三个语义问题的问题，涵盖了134个中文单词。相比之下，CA8是专门为中文而设计的。它包含了17813个类比问题，涵盖了全面的形态和语义关系。 CA转换后的CA8及其详细描述在[** testsets **]（https://github.com/Embedding/Chinese-Word-Vectors/tree/master/testsets）文件夹中提供。

评估工具包

我们在[evaluation]（https://github.com/Embedding/Chinese-Word-Vectors/tree/master/evaluation）文件夹中提供评估工具包。

运行以下代码来评估密集向量。

1 2	`$ python ana_eval_dense.py -v <vector.txt> -a CA8/morphological.txt $` python ana_eval_dense.py -v <vector.txt> -a CA8/semantic.txt

运行以下代码来评估稀疏向量。

`$ python ana_eval_sparse.py -v <vector.txt> -a CA8/morphological.txt
$`


> **注意**
> 本文由jupyter notebook转换而来, 您可以在这里下载[notebook](最全中文词向量数据下载-都是训练好的优质向量.ipynb)
> 统计咨询请加QQ 2726725926, 微信 mllncn,  SPSS统计咨询是收费的
> 微博上@mlln-cn可以向我免费题问
> 请记住我的网址: mlln.cn 或者 jupyter.cn

#词向量