中文词嵌入|PaperReader

索引就是将句子中出现的所有单词提取出来建立字典,并为每个单词分配一个唯一的序号。如下例所示:

【一是枣树,二是也是枣树】=[0, 1, 2, 3, 0, 4, 1, 2]

由于这个序号可以作为分类信号,因此序号之间的数值没有实际的物理意义,不能直接用于计算。

2# One-Hot 编码

One-hot 编码将每个单词表示为字典长度向量。每个词向量中对应的词序列号的位置为1,其他位置为0。以[one, is, a枣树, another, one, is, a枣树]为例,编码表示为:

[[1, 0, 0, 0, 0],

[0, 1, 0, 0, 0],

[0, 0, 1, 0, 0],

[0, 0, 0, 1, 0],

[1, 0, 0, 0, 0],

[0, 0, 0, 0, 1],

[0, 1, 0, 0, 0],

[0,0,1,0,0]]

该方法虽然可以操作模型,但映射的词向量都是正交的,无法反映词之间的语义相关性;而且矩阵太稀疏,当字典很大的时候会浪费很多空间。

3# 同现编码

共现编码以单词为中心,找到左右区间的单词,根据相邻单词的位置确定坐标。当所有单词都确定了坐标后,将相同的项相加得到最终的坐标向量。以上面的[一,是,枣树,另一个,一,是,枣树]以2-gram为例,编码表示为:

[[0,1,0,0,0],

[1,0,1,0,0],

[0,1,0,1,0],

[1,0,1,0,0],

[0,0,0,1,1],

[1,0,1,0,0],

[0,0,1,0,1],

[0,1,0,0,0]]

由于具有相同含义的单词周围往往有相同的单词,因此该方法适合查找具有相似含义的单词。它也考虑到了单词出现的顺序,但也面临着词向量过长的问题。

此外,还有各种其他传统的词表示方法,但大多数传统方法在词典过大时都会面临词向量过长和数据过于稀疏的问题。为了解决上述问题,基于神经网络的词嵌入方法逐渐成为主流。

词嵌入是自然语言处理中语言模型和表示学习技术的统称。从概念上讲,它是指将一个维数为所有单词数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或短语映射到实数域中的一个向量。

via Wikipedia 通俗地说,词嵌入就是将字典中的每个单词表示为一个向量。所得向量通常称为“词向量”。良好的映射可以有效地提取单词之间的语义相关性。根据这个定义,其实传统的one-hot编码、索引等方法也可以称为词嵌入方法。然而,从狭义的角度来看,下面讨论的术语“词向量”是指基于神经网络的训练。词嵌入方法。

词嵌入在自然语义理解领域的所有任务中发挥着最基本、最核心的作用,包括文本分类、文本摘要、信息检索、自动对话等。通过词嵌入得到的好的词向量作为模型的初始参数。模型。它可以帮助在几乎所有类型的NLP 任务中取得更好的结果。

好的“词嵌入”可以读取单词之间的语义信息,同时还能避免稀疏,节省空间。我们把词之间的语义相似度称为相似度。例如:

快乐=(1.00, -0.31, 0.42, -0.02, -0.23)

快乐=(0.90, -0.25, 0.45, -0.10, -0.11)

悲伤=(-0.80, 0.33, -0.35, 0.04, 0.09)

天气=(0.82, 0.21, -0.30, 0.55, 0.71)

假设以上四个词存在于同一个五维空间中,“快乐”和“快乐”的语义比较接近。它们的每个向量都有相同的正负号,处于同一区域,并且各个维度的值非常接近。这样的话,可以说其相似度很高。 “快乐”和“悲伤”是反义词。用向量表示时,正负值一般是相反的,距离更远。 “天气”一词与其他词没有明显的语义关联,因此不存在特殊的关联规则。

以上是对相似度的定性讨论,但一般定量来说,相似度可以通过余弦相似度来衡量,余弦相似度可以通过以下公式计算:

词嵌入领域最经典的模型是连续词袋模型(CBOW)和Skip-gram模型。下图展示了它们的结构模型。这两个是由托马斯·米科洛夫等人提出的。 2013 年论文《Efficient Estimation of Word Representations in Vector Space》。

如图所示,CBOW通过周围词w(t-2)、w(t-1)、w(t+1)、w(t+2)来预测中间词w(t),

它会给所有单词分配一个随机长度向量,然后将周围的单词w(t-2)、w(t-1)、w(t+1)、w(t+2)输入到线性模型中做非线性变换,通过softmax概率预测w(t)。 Skip-gram 通过中间词w(t) 来预测周围词w(t-2)、w(t-1)、w(t+1)、w(t+2),最大化w( t 的准确率-2)、w(t-1)、w(t+1) 以及w(t+2) 的预测之和。

在预测过程中,CBOW 和skip-gram 模型不断迭代地更新最初随机分配给每个单词的向量。训练收敛后,最终的向量就是训练好的“词向量”。

中文词嵌入

不同的语言系统需要训练不同的词向量。近年来,一些学者开始研究中文词嵌入的训练方法。中文词嵌入是否训练良好的主要评价标准如下:

1#单词相似度

数据集:wordsim240/wordsim296 该数据集包含一系列单词对。对词向量进行计算和训练后,计算每个词对的相似度,求相似度与人工评分的相关系数。

2# 文字推理

数据集:CWE自建数据集。该数据集包括1125条家庭信息、地理信息等推理数据,如“巴黎:法国==罗马:”。通过计算词推理的准确率来评估效果。

3#分类任务

数据集:复旦语料库等。该数据集包含环境、农业、经济、政治等20个类别9804篇文章。以预先训练的词向量为输入,训练文本分类模型,得到最终的准确率被测量。

4# 案例分析

基于对模型特征的理解和思考,提取一些典型、有代表性的词例,并观察其最接近的相关词。

接下来,我们将通过代表最新技术进展的7篇论文来直接体验中文词嵌入的发展。

1# 字符与词嵌入联合学习(IJCAI 2015)

陈新雄、徐雷、刘志远、孙茂松、栾焕波

亮点:字符粒度中文词向量训练变体——考虑字符在单词中出现的区域

摘要:大多数词嵌入方法以单词为基本单位,根据单词的外部上下文来学习嵌入,而忽略了单词的内部结构。然而,在汉语等一些语言中,一个词通常由几个字符组成,包含丰富的内部信息。一个词的语义还与其组成字的意义有关。因此,我们以中文为例,提出了一种字符增强词嵌入模型(CWE)。为了解决字符歧义和非组合词的问题,我们提出了多个原型字符嵌入和有效的词选择方法。我们评估了CWE 在词相关性计算和类比推理方面的有效性。结果表明,CWE 优于其他忽略内部字符信息的基线方法。代码和数据可以从https://github.com/Leonard-Xu/CWE 访问。

注:本文是中文词嵌入领域最早使用文本级粒度进行训练的文章。文章将单词拆成文本组合,通过CBOW进行训练,非常直观。除了基本的字符嵌入之外,文章还在此基础上提出了几种扩展:基于位置的字符嵌入、基于聚类的字符嵌入、非参数基于聚类的字符嵌入。其中,基于位置的字符嵌入给每个字符三个训练向量,即当该字符属于单词的开头时、当该字符属于单词的中间时、以及当该字符属于单词的结尾时;基于聚类的字符嵌入将每个字符出现的上下文场景(例如共同构成该单词的其他单词)进行聚类。当聚类中心选择为N(c)时,该字符将由N(c)个向量表示。在实验中比较原始字符嵌入时,文章中报告的数据表明基于位置的变体比原始变体表现更好。

2# 多粒度中文词嵌入(EMNLP 2016)

尹荣超、王全、李睿、李鹏、王斌

重点:部首的粒度也包含在嵌入的范围内。

中文词嵌入|PaperReader

摘要:本文考虑学习中文词嵌入的问题。与英语相反,中文单词通常由字符组成,并且大多数字符本身可以进一步分为部首等组件。虽然汉字和部首包含丰富的信息并且能够指示单词的语义,但现有的单词嵌入方法尚未充分利用它们。在这项工作中,我们提出了中文单词的多粒度嵌入(MGE)。关键思想是充分利用这种词-字-部首的组合,并通过进一步结合字和部首的更细粒度的语义来丰富词嵌入。定量评价证明了MGE在词相似度计算和类比推理方面的优越性。定性分析进一步显示了其识别更细粒度的单词语义的能力。

注:标题中的“多尺度”在文章中得到了体现。除了输入上下文单词和上下文单词字符之外,还输入预测单词的部首。部首在汉字中具有一定的意义。显式编码部首可以增强模型可以提取的信息。

3# 中文单词、字符和细粒度子字符组件的联合嵌入(EMNLP 2017)

于金星、简迅、郝欣、宋扬秋

亮点:分割文本并将子字符信息合并到训练中。

摘要:词嵌入最近引起了人们的广泛关注。与字母书写系统不同,汉字通常由子字符组成,这些子字符也具有语义信息。在这项工作中,我们提出了一种联合嵌入中文单词及其字符和细粒度子字符组件的方法。我们使用三种可能性来评估上下文单词、字符和组件是否可以预测当前目标单词,并收集了13,253 个子字符组件来证明现有的汉字分解方法是不够的。对单词相似性和单词类比任务的评估证明了我们模型的卓越性能。

注:JWE主要扩展MGE。文章认为,MGE仅在子字粒度上使用部首,但仍然遗漏了更多的文本构成信息。因此,JWE不仅保留了文本的部首,还将每个汉字拆分成多个最小汉字组合并进行训练。这就是标题中提到的“细粒度子字符组件”。

4# 利用内部结构改进中文词嵌入(HLT-NAACL 2016)

徐健、刘家伟、张连刚、李正宇、陈欢欢

亮点:文章通过引入语义相似度,非常有效地解决了单纯使用文本粒度训练带来的噪声。

摘要:最近,研究人员证明,在学习中文词嵌入时,中文单词及其组成字符都提供了丰富的语义信息。然而,他们忽略了单词中各个组成字符之间的语义相似性。在本文中,我们通过利用单词及其组成字符与从其他语言获得的语义知识之间的相似性来学习字符对单词的语义贡献。我们提出了一种基于相似性的方法来联合学习中文单词和字符嵌入。该方法还能够消除汉字歧义并区分非组合汉字。单词相似度和文本分类的实验证明了我们方法的有效性。

注:我个人认为这篇文章是之前文章中最有价值、最有说服力的。比较CWE 和CBOW 对于特定单词的最近邻单词,我们可以发现,由于CWE 使用文本编码,因此它有很强的倾向来查找使用相同单词的单词,即使该单词的语义相关性/日常使用频率较低是低的。 SCWE指出了CWE的问题:

1. 中文中的一个字符往往有多种含义,因此不考虑语义差异,单纯使用字符编码会导致更多的机械应用。虽然CWE 有基于位置、基于簇等扩展独特char 嵌入的变体,但没有明确的语义分类和提取。 2.单词和组成单词的字符实际上可能具有不同的含义,或者每个单词对单词含义的权重不一致。例如,“妻子”中的“子”字通常被认为与原词具有不同的含义。到目前为止,“青蛙”中的“青蛙”一词比“绿色”一词在词义上的权重更大。

SCWE 使用以下步骤将文本语义显式添加到训练过程中:

1、对于每个汉字或单词,使用金山词霸将其翻译成中文和英文,并得到多个英文释义;

2. 合并词义项:训练一个英文词嵌入,比较每个汉字的每个英文词义的相似度。当小于某个阈值时,将比较汉字的两个含义。合并完成后,一个汉字剩余的含义个数即为该字符的char向量个数,并进行编号;

3、对于每个单词w,假设它是由n个汉字(c1,c2,)组成,计算该单词的英文含义与每个汉字的每个含义之间的相似度,最后保留每个的最大值得到最大值时的相似度(s1,s2,)和对应的字符解释索引(n1,n2,);

4、利用(s1,s2,)相似度添加对应的词,训练模型得到char向量和初步词向量。

5# 从字形中学习中文单词表示(EMNLP 2017)

苏子睿、李鸿毅

亮点:利用文本的图像压缩特性进入训练

摘要:在本文中,我们提出了学习中文单词表示的新方法。汉字是由图形部件组成的,它承载着丰富的语义。对于汉语学习者来说,从这些图形组件中理解单词的含义是很常见的。因此,我们提出了通过字符字形增强单词表示的模型。字符字形特征是通过卷积自动编码器(convAE)直接从字符位图中学习的,并且字形特征改进了已经通过字符嵌入增强的中文单词表示。本文的另一个贡献是我们创建了多个繁体中文评估数据集并将其公开。

注:文章认为,作为象形文字,汉字的图像信息也包含一定的语义信息。与手动分割子模块/部首相比,可以直接使用整个字符的图像来提取特征。因此,文章使用(60pixels * 60pixels)正规汉字和繁体汉字训练一个具有5层编码器和5层解码器的CNN自动编码器,并将每个汉字的图像信息压缩成512维向量进行训练。然而,最终文章的测试数据表明,GWE 的表现并没有明显优于原始的CWE 甚至CBOW,而且其模型会因为图像的相似性而产生一些反语义错误(例如“山”等词) ”和“蜂蜜”在GWE中的语义相关性高于其他模型)。

6# cw2vec: 使用笔画n-gram 信息学习中文词嵌入(AAAI 2018)

曹绍胜、卢伟、周军、李小龙

亮点:使用笔划粒度信息进行训练。

摘要:我们提出了cw2vec,一种学习中文词嵌入的新方法。根据我们的观察,利用笔画级信息对于改善中文词嵌入的学习至关重要。具体来说,我们设计了一种简约的方法来利用这些特征,通过使用笔画n 元语法来捕获中文单词的语义和形态级别信息。通过定性分析,我们证明我们的模型能够

tract semantic information that cannot be captured by existing methods. Empirical results on the word similarity, word analogy, text classification and named entity recognition tasks show that the proposed approach consistently outperforms state-of-the-art approaches such as word-based word2vec and GloVe, character-based CWE, component-based JWE and pixel-based GWE.

7# A Hybrid Learning Scheme for Chinese Word Embedding

Wenfan Chen, Weiguo Sheng

亮点:混合了 compositional 和 predictive 方法,用两种模型结构共同训练。

摘要:To improve word embedding, subword information has been widely employed in state-of-the-art methods. These methods can be classified to either compositional or predictive models. In this paper, we propose a hybrid learning scheme, which integrates compositional and predictive model for word embedding. Such a scheme can take advantage of both models, thus effectively learning word embedding. The proposed scheme has been applied to learn word representation on Chinese. Our results show that the proposed scheme can significantly improve the performance of word embedding in terms of analogical reasoning and is robust to the size of training data.

图 1

图 2

总结

通过以上几篇论文可以看出中文词嵌入主要分为基于形态和基于语义两个方向。

基于形态的方法通过深入挖掘汉字的形态构成特征,将中文词语拆分成字符、偏旁部首、子字符、笔画等等细分的特征,这些特征与原词语一并进入词嵌入模型,给模型提供更多的语义信息。

基于语义的方法显式地对中文字符层级语义多样性进行建模,可以有效处理一字多义的问题,更能通过字词语义相似性的先验,非平均地对待构成词的不同字符。

用户评论


生命一旅程

中文词嵌入,这个方向挺有意思的,PaperReader 有哪些最新研究?

    有9位网友表示赞同!


寒山远黛

中文词嵌入,PaperReader 真是个好资源,终于不用自己翻论文了。

    有17位网友表示赞同!


命该如此

中文词嵌入,PaperReader 上的论文质量怎么样啊?

    有13位网友表示赞同!


矜暮

PaperReader 上的中文词嵌入论文,可以推荐几篇吗?

    有13位网友表示赞同!


花海

中文词嵌入,PaperReader 真是太方便了,省了不少时间。

    有16位网友表示赞同!


醉红颜

PaperReader 上的中文词嵌入论文,涵盖了哪些方向?

    有12位网友表示赞同!


颓废i

中文词嵌入领域,PaperReader 上的论文更新速度怎么样?

    有6位网友表示赞同!


千城暮雪

PaperReader,中文词嵌入方向,非常棒,学习效率提升了!

    有14位网友表示赞同!


打个酱油卖个萌

中文词嵌入,PaperReader,强烈推荐!

    有8位网友表示赞同!


孤廖

PaperReader 上的中文词嵌入论文,值得收藏!

    有9位网友表示赞同!


凝残月

中文词嵌入,PaperReader,这个网站真是太友好了!

    有6位网友表示赞同!


花菲

中文词嵌入,PaperReader 上的论文,有没有中文摘要?

    有7位网友表示赞同!


敬情

中文词嵌入,PaperReader 上的论文,可以下载吗?

    有17位网友表示赞同!


别留遗憾

PaperReader 上的中文词嵌入论文,有没有代码开源?

    有18位网友表示赞同!


冷眼旁观i

中文词嵌入,PaperReader,希望以后能有更多中文资源。

    有17位网友表示赞同!


素颜倾城

PaperReader 上的中文词嵌入论文,真的非常有用,感谢!

    有17位网友表示赞同!


全网暗恋者

中文词嵌入,PaperReader,真是个宝藏网站,以后就靠你了。

    有6位网友表示赞同!


残花为谁悲丶

PaperReader 上的中文词嵌入论文,分析得非常到位,学习了很多。

    有13位网友表示赞同!


ok绷遮不住我颓废的伤あ

中文词嵌入,PaperReader,希望能有更多相关主题的论文分析。

    有17位网友表示赞同!


别悲哀

PaperReader 上的中文词嵌入论文,对我的研究方向很有帮助。

    有7位网友表示赞同!

上一篇
下一篇

为您推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

0898-88881688

在线咨询: QQ交谈

邮箱: email@zhutibaba.com

工作时间:周一至周五,9:00-17:30,节假日休息