人工智能专栏打折中
词向量
在nlp领域,我们需要使用一个向量来表示一个词语,常用的就是one-hot向量,但是这样的向量表示有一定的问题,这个问题就是具有相同意思的词语在向量上并不能体现出相似的感觉,我们需要的是对于这种词性相近的词,我们需要他们的向量表示也能够相近。
如何训练?
那么我们如何才能够训练出这样的词向量呢?我们可以训练一个RNN的语言模型,然后在此过程中训练出一个嵌入矩阵,这个嵌入【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.矩阵我们可以使用pytorch层中的Embedding层来表示,假如字典中有10000个词,我们想要训练出300维度的词向量,我们可以设置mbedding(10000, 300),这样当我们进行梯度下降的时候,我们就可以学习到长为10000,宽为300的一个嵌入矩阵,这个嵌入矩阵是Embedding层的参数,这个就是我们想要的那个嵌入矩阵,这个嵌入矩阵就是这10000个词的词向量,之后我们就可以根据字典的定义顺序来获取到指定词的词向量了。
过程
现在我们先来定义一个词典,假如字典中只有两个单词huan、feng:
dict= {huan: 0 , feng: l}
然后我们定义embedding层,字【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.典中有两个单词,每个单词的维度是10
embeds = nn.Embedding(2,10)
假如这个层中已经训练好了,那么也就是说嵌入矩阵已经训练好了,那么我们就可以获取到字典中指定词的词向量了,其实就是embedding层的参数。
代码实现
import torch
from torch import nn
dict= {huan: 0 , feng: 1}
embeds =nn.Embedding(2,5)
#获取huan的词向量
index=torch.LongTensor([dict[huan]])#获取huan的索引
vector=embeds(index)
那么如何才能训练出这样的嵌入矩阵呢?
和之前的【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.飞机流量一样,我们可以使用前两个词来预测第三个词,本例中我们并没有使用RNN模型,所以我们并不用将其构建成一个序列数据,我们可以将前两个词当作是特征,然后第三个词当作是标签,这样就可以从一句话中构建出多个样本,我们通过前两个词来预测第三个词是什么,这一过程中我们可以学到最终的嵌入矩阵。
数据处理
现在我们有一段话是莎士比亚的话,为了方便操作,我们将其转变成列表
现在我们构建数据集,样本的形式就是前两个单词作为样本特征,然后第三个词作为样本的标签
每一个样本的格式是这样的
#((第一个词,第二个词),第三个词)
现在样本有了,现在我们构建字典,在构建字典之前我们先去除重复的元素,然后构建字典
创建模型
Embe【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.dding层很特殊,当创建Embedding层的时候,我们需要指定两个参数,第一个参数是嵌入矩阵中词的个数vocab_size,第二个参数是词向量的维度n_dim。
我们将数据喂给embedding层的时候,维度可以任意,输出为喂给embeding的数据维度context_size*词向量的维度n_dim,所以后面的全连接层需要是context_size*n_dim,不然没有办法连接,最后再接上一个全连接层输出为vocab_size,也就是词向量的个数,也就是说这个模型是一个分类问题,根据前两个词确定第三个词的类别,当对第三个词预测成功之后,那么embeding层学习到的参数矩阵就是我们所需要的【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.嵌入矩阵。
下面开始训练
注意我们输入的到神经网络中并不是词,而是这个词对应字典中的索引编号,比如输入为两个词,tensor([35,85]),而标签为tensor([48]),都是数字,而不是具体的字,这个需要注意。当我们训练好模型之后,我们就可以使用训练好的embeding层来获取想要词的词向量。
如上所示我们可以获取clock的词向量
推荐阅读
友情提醒: 请尽量登录购买,防止付款了不发货!
QQ交流群:226333560 站长微信:qgzmt2