词嵌入除偏 李沐(词嵌入是什么?我们应该如何完成词向量的学习?)

人工智能专栏打折中

词嵌入除偏 李沐(词嵌入是什么?我们应该如何完成词向量的学习?)
专栏
每天五分钟玩转自然语言理解NLP
作者:幻风的AI之路
19.9币
9人已购
查看
词嵌入除偏 李沐(词嵌入是什么?我们应该如何完成词向量的学习?)
专栏
每天5分钟快速玩转机器学习算法
作者:幻风的AI之路
28.8币
1,788人已购
查看
(此处已添加圈子卡片,请到今日头条客户端查看)

词向量

在nlp领域,我们需要使用一个向量来表示一个词语,常用的就是one-hot向量,但是这样的向量表示有一定的问题,这个问题就是具有相同意思的词语在向量上并不能体现出相似的感觉,我们需要的是对于这种词性相近的词,我们需要他们的向量表示也能够相近。

如何训练?

那么我们如何才能够训练出这样的词向量呢?我们可以训练一个RNN的语言模型,然后在此过程中训练出一个嵌入矩阵,这个嵌入【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.矩阵我们可以使用pytorch层中的Embedding层来表示,假如字典中有10000个词,我们想要训练出300维度的词向量,我们可以设置mbedding(10000, 300),这样当我们进行梯度下降的时候,我们就可以学习到长为10000,宽为300的一个嵌入矩阵,这个嵌入矩阵是Embedding层的参数,这个就是我们想要的那个嵌入矩阵,这个嵌入矩阵就是这10000个词的词向量,之后我们就可以根据字典的定义顺序来获取到指定词的词向量了。

过程

现在我们先来定义一个词典,假如字典中只有两个单词huan、feng:

dict= {huan: 0 , feng: l}

然后我们定义embedding层,字【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.典中有两个单词,每个单词的维度是10

embeds = nn.Embedding(2,10)

假如这个层中已经训练好了,那么也就是说嵌入矩阵已经训练好了,那么我们就可以获取到字典中指定词的词向量了,其实就是embedding层的参数。

代码实现

import torch

from torch import nn

dict= {huan: 0 , feng: 1}

embeds =nn.Embedding(2,5)

#获取huan的词向量

index=torch.LongTensor([dict[huan]])#获取huan的索引

vector=embeds(index)

那么如何才能训练出这样的嵌入矩阵呢?

和之前的【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.飞机流量一样,我们可以使用前两个词来预测第三个词,本例中我们并没有使用RNN模型,所以我们并不用将其构建成一个序列数据,我们可以将前两个词当作是特征,然后第三个词当作是标签,这样就可以从一句话中构建出多个样本,我们通过前两个词来预测第三个词是什么,这一过程中我们可以学到最终的嵌入矩阵。

数据处理

现在我们有一段话是莎士比亚的话,为了方便操作,我们将其转变成列表

现在我们构建数据集,样本的形式就是前两个单词作为样本特征,然后第三个词作为样本的标签

每一个样本的格式是这样的

#((第一个词,第二个词),第三个词)

现在样本有了,现在我们构建字典,在构建字典之前我们先去除重复的元素,然后构建字典

创建模型

Embe【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.dding层很特殊,当创建Embedding层的时候,我们需要指定两个参数,第一个参数是嵌入矩阵中词的个数vocab_size,第二个参数是词向量的维度n_dim。

我们将数据喂给embedding层的时候,维度可以任意,输出为喂给embeding的数据维度context_size*词向量的维度n_dim,所以后面的全连接层需要是context_size*n_dim,不然没有办法连接,最后再接上一个全连接层输出为vocab_size,也就是词向量的个数,也就是说这个模型是一个分类问题,根据前两个词确定第三个词的类别,当对第三个词预测成功之后,那么embeding层学习到的参数矩阵就是我们所需要的【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.嵌入矩阵。

下面开始训练

注意我们输入的到神经网络中并不是词,而是这个词对应字典中的索引编号,比如输入为两个词,tensor([35,85]),而标签为tensor([48]),都是数字,而不是具体的字,这个需要注意。当我们训练好模型之后,我们就可以使用训练好的embeding层来获取想要词的词向量。

如上所示我们可以获取clock的词向量

推荐阅读

给力项目线报网会员可免费下载 加入会员
友情提醒: 请尽量登录购买,防止付款了不发货!
QQ交流群:226333560 站长微信:qgzmt2
温馨提示:本站提供的一切软件、教程和内容信息都来自网络收集整理,仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负,版权争议与本站无关。用户必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序和内容,请支持正版,购买注册,得到更好的正版服务。我们非常重视版权问题,如有侵权请邮件与我们联系处理。敬请谅解!

给TA打赏
共{{data.count}}人
人已打赏
行业资讯

电脑键盘密码怎么输(你不知道的电脑键盘秘密都在这里哦)

2024-5-9 10:54:47

行业资讯

原点表示什么意思(1+1=2:数学的原点)

2024-5-9 11:15:37

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索