paddlepaddle如何预加载embedding向量

使用小批量数据时，模型容易过拟合，所以需要对全量数据进行处理，我是用的是word2vec训练的词向量. 那么训练好对词向量如何加载呢？

#!/usr/bin/env python

# -*- coding: utf-8 -*-

"""

-------------------------------------------------

   Version     :       None

   File Name   :       paddle_load_w2v

   Description :       None

   Author      :       gongxijun

   Email       :

   date        :       2019-12-04

-------------------------------------------------

   Change Activity:

                   2019-12-04:

-------------------------------------------------

"""

from __future__ import absolute_import

from __future__ import print_function

from __future__ import unicode_literals

__author__ = 'gongxijun'

import paddle

import paddle.fluid as fluid

import paddle.fluid.layers as layers

import paddle.fluid.nets as nets

import numpy as np

import math

import codecs

from huangdao.dataset import data_feeder

def load_parameter(file_name):

    embeddings = []

    words = []

    with codecs.open(file_name, 'r',encoding="utf8") as f:

        header = f.readline()

        vocab_size, vector_size = map(int, header.split())

        for line in range(vocab_size):

            word_list = f.readline().strip("\n").strip(" ").split(' ')

            word = word_list[0]

            vector = word_list[1:]

            words.append(word if len(word) > 0 else "unk")

            assert len(vector) == vector_size, "{} {}".format(len(vector), vector_size)

            embeddings.append(np.array(vector))

    assert len(words) == len(embeddings)

    return words, embeddings

word_dict_len = 74378

word_dim = 128

def get_embedding(name, shape, is_sparse=True, dtype='int64'):

    """

    :param name:

    :param is_categorical: bool 是否是类标签

    :param shape: must be (a,b)

    :param dtype:

    :param is_sparse: bool

    :return:

    """

    alias_id = layers.data(name=name, shape=[1], dtype=dtype)

    assert len(shape) == 2, '{} must equal 2'.format(len(shape))

    alias_emb = layers.embedding(input=alias_id, size=shape,

                                 param_attr=fluid.param_attr.ParamAttr(name="embedding_{}".format(name)),

                                 is_sparse=is_sparse)

    alias_fc = layers.fc(input=alias_emb, size=shape[1])

    return alias_fc

words_emb = get_embedding("words", shape=(word_dict_len, word_dim))

place = fluid.CPUPlace()

exe = fluid.Executor(place)

exe.run(fluid.default_startup_program())

embedding_param = fluid.global_scope().find_var(

    "embedding_words").get_tensor()

words, embeddings = load_parameter("/Users/gongxijun/data/item2vec.txt")

embedding_param.set(embeddings, place)

paddlepaddle如何预加载embedding向量的更多相关文章

Javascript图片预加载详解
预加载图片是提高用户体验的一个很好方法.图片预先加载到浏览器中,访问者便可顺利地在你的网站上冲浪,并享受到极快的加载速度.这对图片画廊及图片占据很大比例的网站来说十分有利,它保证了图片快速.无缝地发布 ...
IIS初始化（预加载），解决第一次访问慢，程序池被回收问题
你以为你可以慢,那是不可能的!你以为你可以不动,那也是不可能的! 河南是守株待兔故事情节的发源地,讲的是懒惰的农夫坐在树桩旁等待可爱的小毛兔撞树的故事,那么这种事情怎么可能天天出现呢!你以为的事并一定 ...
FragmentPagerAdapter加载fragment并使用setUserVisibleHint()处理预加载时遇到的坑,给textview赋值时出现的空指针异常
FragmentPagerAdapter加载fragment并使用setUserVisibleHint()处理预加载时,给textview赋值时出现的空指针异常 public class BaseFr ...
ViewPager+Fragment取消预加载（延迟加载）（转）
原文:http://www.2cto.com/kf/201501/368954.html 在项目中,都或多或少地使用的Tab布局,所以大都会用到ViewPager+Fragment,但是Fragmen ...
js图片预加载
图片预加载有大体有几种方式 1.html标签或css加载图片. 显而易见我们使用img标签或者通过标签的background-image属性都可以实现图片的预加载.但是为了避免初次载入过多图片影响体验 ...
利用简洁的图片预加载组件提升h5移动页面的用户体验
在做h5移动页面,相信大家一定碰到过页面已经打开,但是里面的图片还未加载出来的情况,这种问题虽然不影响页面的功能,但是不利于用户体验.抛开网速的原因,解决这个问题有多方面的思路:最基本的,要从http ...
ASP.NET MVC3 Razor 调试与预加载
目录(?)[-] 获取服务器信息 FormsAuthenticationSlidingExpiration 属性 MVC3预加载在ASP.NET MVC3开发中,调试中怎么也是不可缺少的,那对于 ...
Javascript实现图片预加载【回调函数，多张图片】
使用JS实现一组图片动画效果或者使用HTML5 Canvas渲染一系列图片等案例中,需要图片全部加载完成方可运行动画效果.此时程序中就会涉及多张图片预加载代码.当接二连三的案例中都涉及图片预加载时,就 ...
JS实现图片预加载无需等待
网站开发时经常需要在某个页面需要实现对大量图片的浏览;用javascript来实现一个图片浏览器,让用户无需等待过长的时间就能看到其他图片网站开发时经常需要在某个页面需要实现对大量图片的浏览,如果考 ...

随机推荐

spring cloud微服务实战教程/pdf/视频/百度云资源
资源站:http://www.supan.vip 点击进入直接查找资源: http://www.supan.vip/spring%20cloud微服务实战 <Spring Cloud微服务实战& ...
（05节）快速搭建SSM项目
1.1 快速搭建Web项目注意点:name:archetypeCatalog,value:internal 原因:Intellij IDEA根据maven archetype的本质,执行mvn a ...
linux 管道，输出重定向，后端执行
1. | (管道) $time|data:"Y-m-d"将前部的输出,作为后部的输入:配合管道使用的命令,典型的就是grep,more find --help | grep cne ...
OneDrive，在云端
应用场景 1.一份文档下班后还没编辑好,发送到自己的QQ/微信回家后继续编辑: 2.由于来回拷贝同一份文件,导致版本太多,忘记那个是最新版本了: 3.出门在外,客户突然需要一份重要文档,这份文件放在办 ...
docker端口映射或启动容器时报错Error
现象: [root@localhost ~]# docker run -d -p 9000:80 centos:httpd /bin/sh -c /usr/local/bin/start.shd5b2 ...
spring boot cli 知识点
spring boot cli 版本列表: https://repo.spring.io/snapshot/org/springframework/boot/spring-boot-cli/ spri ...
Intellij IDEA如何生成JavaDoc
JavaDoc是一种将注释生成HTML文档的技术. 1.使用javadoc命令生成文档首先了解一下javadoc指令的用法用法: javadoc [options] [packagenames] ...
java 参数传递、对象、封装
参数传递分为值传递(传值)和引用传递(传地址). 面向对象的三大特征: 1. 封装 2. 继承 3. 多态封装表现: 1.方法就是一个最基本封装体. 2.类其实也是一个封装体. 封装的好处: 1.提 ...
CLR Exception---E0434F4D
什么是CLR Exception---E0434F4D 就是公共语言运行时(CLR)异常,异常代码为0xE0434F4D.因此任何托管异常,如NullReferenceException.invali ...
8.8poc包问题
对于8.8的包的问题:zabbix server设备重启后 zabbix server,mariadb,zabbix agent启动不了.是因为在7代的centos中在主机重启后.自动删除了/var/ ...

paddlepaddle如何预加载embedding向量

paddlepaddle如何预加载embedding向量的更多相关文章

随机推荐

热门专题