【AI in 美团】深度学习在OCR中的应用

【【AI in 美团】深度学习在OCR中的应用】的更多相关文章

【腾讯Bugly干货分享】深度学习在OCR中的应用

本文来自于腾讯bugly开发者社区,未经作者同意,请勿转载,原文地址:http://dev.qq.com/topic/5809bb47cc5e52161640c5c8 Dev Club 是一个交流移动开发技术,结交朋友,扩展人脉的社群,成员都是经过审核的移动开发工程师.每周都会举行嘉宾分享,话题讨论等活动. 本期,我们邀请了腾讯 TEG 技术工程师"文亚飞",为大家分享<深度学习在OCR中的应用>. 大家好,我是文亚飞,来自腾讯TEG,目前负责图像识别相关的工作.OCR(…

【AI in 美团】深度学习在OCR中的应用

AI(人工智能)技术已经广泛应用于美团的众多业务,从美团App到大众点评App,从外卖到打车出行,从旅游到婚庆亲子,美团数百名最优秀的算法工程师正致力于将AI技术应用于搜索.推荐.广告.风控.智能调度.语音识别.机器人.无人配送等多个领域,帮助美团3.2亿消费者和400多万商户改善服务和体验,帮大家吃得更好,生活更好. 基于AI技术,美团搭建了世界上规模最大,复杂度最高的多人.多点实时智能配送调度系统:基于AI技术,美团推出了业内第一款大规模落地的企业应用级语音交互产品,为50万骑手配备了智能语…

[AI开发]将深度学习技术应用到实际项目

本文介绍如何将基于深度学习的目标检测算法应用到具体的项目开发中,体现深度学习技术在实际生产中的价值,算是AI算法的一个落地实现.本文算法部分可以参见前面几篇博客: [AI开发]Python+Tensorflow打造自己的计算机视觉API服务 [AI开发]基于深度学习的视频多目标跟踪实现 [AI开发]视频多目标跟踪高级版(离自动驾驶又‘近’了一点点) [AI开发]centOS7.5上基于keras/tensorflow深度学习环境搭建背景交通领域是深度学习技术可以发挥强大作用的一个领域.道路交…

AI面试必备/深度学习100问1-50题答案解析

AI面试必备/深度学习100问1-50题答案解析 2018年09月04日 15:42:07 刀客123 阅读数 2020更多分类专栏: 机器学习转载:https://blog.csdn.net/T7SFOKzorD1JAYMSFk4/article/details/80972658 1.梯度下降算法的正确步骤,(正确步骤dcaeb)(梯度下降法其实是根据函数的梯度来确定函数的极小值),这里的问题与其说是梯度下降算法的步骤不如说类似图图像分类训练的整个流程:网络初始化-输入to输出-期望输…

Attention机制在深度学习推荐算法中的应用(转载)

AFM:Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks 模型入上图所示,其中sparse iput,embedding layer,pair-wise interaction layer都和FM一样,后面加入了一个attention net生成一个关于特征交叉项的权重,将FM原来的二次项累加变成加权累加.这里的attention net其实…

【深度学习】CNN 中 1x1 卷积核的作用

[深度学习]CNN 中 1x1 卷积核的作用最近研究 GoogLeNet 和 VGG 神经网络结构的时候,都看见了它们在某些层有采取 1x1 作为卷积核,起初的时候,对这个做法很是迷惑,这是因为之前接触过的教材的例子中最小的卷积核是 3x3 ,那么,1x1 的卷积核有什么意义呢? 最初应用 1x1 卷积核的神经网络是 Network In Network,然后 GoogLeNet 和 VGG 也不约而同的更正了. 他们在论文中解释,大概有下面 2 个意义. 1.增加网络的深度这个就比较好理解…

深度学习训练过程中的学习率衰减策略及pytorch实现

学习率是深度学习中的一个重要超参数,选择合适的学习率能够帮助模型更好地收敛. 本文主要介绍深度学习训练过程中的6种学习率衰减策略以及相应的Pytorch实现. 1. StepLR 按固定的训练epoch数进行学习率衰减. 举例说明: # lr = 0.05 if epoch < 30 # lr = 0.005 if 30 <= epoch < 60 # lr = 0.0005 if 60 <= epoch < 90 在上述例子中,每30个epochs衰减十倍学习率. 计算公式…

认识：人工智能AI 机器学习 ML 深度学习DL

人工智能人工智能(Artificial Intelligence),英文缩写为AI.它是研究.开发用于模拟.延伸和扩展人的智能的理论.方法.技术及应用系统的一门新的技术科学. 人工智能是对人的意识.思维的信息过程的模拟.人工智能不是人的智能,但能像人那样思考.也可能超过人的智能. 人工智能的定义可以分为两部分,即“人工”和“智能”. 机器学习 1. 什么是机器学习根据等人事件中判断人是否迟到了解什么是机器学习,具体参见地址:http://www.cnblogs.com/helloche…

深度学习在 CTR 中应用

欢迎大家前往腾讯云技术社区,获取更多腾讯海量技术实践干货哦~ 作者:高航一. Wide&&Deep 模型首先给出Wide && Deep [1] 网络结构: 本质上是线性模型(左边部分, Wide model)和DNN的融合(右边部分,Deep Model). 推荐系统需要解决两个问题: 记忆性: 比如通过历史数据知道"麻雀会飞","鸽子会飞" 泛化性: 推断在历史数据中从未见过的情形,"带翅膀的动物会飞" W…

deeplearning.ai 神经网络和深度学习 week4 深层神经网络听课笔记

1. 计算深度神经网络的时候,尽量向量化数据,不要用for循环.唯一用for循环的地方是依次在每一层做计算. 2. 最常用的检查代码是否有错的方法是检查算法中矩阵的维度. 正向传播: 对于单个样本,第i层网络 z[i] = W[i]a[i-1] + b[i], a[i] = f[i](z[i]). 其中,z[i]是n[i]*1,W[i]是n[i]*n[i-1],a[i-1]是n[i-1]*1,b[i]是n[i]*1. 对于向量化后的所有样本,第i层网络 Z[i] = W[i]A[i-1] + b…

深度学习卷积网络中反卷积/转置卷积的理解 transposed conv/deconv

搞明白了卷积网络中所谓deconv到底是个什么东西后,不写下来怕又忘记,根据参考资料,加上我自己的理解,记录在这篇博客里. 先来规范表达为了方便理解,本文出现的举例情况都是2D矩阵卷积,卷积输入和核形状都为正方形,x和y轴方向的padding相同,stride也相同. 记号: i,o,k,p,s i,o,k,p,s 分别表示:卷积/反卷积的输入大小 input size input size,卷积/反卷积输出大小 output size output size,卷积/反卷积核大小 kerne…

转载：深度学习在NLP中的应用

之前研究的CRF算法,在中文分词,词性标注,语义分析中应用非常广泛.但是分词技术只是NLP的一个基础部分,在人机对话,机器翻译中,深度学习将大显身手.这篇文章,将展示深度学习的强大之处,区别于之前用符号来表示语义,深度学习用向量表达语义.这篇文章的最大价值在于,为初学者指明了研究方向.下面为转载的原文: 在深度学习出现之前,文字所包含的意思是通过人为设计的符号和结构传达给计算机的.本文讨论了深度学习如何用向量来表示语义,如何更灵活地表示向量,如何用向量编码的语义去完成翻译,以及有待改进的地方…

从零开始学会GAN 0:第一部分介绍生成式深度学习（连载中）

本书的前四章旨在介绍开始构建生成式深度学习模型所需的核心技术.在第1章中,我们将首先对生成式建模领域进行广泛的研究,并从概率的角度考虑我们试图解决的问题类型.然后,我们将探讨我们的基本概率生成模型的第一个例子,并分析为什么随着生成式任务的复杂性增长,可能需要部署深度学习技术.第2章提供了开始构建更复杂的生成模型所需的深度学习工具和技术的指南.这旨在成为深度学习的实用指南,而不是对该领域的理论分析.特别是,我将介绍Keras,一个构建神经网络的框架,可用于构建和训练已在文献中发表的一些最先进的深度…

深度学习大规模MIMO中的功率分配

摘要-本文使用深度学习的方法在大规模MIMO网络的下行链路中执行max-min和max-prod功率分配.更确切地说,与传统的面向优化的方法相比,训练深度神经网络来学习用户设备(UE)的位置和最优功率分配策略之间的映射,然后用于预测新的UE集合的功率分配曲线｡与传统的优化定向方法相比,使用深度学习的方法显著提高了功率分配的复杂性-性能折衷｡特别地,所提出的方法不需要计算任何统计平均值,而是需要使用标准方法来计算,并且能够保证接近最优的性能. 1 引言大规模MIMO是指一种无线网络技术,其中基站…

deeplearning.ai 神经网络和深度学习 week4 深层神经网络

1. 计算深度神经网络的时候,尽量向量化数据,不要用for循环.唯一用for循环的地方是依次在每一层做计算. 2. 最常用的检查代码是否有错的方法是检查算法中矩阵的维度. 正向传播: 对于单个样本,第i层网络 z[i] = W[i]a[i-1] + b[i], a[i] = f[i](z[i]). 其中,z[i]是n[i]*1,W[i]是n[i]*n[i-1],a[i-1]是n[i-1]*1,b[i]是n[i]*1. 对于向量化后的所有样本,第i层网络 Z[i] = W[i]A[i-1] + b…

深度学习分类问题中accuracy等评价指标的理解

在处理深度学习分类问题时,会用到一些评价指标,如accuracy(准确率)等.刚开始接触时会感觉有点多有点绕,不太好理解.本文写出我的理解,同时以语音唤醒(唤醒词识别)来举例,希望能加深理解这些指标. 1,TP / FP / TN / FN 下表表示为一个二分类的混淆矩阵(多分类同理,把不属于当前类的都认为是负例),表中的四个参数均用两个字母表示,第一个字母表示判断结果正确与否(正确用T(True),错误用F(False),第二个字母表示判定结果(正例用P(Positive),负例用N(Nega…

deeplearning.ai 神经网络和深度学习 week3 浅层神经网络听课笔记

1. 第i层网络 Z[i] = W[i]A[i-1] + B[i],A[i] = f[i](Z[i]). 其中, W[i]形状是n[i]*n[i-1],n[i]是第i层神经元的数量: A[i-1]是第i-1层的神经元,形状是n[i-1]*p,p是样本数量: B[i]形状是n[i]*p,B[i]的每一列都是一样的,所以其实有效的参数只是n[i]个,python里直接用n[i]*1的b[i]然后boradcasting成n[i]*p方便做加法. A[0]对应输入层,n[0]是单个输入样本的特征数量.…

deeplearning.ai 神经网络和深度学习 week2 神经网络基础听课笔记

1. Logistic回归是用于二分分类的算法. 对于m个样本的训练集,我们可能会习惯于使用for循环一个个处理,但在机器学习中,是把每一个样本写成一个列向量x,然后把m个列向量拼成一个矩阵X.这个矩阵是nx*m大小,nx是每个样本的特征数量,m是样本个数,X.shape=(nx,m).也可以把特征写成横向量然后竖着拼成m*n的矩阵,NG说前一种列向量的表示方便运算.输出Y是1*m的向量,Y.shape=(1,m). 把样本表示成矩阵形式后,可以对它进行线性操作wTx+b,由于二分分类的标签为0…

deeplearning.ai 神经网络和深度学习 week1 深度学习概论听课笔记

1. 预测房价.广告点击率:典型的神经网络,standard NN. 图像:卷积神经网络,CNN. 一维序列数据,如音频,翻译:循环神经网络,RNN. 无人驾驶,涉及到图像.雷达等更多的数据类型:混合的神经网络. 2. 结构化数据:数据的数据库,每一种特征都有明确的定义,如预测房价.广告点击率.目前主要的营收来源还是处理结构化数据. 非结构化数据:如音频.图像.文本,特征不明显.人类和你擅长处理非结构化数据. 3. 为什么近期神经网络一下子变这么厉害?一个神经网络牛逼的条件:1)神经网络的规模足…

学习笔记︱深度学习以及R中并行算法的应用（GPU）

笔记源于一次微课堂,由数据人网主办,英伟达高级工程师ParallerR原创.大牛的博客链接:http://www.parallelr.com/training/ 由于本人白痴,不能全部听懂,所以只能把自己听到的写个小笔记. 一.GPU的基本概念 GPU计算比CPU计算要快很多,计算机用GPU会大大加大速度问题:现在不是有量子计算,GPU与其有什么区别?那么量子计算是否比GPU更能是明日之星呢? CPU 中ALU只有四个,虽然大,但是control与cache占比较大:而GPU又很多,虽然小,但…

[AI开发]基于深度学习的视频多目标跟踪实现

据我目前了解掌握,多目标跟踪大概有两种方式: Option1 基于初始化帧的跟踪,在视频第一帧中选择你的目标,之后交给跟踪算法去实现目标的跟踪.这种方式基本上只能跟踪你第一帧选中的目标,如果后续帧中出现了新的物体目标,算法是跟踪不到的.这种方式的优点是速度相对较快.缺点很明显,不能跟踪新出现的目标. Option2 基于目标检测的跟踪,在视频每帧中先检测出来所有感兴趣的目标物体,然后将其与前一帧中检测出来的目标进行关联来实现跟踪的效果.这种方式的优点是可以在整个视频中跟踪随时出现的新目标,当然这…

吴恩达深度学习：python中的广播

1.python中的广播: (1)广播是一种手段,可以让python代码执行得更快,我们来看看python实际如何执行. 下面矩阵列出了100克苹果.牛肉.鸡蛋和蛋白质中含有的碳水化合物.蛋白质和脂肪的数量比如说我们的目标是四种食物中卡路里有多少百分比.比如100克苹果中有56+1.2+1.8卡路里,然后苹果中来自碳水化合物的卡路里占比是百分之56/59=94.4%,所以苹果中大部分的热量都来自碳水化合物.我们要做的计算就是对上面四列数据求和,得到100g上面食物中卡路里的总量,这些食物分别是…

deeplearning.ai 神经网络和深度学习 week3 浅层神经网络

1. 第i层网络 Z[i] = W[i]A[i-1] + B[i],A[i] = f[i](Z[i]). 其中, W[i]形状是n[i]*n[i-1],n[i]是第i层神经元的数量: A[i-1]是第i-1层的神经元,形状是n[i-1]*p,p是样本数量: B[i]形状是n[i]*p,B[i]的每一列都是一样的,所以其实有效的参数只是n[i]个,python里直接用n[i]*1的b[i]然后boradcasting成n[i]*p方便做加法. A[0]对应输入层,n[0]是单个输入样本的特征数量.…

deeplearning.ai 神经网络和深度学习 week2 神经网络基础

1. Logistic回归是用于二分分类的算法. 对于m个样本的训练集,我们可能会习惯于使用for循环一个个处理,但在机器学习中,是把每一个样本写成一个列向量x,然后把m个列向量拼成一个矩阵X.这个矩阵是nx*m大小,nx是每个样本的特征数量,m是样本个数,X.shape=(nx,m).也可以把特征写成横向量然后竖着拼成m*n的矩阵,NG说前一种列向量的表示方便运算.输出Y是1*m的向量,Y.shape=(1,m). 把样本表示成矩阵形式后,可以对它进行线性操作wTx+b,由于二分分类的标签为0…

deeplearning.ai 神经网络和深度学习 week1 深度学习概论

1. 预测房价.广告点击率:典型的神经网络,standard NN. 图像:卷积神经网络,CNN. 一维序列数据,如音频,翻译:循环神经网络,RNN. 无人驾驶,涉及到图像.雷达等更多的数据类型:混合的神经网络. 2. 结构化数据:数据的数据库,每一种特征都有明确的定义,如预测房价.广告点击率.目前主要的营收来源还是处理结构化数据. 非结构化数据:如音频.图像.文本,特征不明显.人类和你擅长处理非结构化数据. 3. 为什么近期神经网络一下子变这么厉害?一个神经网络牛逼的条件:1)神经网络的规模足…

【深度学习】计算机视觉中的 Single-Scale 和 Multi-Scale

Single-Scale:是指把一张图片送到 CNN : Multi-Scale:一般会送到 CNN 十张图片:比如高宽是 256 Χ 256 的图片,Multi-Scale会在它的四个角以及中心裁剪 5 张 224 Χ 224 的图片,然后再进行翻转,总共得到十张图片,最后全部送到 CNN.…

【OCR技术系列之四】基于深度学习的文字识别（3755个汉字）

上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建.用深度学习做文字识别,用的网络当然是CNN,那具体使用哪个经典网络?VGG?RESNET?还是其他?我想了下,越深的网络训练得到的模型应该会更好,但是想到训练的难度以及以后线上部署时预测的速度,我觉得首先建立一个比较浅的网络(基于LeNet的改进)做基本的文字识别,然后再根据项目需求,再尝试其他的网络结构.这次任务所使用的深度学习框架是强大…