2月初,AAAI 2020在美国纽约拉开了帷幕.本届大会百度共有28篇论文被收录.本文将对其中的机器翻译领域入选论文<Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding>进行解读. https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruP97grEpmCwA5Sms2kHtrFBcDK0lRcs…
美国时间2月7-12日,AAAI 2020大会在纽约正式拉开序幕,AAAI作为全球人工智能领域的顶级学术会议,每年评审并收录来自全球最顶尖的学术论文,这些学术研究引领着技术的趋势和未来.京东云与AI在本次大会上有10篇论文被AAAI收录,涉及自然语言处理.计算机视觉.机器学习等领域, 充分展现了京东用技术驱动公司成长的发展模式以及技术实力,技术创新和应用落地也成为这些论文最吸引行业关注的亮点. 本届会议共收到的有效论文投稿超过8800篇,其中7737 篇论文进入评审环节,最终录取数量为1591篇…
AAAI 2018 论文 | 蚂蚁金服公开最新基于笔画的中文词向量算法 2018-01-18 16:13蚂蚁金服/雾霾/人工智能 导读:词向量算法是自然语言处理领域的基础算法,在序列标注.问答系统和机器翻译等诸多任务中都发挥了重要作用.词向量算法最早由谷歌在2013年提出的word2vec,在接下来的几年里,该算法也经历不断的改进,但大多是仅适用于拉丁字符构成的单词(比如英文),结合中文语言特性的词向量研究相对较少.本文介绍了蚂蚁金服人工智能部与新加坡科技大学一项最新的合作成果:cw2vec——…
Infrared-Visible Cross-Modal Person Re-Identification with an X Modality (AAAI 2020) 1. Motivation 可见光图像包含颜色.外观等信息,波长较短:红外图像包含结构和轮廓信息,波长较长,两个模态差异大 当前存在的方法都有以下弊端:对参数敏感,难收敛,计算量大.如何减少两个模态间的差异成为了解决跨模态行人重识别的关键问题. 大部分方法都是将两个模态图像映射到同一个特征空间,如图 (a) 所示(颜色一样的为同一…
论文:Region Normalization for Image Inpainting, AAAI 2020 代码:https://github.com/geekyutao/RN 图像修复的目的是重建输入图像的损坏区域.它在图像编辑中有许多应用,例如面部编辑和图像遮挡.图像修复中的关键问题是在损坏的区域中生成视觉上合理的内容. 现有的图像修复方法可以分为两类:传统方法和基于学习的方法.传统方法通过基于扩散的方式来填充损坏的区域,这些方法会将邻近的信息传播到损坏区域.基于学习的方法通常训练神经网…
论文分享第四期-2019.04.16 Residual Attention Network for Image Classification,CVPR 2017,RAN 核心:将注意力机制与ResNet结合,用于图像分类.论文设计了一个注意力模块(Attention Module),通过级联该模块(即增加模型深度),网络可以学到细粒度的特征图谱(fined-grained feature maps),因为随着层数的加深,来自不同模块的注意力感知特征可以自适应地改变. 除了注意机制带来的更具判别性…
论文分享第三期-2019.03.29 Fully convolutional networks for semantic segmentation,CVPR 2015,FCN 一.全连接层与全局平均池化 在介绍FCN网络的全卷积连接之前,先介绍一下全连接层(fully connected layers)和全局平均池化(global average pooling) 全连接层可以将前面的多层卷积学到的“分布式特征表示”(或者说是高层的鲁棒特征)映射到样本类别空间,与softmax组合具有“分类器”…
论文分享第二期-2019.03.26 NIPS2015,Spatial Transformer Networks,STN,空间变换网络…
论文分享第一期-2019.03.14: 1. Non-local Neural Networks  2018 CVPR的论文 2. Self-Attention Generative Adversarial Networks  abs/1805.08318 先将手写笔记上传,后续整理成文字 一. 二.…
[论文分享] DHP: Differentiable Meta Pruning via HyperNetworks authors: Yawei Li1, Shuhang Gu, etc. comments: ECCV2020 cite: [2003.13683] DHP: Differentiable Meta Pruning via HyperNetworks (arxiv.org) code: ofsoundof/dhp: This is the official implementati…
authors: Mingbao Lin, Rongrong Ji, etc. comments: IJCAL2020 cite: [2001.08565v3] Channel Pruning via Automatic Structure Search (arxiv.org) code: https://github.com/lmbxmu/ABCPruner (official) 0.Abstract In this paper, we propose a new channel prunin…
Translator 中文预览版登陆中国" title="挑战中英实时语音翻译--Skype Translator 中文预览版登陆中国"> 今天,我们正式宣布在中国市场推出Skype Translator实时语音翻译技术的中文预览版.自此,英文和中文普通话之间的实时语音对话将成为现实.Skype Translator不仅凝聚了微软在语音识别.自动翻译和机器学习等科技领域几十年的研究成果,更深刻地体现了微软"用户体验至上"的理念.自2014年12月Sk…
原文地址:https://realpython.com/blog/python/setting-up-sublime-text-3-for-full-stack-python-development/ 原文标题:Setting Up Sublime Text 3 for Full Stack Python Development 翻译:打造基于sublime text 3的全能Python开发环境 Sublime Text 3 (ST3) is lightweight, cross-platfo…
1  原理:查看谷歌翻译网站,输入需要翻译的文字,选择语言得到翻译后的文字,发送异步请求参数返回结果.java使用httpclient发送请求,实现使用代码翻译文章的功能. 2  下载代码后,测试入口:(代码为网上资源,经过改善已经可以使用测试) package translate;public class Translator {public static void main(String[] args) {// 1 不使用代理容易被谷歌封ipGoogleApi googleApi = new…
CVPR 2020 共收录 1470篇文章,根据当前的公布情况,人工智能学社整理了以下约100篇,分享给读者. 代码开源情况:详见每篇注释,当前共15篇开源.(持续更新中,可关注了解). 算法主要领域:图像与视频处理,图像分类&检测&分割.视觉目标跟踪.视频内容分析.人体姿态估计.模型加速.网络架构搜索(NAS).生成对抗(GAN).光学字符识别(OCR).人脸识别.三维重建等方向. 目录如下: # 总目录 # 图像处理 1. Deep Image Harmonization via Do…
https://www.sohu.com/a/233269391_395209 本周我们要分享的论文是<Universal Language Model Fine-tuning for Text Classificatio> 迁移学习在计算机视觉方面取得了很多成功,但是同样的方法应用在NLP领域却行不通.文本分类还是需要从零开始训练模型.本文的作者提出了一种针对NLP的有效的迁移学习方法,通用语言模型微调(ULMFiT)并介绍了用于微调模型的关键技巧. 越底层的特征越通用,越顶层的特征越特殊…
论文地址:https://arxiv.org/abs/1911.06455 实现代码地址:https://github.com/ seongjunyun/Graph_Transformer_Networks 看分享之前可以把论文读一遍,代码看一看,这样必定会事半功倍! ### 论文目的是通过构造GTN(Graph Transformer Networks),来学习到异构网络中有效的节点表示. ### 其他现有方法(GNNs)的缺点: 1. 对于异构图,由于GNN只用于处理同构图,因此效果不好.…
论文提出了类似于dropout作用的diversification block,通过抑制特征图的高响应区域来反向提高模型的特征提取能力,在损失函数方面,提出专注于top-k类别的gradient-boosting loss来优化训练过程,模型在ResNet-50上提升3.2%,算法思路巧妙,结构易移植且效果也不错,值得学习 论文:Fine-grained Recognition: Accounting for Subtle Differences between Similar Classes…
通过Emgu实现对图片上的数字进行识别.前期步骤:1.下载Emgu安装文件,我的版本是2.4.2.1777.3.0版本则实现对中文的支持.2.安装后需填写环境变量,环境变量Path值后加入Emgu安装路径到bin下.如C:\Emgu\emgucv-windows-x86-gpu 2.4.2.1777\bin:3.在bin下查找需要的dll如Emgu.CV.dll与Emgu.CV.OCR.dll等.4.将C:\Emgu\emgucv-windows-x86-gpu 2.4.2.1777\bin下的…
论文提出了IoU-based的DIoU loss和CIoU loss,以及建议使用DIoU-NMS替换经典的NMS方法,充分地利用IoU的特性进行优化.并且方法能够简单地迁移到现有的算法中带来性能的提升,实验在YOLOv3上提升了5.91mAP,值得学习 论文:Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression 论文地址:https://arxiv.org/abs/1911.08287 代码地址:ht…
论文提出Spiking-YOLO,是脉冲神经网络在目标检测领域的首次成功尝试,实现了与卷积神经网络相当的性能,而能源消耗极低.论文内容新颖,比较前沿,推荐给大家阅读   来源:晓飞的算法工程笔记 公众号 论文: Spiking-YOLO: Spiking Neural Network for Energy-Efficient Object Detection 论文地址:https://arxiv.org/abs/1903.06530 Introduction   脉冲神经网络(Spiking n…
前置点评: 这篇文章比较朴素,创新性不高,基本是参照了google的word2vec方法,应用到推荐场景的i2i相似度计算中,但实际效果看还有有提升的.主要做法是把item视为word,用户的行为序列视为一个集合,item间的共现为正样本,并按照item的频率分布进行负样本采样,缺点是相似度的计算还只是利用到了item共现信息,1).忽略了user行为序列信息; 2).没有建模用户对不同item的喜欢程度高低. ------------------------------------------…
论文题目:Beyond OCR + VQA: Involving OCR into the Flow for Robust and Accurate TextVQA 论文链接:https://dl.acm.org/doi/abs/10.1145/3474085.3475606 一.任务概述 视觉问答任务(VQA):将图像和关于图像的自然语言问题作为输入,并生成自然语言答案作为输出.  文本视觉问答任务(TextVQA):面向文字识别的问答任务. 二.Baseline 2.1 Baseline 1…
最近开始了解UWP和Edge内核,在微软技术博客中找到一篇文章,主要是介绍Edge渲染内核使用技术.顺手翻译了一下.不对之处请斧正! Over the past several months, we have made numerous improvements to theMicrosoft Edge rendering engine (Microsoft EdgeHTML), focusing oninteroperability with modern browsers and compl…
本文来自于腾讯bugly开发者社区,非经作者同意,请勿转载,原文地址:http://dev.qq.com/topic/5811d42e7fd6ec467453bf58 作者:李智文 概要 分享内容: 互联网内容载体变迁历程,文字--图片/声音--视频--VR/AR----..从直播1.0秀场时代(YY),2.0游戏直播(斗鱼.虎牙.熊猫)到如今全民直播3.0泛生活娱乐时代(映客.花椒),国外直播app(Meerkat .Periscope),随着VA/AR/MR提出的沉浸式视听体验,直播4.0时…
本文为IBM RedBook的Linux Performanceand Tuning Guidelines的1.1节的翻译原文地址:http://www.redbooks.ibm.com/redpapers/pdfs/redp4285.pdf原文作者:Eduardo Ciliendo, Takechika Kunimasa, Byron Braswell 译文例如以下: 1.1 Linux进程管理 进程管理是操作系统的最重要的功能之中的一个. 有效率的进程管理能保证一个程序平稳而高效地执行. L…
[维基词典+谷歌翻译]插件地址: https://addons.mozilla.org/zh-CN/firefox/addon/google-dictionary-and-google-t/?src=search [维基词典+谷歌翻译]插件官方设置图片教程 : http://www.toptip.ca/2013/11/adding-images-to-wiktionary-and-google.html 图片可以增加记忆效果,可以通过谷歌搜索引擎查找特定的图片(最近100天内排名靠前的关键字图片…
由于Spark自己的调优guidance已经覆盖了很多很有价值的点,因此这里直接翻译一份过来.也作为一个积累. Spark 调优 (Tuning Spark) 由于大多数Spark计算任务是在内存中运行计算,任何集群中的资源限制都可能成为Spark程序的瓶颈,比如:CPU.网络.带宽.内存.通常情况下,如果内存能容纳所处理数据,主要的瓶颈则仅是网络带宽.但有些时候您也需要做一些调优,比如利用RDD序列化存储来降低内存消耗.本手册将会涵盖以下两个大点:数据序列化(对优化网络传输和降低内存开销有显著…
最近一直在学习微服务相关的技术.微服务架构已成为构建云原生应用程序的标准,并且可以预见,到2022年,将有90%的新应用程序采用微服务架构.微服务架构提供了令人信服的好处,包括可伸缩性,松散的服务耦合和独立部署,但是这种方法的成本很高,需要了解和熟练掌握分布式系统.学习过程中发现了一个开源的分布式应用运行时:Dapr (https://dapr.io/) 构建事件驱动,无状态和有状态应用程序 比如,当架构一个由多个服务组成的电子商务系统时,你可能会想到用一个有状态的Actor来表示购物车服务,并…