文章来自于:http://www.cnblogs.com/geekma/archive/2013/05/30/3108391.html Bigtable研究 摘要 Bigtable是一个用于管理结构型数据的分布式存储系统,被设计为可扩展到很大规模:通过数以千台的机器存储PB级数据.很多Google的工程都将数据存储在Bigtable中,包括网页索引.Google Earth和Google金融.这些应用在数据量和延迟方面对Bigtable的需求很不相同.尽管这些不尽相同的需求,Bigtable能够…
这周少打点dota2,争取把这篇论文读懂并呈现出来,和大家一起分享. 先把论文搞懂,然后再看下和论文搭界的知识,比如hbase,Chubby和Paxos算法. Bigtable: A Distributed Storage System for Structured Data 大表:用于结构化数据的分布式存储系统 怎么样,"大表"这个翻译是不是很屌. Fay Chang, Jeffrey Dean, Sanjay Ghemawat, Wilson C. Hsieh, Deborah A…
今天查找分布式计算的有关资料,发现Google的三大核心技术MapReduce.GFS和BigTable的论文都已经被翻译成高质量的中文,更巧的是,这三篇中译版的原发地都是CSDN的Blog.其中最新的一篇是张凌云在一个月之前发表的MapReduce论文,最早的一篇是Xu Lei发表于2005年11月的GFS论文.         这三篇论文翻译质量相当高,三位译者作出了非常了不起的.实实在在的贡献,真是应该好好感谢他们! 为了方便大家整理,我把三篇论文的地址统一列在这里: MapReduce:…
[阿里DIN]从论文源码学习 之 embedding_lookup 目录 [阿里DIN]从论文源码学习 之 embedding_lookup 0x00 摘要 0x01 DIN代码 1.1 Embedding概念 1.2 在DIN中的使用 1.3 问题 0x02 相关概念 2.1 one-hot编码 2.2 转换 2.3 Embedding层 2.3.1 意义 2.3.2 常规作用 2.3.3 如何生成 2.4 Embedding与深度学习推荐系统的结合 2.4.1 重要性 2.4.2 预训练方法…
作者:王嘉俊 王婉婷 TensorFlow 是 Google 第二代深度学习系统,今天宣布完全开源.TensorFlow 是一种编写机器学习算法的界面,也可以编译执行机器学习算法的代码.使用 TensorFlow 编写的运算可以几乎不用更改,就能被运行在多种异质系统上,从移动设备(例如手机和平板)到拥有几百台的机器和几千个 GPU 之类运算设备的大规模分布式系统. TensorFlow 降低了深度学习的使用门槛,让从业人员能够更简单和方便地开发新产品.作为Google 发布的“平台级产品”,很多…
 Android自复制传播APP原理学习(翻译) 1 背景介绍 论文链接:http://arxiv.org/abs/1511.00444 项目地址:https://github.com/Tribler/self-compile-Android 吃完晚饭偶然看到这篇论文,当时就被吸引了,马上翻译总结了一下.如有错误欢迎斧正. 该论文的研究出发点比较高大上这里我们就不多说了,简而言之就是想通过移动设备来实现一个自组网,在发生灾难的时候,手机之间能够自动传输关键数据,减少损失.整个目标通过设计一个能够…
[论文翻译]NIN层论文中英对照翻译--(Network In Network) [开始时间]2018.09.27 [完成时间]2018.10.03 [论文翻译]NIN层论文中英对照翻译--(Network In Network) [中文译名] 网络中的网络 [论文链接]https://arxiv.org/abs/1312.4400 [补充] 1)NIN结构的caffe实现: 因为我们可以把全连接层当作为特殊的卷积层,所以呢, NIN在caffe中是非常 容易实现的: https://githu…
论文为Google Brain在16年推出的使用强化学习的Neural Architecture Search方法,该方法能够针对数据集搜索构建特定的网络,但需要800卡训练一个月时间.虽然论文的思路有很多改进的地方,但该论文为AutoML的经典之作,为后面很多的研究提供了思路,属于里程碑式的论文,十分值得认真研读,后面读者会持续更新AutoML的论文,有兴趣的可以持续关注   来源:晓飞的算法工程笔记 公众号 论文:Neural Architecture Search with Reinfor…
Google论文之三----MapReduce MapReduce:大型集群上的简单数据处理 摘要 MapReduce是一个设计模型,也是一个处理和产生海量数据的一个相关实现.用户指定一个用于处理一个键值(key-value)对生成一组key/value对形式的中间结果的map函数,以及一个将中间结果键相同的键值对合并到一起的reduce函数.许多现实世界的任务都能满足这个模型,如这篇文章所示. 使用这个功能形式实现的程序能够在大量的普通机器上并行执行.这个运行程序的系统关心下面的这些细节:输入…
2014/11/16 Google Chrome 浏览器插件开发学习 因笔记存有文件,不便发表在cnblogs上,请到evernote里找笔记 "Google Chrome 浏览器插件开发学习" 查看…
[阿里DIN] 从论文源码学习 之 embedding层如何自动更新 目录 [阿里DIN] 从论文源码学习 之 embedding层如何自动更新 0x00 摘要 0x01 DIN源码 1.1 问题 1.2 答案 0x02 原理 2.1 随机梯度下降SGD 2.2 反向传播 2.3 自动求导 0x03 优化器 3.1 Optimizer基类 3.2 反向传播过程 3.2.1 compute_gradients 3.2.2 gradients 3.2.3 apply_gradients 3.3 Ad…
文章来自于:http://www.cnblogs.com/geekma/archive/2013/06/09/3128372.html 摘要 我们设计并实现了Google文件系统,它是一个可扩展的分布式分局系统,用于大型分布式数据密集型应用.它运行在便宜的普通硬件上,提供了容错处理:并为大量的客户端提供了高性能. 在与之前的分布式文件系统提供相同功能的同时,我们的设计是由对我们应用的工作和技术环境的观察驱动的,无论当前还是未来,都与之前的文件系统有明显的区别.这使我们重新测试了传统的文件系统,并…
跪求各路大侠指正:1.首先是一个列式存储的简单数据模型的数据库,它比键值对模型/文档模型NoSQL数据库复杂点(也就更强一点).2.它的分布式存储性能依靠于GFS也就对单机房网络有硬性指标.3.它同时提供了相对均衡的顺序读写操作,也就更适用于这样的应用.4.保证SSTable不变的结构简化了读写冲突所产生的问题复杂性.同时允许不同的tablet共享一个SSTable.5.memtable的设计减少了大量的读写冲突,双线程+序列允许归并写入,鉴于较小概率的读恢复操作,major compactio…
Google云计算技术奠定其在业界的领先地位,收集经典云计算技术公开文章供大家研究学习: 01)GFS-The Google File System 02) Bigtable - A Distributed Storage System for Structured Data 03) MapReduce - Simplified Data Processing on Large Clusters 05) Pregel - A System for Large-Scale Graph Proces…
写在前面:最新公司马上就要开始开发一款视觉产品,工程量较大,且需要对客户提供可以二次开 发的SDK,整个项目用C++编写. 这就对代码质量提出了非常高的要求,同时,如何设计出优雅稳定的API也是相当大的挑战. 当然,团队首先需要解决的问题是编程规范的确立.之前,公司规模较小,对C++代码规范不够重视,导致各个C++项目代码质量参差不齐,标准不一. 所以,公司领导希望借此视觉项目的机会,建立起公司C++编码规范,统一指导后续c++开发项目.建立编码规范本身也是对C++语言的再学习过程,利于提高整个…
Guava 是java api的增强与扩展,提供复杂的java 数据结构,使你的代码更简短精炼,具有良好的可读性.看看guava给我们提供了哪些很酷的功能: 集合创建: Map<String, Map<String, String>> map = Maps.newHashMap(); List<List<Map<String, String>>> list = Lists.newArrayList(); 集合初始化: Set<String&…
从google历年所有论文的汇总来看,TOP5的分别是人工智能和机器学习.算法理论.人机交互与视觉.自然语言处理.机器感知,大家从一个侧面看出goolge research的重点了吧. Google所有论文汇总: http://research.google.com/pubs/papers.html 如下英文长贴是google在2012年发表的优秀论文汇总,Goole一直是IT领域的技术风向标,依托其大规模分布式系统以及搜索/广告等成功的业务,谷歌的论文更是具有相当的实践说服力.如下汇总的优秀论…
使用 谷歌提供了免费的K80的GPU用于训练深度学习的模型.而且最赞的是以notebook的形式提供,完全可以做到开箱即用.你可以从Google driver处打开.或者这里 默认创建的是没有GPU的,我们需要修改,点击"代码执行程序" 然后就会有GPU使用了 挂在Google云盘 执行如下代码 !apt-get install -y -qq software-properties-common python-software-properties module-init-tools…
思想 map函数:处理一组key/value对进而生成一组key/value对的中间结果 reduce函数:将具有相同Key的中间结果进行归并 实现 环境 普通带宽,上千台机器(失败变得正常),廉价硬盘,调度系统. 执行过程 文件划分 master分派map和reduce任务 执行map函数 中间结果缓存和位置传递 执行reduce函数 生成最终结果文件 结果返回 Master是将中间结果文件从map task传递到reduce task的渠道. 保存:对于每个完成的map task,maste…
Google文件系统是一个面向大规模分布式数据密集型应用的可扩展分布式文件系统. 这里的思维导图作为个人的读书笔记.   参考资料: <google系列论文>- GFS…
最近因为科研需求,一直在研究Google的开源RE2库(正则表达式识别库),库源码体积庞大,用C++写的,对于我这个以前专供Java的人来说真的是一件很痛苦的事,每天只能啃一点点.今天研究了下里面用到的测试方法,感觉挺好的,拿来跟大家分享下!(哈~C++大牛勿喷) 对于我这个C++菜鸟中的菜鸟而言,平时写几个函数想要测试一般都是在main中一个一个的测试,因为没用C++写过项目,没有N多方法所以在main中一个个测试也不费劲.但是对于一个项目而言,或多或少都有N多方法,如果在main中一个个测试…
OKR 全称是「目标和关键成果」(Objectives and Key Results).它是Google在公司创立不足一年的时候,从Intel公司引入的目标管理系统,也常被认为是一套组织测评系统. OKR到底是什么? OKR是为公司.团队.个人量身定制,它也是公司.团队或个人的工作指南针,但它并不是绩效考核KPI.从名称上看,包括目标(O)和关键成果(KR)两个方面.公司由上至下都制定目标,这些目标使得公司整体朝着一个方向努力,减少内部阻力.窝里斗.拉后腿等行为. OKR有三个重要点: 1.要…
文章来自于:http://www.cnblogs.com/geekma/p/3139823.html MapReduce:大型集群上的简单数据处理 摘要 MapReduce是一个设计模型,也是一个处理和产生海量数据的一个相关实现.用户指定一个用于处理一个键值(key-value)对生成一组key/value对形式的中间结果的map函数,以及一个将中间结果键相同的键值对合并到一起的reduce函数.许多现实世界的任务都能满足这个模型,如这篇文章所示. 使用这个功能形式实现的程序能够在大量的普通机器…
Deep Learning for NLP Deep Learning for NLP Lecture 2:Introduction to Teano enter link description here Neural Networks can be expressed as one long function of vector and matrix operations. (神经网络可以表示为一个向量和矩阵运算的长函数.) Common Frameworks(常用框架) C/C++ if…
避免在循环中使用内存 也可理解为在循环中尽可能少创建对象,自定义控件避免在ondraw里面频繁创建paint对象.   尽可能避免内存分配 对象缓存: 常量通过类级别或者静态来进行缓存. 对象池: 同一种类型的多种对象,考虑使用对象池而不是分配频繁的分配内存. (不是很理解,还需深入学习)   使用ArrayList. android集合类: 使用ArrayMap或者simpleArrayMap代替HashMap.   需要修改的方法: 尽可能少用对象类型而是用原始类型的数据,android提供…
GET请求 1.Google浏览器开发者工具截图图示 2.General Request URL :为请求链接 Status Code :为HTTP响应状态码 3.ResponseHeaders :响应头 4.Request Headers :请求头 留意请求头内无Content-Type 5.Query String Parameters :GET 请求参数 POST请求(正常表单提交) 1.其他同上 2.Request Headers :请求头 注意Content-Type:applicat…
The Reactor:An Object-Oriented Wrapper for Event-Driven Port Monitoring and Service Demultiplexing 反应堆模式:一种应用于事件驱动的端口监控和服务多路化的面向对象封装器 Douglas C. Schmidt An earlier version of this paper appeared in the February 1993 issue of the C++ Report. 这篇文章的早期版本…
1.https://blog.csdn.net/gongxinju/article/details/53634434…
Kafka是一个分布式的流式平台.可以从几个方面理解: 1. 三个重要的能力: 能够实现流式的发布和订阅数据,类似于消息队列或者企业级的消息分发系统. 能够在提供一定容错性和持久性能力的基础上存储数据. 流式处理数据 2. 用途:a. 系统间实时交换数据. b. 利用其构建一个流式数据处理系统. 3. Kafka以集群的形式运行,并且具有跨数据中心横向扩展的能力.Kafka以topics归类消息.每一条数据都由key,value,timestamp构成. 4. 四类核心API: Producer…
论文标题:Faster R-CNN: Down the rabbit hole of modern object detection 论文作者:Zhi Tian , Weilin Huang, Tong He , Pan He , and Yu Qiao 论文地址:https://tryolabs.com/blog/2018/01/18/faster-r-cnn-down-the-rabbit-hole-of-modern-object-detection/ 论文地址:Object detect…