在国内参加PDE考试的人比较少,导致资料也很少。我在19年1月30号去上海参加PDE考试,参加前也是完全没底,因为时间短资料少,但幸运的是顺利通过了。回过头来看,其中有些技巧和重点,在此做一些总结,希望可以给参加PDE考试的同学提供一些帮助。

收获

1)对云有新的认识
2)对大数据架构、机器学习架构设计有新的认识
3)当然最重要的是获得google官方发的证书

说说我的准备

1)花了5周的时间看完google官方提供的视频,几乎是完全脱产(只做一些事故处理)。
2)试做官方提供example,一共20道题,我错了五道。我错的主要是安全和BigTable相关的。
3)google的同学建议是看concept的相关内容,但离考试也就剩三四天了,不可能详细复习,concept是一定看不完的。那么就针对没有掌握的知识进行复习,安全相关的官方视频是没有涉及的,所以必须自己找资料看,别的资料也没有,就只能看concept中涉及安全的方便,这个比较少,最多一天就全部看完。BigTable看来我也是掌握不好,那么我就看BigTable的concept知识。
4)看完上面的就参加考试了,也再没做特别复习。

整体来看

google的产品大致涉及存储(cloud storage、SQL、spanner、memory、BigTable、datastore)、消息中间件Pub\Sub、计算(dataproc、BigQuery、Dataflow)、机器学习ML Engine、API、DataLab以及可视化。各个产品的使用场景必须心里有数,如果看完视频忘了,必须重新复习,最好和开源对应起来,因为开源多多少少有点儿了解,不要从头学习google cloud所有产品知识。

思维转变

把自己定位为产品解决方案工程师,不是找最优解,而是找最适合案例的解决方案。

产品详情

Cloud SQL & spanner

Cloud SQL 就是mysql\postsql的单机版,google帮你做了安装部署和管理(安全、备份等),如果需要水平扩展就是spanner了,而且支持事务,这两个产品的应用场景就是应用交易记录等。

cloud storage

就是存储引擎,什么都可以放,没有大小文件、结构化和非结构化的限制,利用好存储级别(正常、nearline(月级访问)和cold(年级访问))可以节约成本。

BigTable

考试重点。注意key值的设置,如何避免热点问题,时间序列的问题大部分就是选BigTable存储,BigTable适用于时延性要求高的场景。

datastore

类似于mongodb,通过属性来查询,不是重点。

BigQuery

考试重点。注意安全和视图相关知识,数据存储在BigQuery和存储在cloud storage的价钱差不多,根据使用情况,会自动处理存储介质,降低价格,一定要合理利用BigQuery。

Dataproc

主要是为了适应客户原来使用hadoop堆栈,现在不像修改代码,就像上云的场景。

dataflow

是google大力推进的产品,是替代Dataproc的下一代计算引擎,实现自动扩缩容,并且流处理和批处理代码保持一致。题外话:dataflow和bigquery(秒级响应)是google大数据方面两大杀伤性武器,区别于其他云的地方。

Pub\Sub

Pub\Sub和dataflow配合使用处理事件流,延时性要求高选用BigTable存储,不高选用BigQuery。

ML Engine

tensorflow的云化版,实现离线训练和在线服务的自动化,配合dataprep可以实现离线数据的预处理,datalab(jupyter notebook)实现数据探索和离线训练。

Auto ML

Auto ML是为了丰富API,容许用户自己提供数据,对模型进行训练。

综述

其实知识点也不那么难,最后难得可能是英语这一关,视频和考试全英语。祝大家顺利通过考试。

如果有疑问欢迎关注下面公众号进行交流。

Google Professional Data Engineer(PDE)考试的更多相关文章

  1. 数据分析师(Data Analyst),数据工程师(Data Engineer),数据科学家(Data Scientist)的区别

    数据分析师(Data Analyst):负责从数据中提取出有用的信息,以帮助公司形成业务决策.工作内容包括:对数据进行提取,清洗,分析(用描述统计量,趋势分析,多维度分析,假设检验等统计常用方法对数据 ...

  2. How Google Backs Up The Internet Along With Exabytes Of Other Data

    出处:http://highscalability.com/blog/2014/2/3/how-google-backs-up-the-internet-along-with-exabytes-of- ...

  3. Multi-Cloud & Kubernetes: Cloud Academy November 2018 Data Report

    https://cloudacademy.com/research/multi-cloud-kubernetes-devops-cloud-academy-data-report-nov-18/ No ...

  4. [DE] How to learn Big Data

    打开一瞧:50G的文件! emptystacks jobstacks jobtickets stackrequests worker 大数据加数据分析,需要以python+scikit,sql作为基础 ...

  5. google chrome set

    "D:\Program Files\Google\Chrome\Application\chrome_bk.exe" --start-maximized --user-data-d ...

  6. P6 Professional Installation and Configuration Guide (Microsoft SQL Server Database) 16 R1

    P6 Professional Installation and Configuration Guide (Microsoft SQL Server Database) 16 R1       May ...

  7. Bigtable: A Distributed Storage System for Structured Data

    https://static.googleusercontent.com/media/research.google.com/en//archive/bigtable-osdi06.pdf Abstr ...

  8. Why Apache Beam? A data Artisans perspective

    https://cloud.google.com/dataflow/blog/dataflow-beam-and-spark-comparison https://github.com/apache/ ...

  9. smarty练习:考试系统

    考试系统 (0607) 做一个类似于驾校考试的系统,可以选择要考试试题类型,选好后进入考试页面 使用的数据库表格:timu(题目)表,xuanxiang(选项)表,shiti(试题)表,shititi ...

随机推荐

  1. [教学] Delphi IDE 文件搜寻功能

    Delphi IDE 提供了一个方便的文件搜寻功能,操作如下: 点 Search 选单内的 Find in Files... 例如我们想搜寻 JFile 需要引用那一个源码,可输入如下: 输入关键字: ...

  2. 在Linux Mint 19 / Linux Mint 18上安装VirtualBox 6.0 / 5.2

    如果你直接可以 sudo apt-get install virtualbox-6.0那就相安无事 否则参考https://www.itzgeek.com/how-tos/linux/linux-mi ...

  3. websocket简单入门

    今天说起及时通信的时候,突然被问到时用推的方式,还是定时接受的方式,由于之前页面都是用传统的ajax处理,可能对ajax的定时获取根深蒂固了,所以一时之间没有相同怎么会出现推的方式呢?当被提及webs ...

  4. 20155306 2016-2017-2《Java程序设计》课程总结

    20155306 2016-2017-2<Java程序设计>课程总结 (按顺序)每周作业链接汇总 •预备作业1:对自己专业看法及.学习Java的期望,以及心中的师生关系. •预备作业2:C ...

  5. 从码云把之前的代码git push 回IDEA 对IDEA里的文件进行简单操作

    前情提要:我的IDEA里的项目之前已经和码云连接成功可以上传.但我直接在电脑文件夹里对文件进行重命名.剪切.粘贴等操作之后IDEA对操作后的文件不识别,无奈之下我将码云上之前的代码推回重新新建了项目. ...

  6. 见到Unicode、GB2312、GBK 、ANSI、Ascii、DBCS、BIG5、UTF这一堆名词你是否犯晕?请看转载的好文

    作者:于洋链接:https://www.zhihu.com/question/23374078/answer/69732605来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出 ...

  7. 前后端分离之JWT用户认证zf

    在前后端分离开发时为什么需要用户认证呢?原因是由于HTTP协定是不储存状态的(stateless),这意味着当我们透过帐号密码验证一个使用者时,当下一个request请求时它就把刚刚的资料忘了.于是我 ...

  8. 【LG3244】[HNOI2015]落忆枫音

    题面 洛谷 题解 20pts 枚举每一条边是否在树中即可. 另10pts 我们考虑一张\(DAG\)中构成树的方法数,每个点选一个父亲即可,那么有 \[Ans=\prod_{i=1}^{n} deg_ ...

  9. Oracle用户和模式,表空间

    oracle 用户与表空间关系 oracle用户与表空间关系用户=商家表=商品表空间=仓库1. 1个商家能有很多商品,1个商品只能属于一个商家2. 1个商品可以放到仓库A,也可以放到仓库B,但不能同时 ...

  10. Mybatis JPA-集成方案+源码

    2018-04-18 update 当前文章已过时,请访问代码仓库查看当前版本wiki. github https://github.com/cnsvili/mybatis-jpa gitee htt ...