Coursera, Big Data 3, Integration and Processing (week 1/2/3)

【Coursera, Big Data 3, Integration and Processing (week 1/2/3)】的更多相关文章

Coursera, Big Data 3, Integration and Processing (week 1/2/3)

This is the 3rd course in big data specification courses. Data model reivew 1, data model 的特点: Structured, operations on it, constrains. 2. different types of data model Retrieving data (week 1/2) Querying data from ralational DB. query data from mon…

Coursera, Big Data 3, Integration and Processing (week 4)

Week 4 Big Data Precessing Pipeline 上图可以generalize 成下图,也就是Big data pipeline some high level processing operations in big data pipeline 在一个pipeline里有哪些data transformation 方法?课程上讲了一个类比data transformation的例子,把原木加工成家具. 基本的data transformation 操作有 : Map 是…

Coursera, Big Data 3, Integration and Processing (week 5)

Week 5, Big Data Analytics using Spark Programing in Spark Spark Core: Programming in Spark using RDD in pipelines RDD 创建过后,会有两种操作,Transformation 和 Action. 只有到了Action 阶段才会验证Transformation 操作是否正确,所以经常看到Action阶段有很多报错. 叫 lazy 下图是一个具体的例子. 教程里提到了cac…

Coursera, Big Data 4, Machine Learning With Big Data (week 1/2)

Week 1 Machine Learning with Big Data KNime - GUI based Spark MLlib - inside Spark CRISP-DM Week 2, Data Exploration 一般有两种方法,summary statistics 和 visualization Summary statistics (mean 平均数,median 中位数, mode 最常见的数) high Kurtosis 预示着有outlier的存在 visuali…

Coursera, Big Data 2, Modeling and Management Systems (week 4/5/6)

week4 streaming data format 下面讲 data lakes schema-on-read: 从数据源读取raw data 直接放到 data lake 里,然后再读到model里 schema-on-write: 传统模式,把raw data 经过处理后放到data warehouse里,此时已经是结构化的数据,然后直接load 出来 data lake summary week5 - big data management 针对大数据,传统DBMS 需要提高的地方 s…

Coursera, Big Data 2, Modeling and Management Systems (week 1/2/3)

Introduction to data management 整个coures 2 是讲data management and storage 的,主要内容就是分布式文件系统,HDFS, Redis 等 What is data management? Introduction to data model 什么是data model? 三个component - Structure, Operations, Constrants 四个基本 data operation - selection(…

Coursera, Big Data 1, Introduction (week 3)

什么是分布式文件系统?为什么需要分布式文件系统? 如果文件系统可以管理用网络连接的很多个存储单元,叫分布式文件系统. 分布式文件系统提供了数据可扩展性,容错性,高并发. 这些是传统文件系统不具有的. Hadoop getting started 为什么用Hadoop? Hadoop 的 4 个What 和 How. Hadoop 的主要Goal: 1. 可扩展来增加 node 2. 容错,Node down 可以很容易recover 3. 可以读取各种格式的数据(structured, unst…

Coursera, Big Data 1, Introduction (week 1/2)

Status: week 2 done. Week 1, 主要讲了大数据的的来源 - 机器产生的数据,人产生的数据(比如社交软件上的update, 一般是unstructed data), 组织产生的数据(一般是structured data) 怎么把unstructured data 转化成 structured data? 利用 Hadoop, Storm, Spark and NoSQL. Hadoop 能解决data量大的问题,因为它是支持分布式计算的. Storm 和 Spark 能分…

Coursera, Big Data 4, Machine Learning With Big Data (week 3/4/5)

week 3 Classification KNN :基本思想是 input value 类似,就可能是同一类的 Decision Tree Naive Bayes Week 4 Evaluating model Over-fitting 怎么在Decision Tree 训练时避免 overfitting: Pre-Pruning 和 Post-Pruning pre-pruning 两个停止条件:1. 某个node上的record数目小于一定量,比如 <20个, 2. 纯度到达一定数值,比如…

In-Stream Big Data Processing

http://highlyscalable.wordpress.com/2013/08/20/in-stream-big-data-processing/ Overview In recent years, this idea got a lot of traction and a whole bunch of solutions like Twitter's Storm, Yahoo's S4, Cloudera's Impala, Apache Spark, and Apache Tez…