一.event事件分析 叶子节点只计算一次 父节点的触发次数由子节点的数量节点 事件流:是由业务人员定义的一系列的具有前后顺序的事件构成的用户操作行为,至少包括两个事件以上. 目标:以事件流为单位,分析事件流中各个事件的触发次数 事件流特征: 1.事件流中每一个事件都会存在一个来源/父事件 计算方式: 1. 不考虑事件流的关系,直接计算各个事件的触发次数(wordcount) 2. 考虑事件流,计算事件流中的各个事件的触发次数 区分 1.uuid,不同访客的事件流不在一起处理: 不同人产生的事件…
一.大数据的落地点 1.数据出售 数据商城:以卖数据为公司的核心业务 2. 数据分析 百度统计 友盟 GA IBM analysis 3.搜索引擎 4. 推荐系统 mahout 百分比 5.精准营销 (1)广告投入:网站所有者集成广告联盟的js->访问者访问页面->js发送用户数据->广告联盟发送一个可以报价的广告位信息给所有的广告公司(报价是否.价格多少) ->广告公司接受到这个报价信息,根据携带的用户信息计算用户点击的概率(用户点击模型)->广告公司将是否报价信息以及报价…
一.ETL操作 抽取数据 日志格式: 分割符号:^A IP地址 服务器时间 二.Java工程 1. 创建项目 copy代码及配置文件 2. 改配置 core-site.xml hbase-site.xml 3. 代码描述 common包:常量(字段常量) dimension包:自定义key value…
一.分布式集群安装1. Hadoop模式本地模式.伪分布模式.集群模式datanode 使用的机器上的磁盘,存储空间nodemanager使用的机器上的内存和CPU(计算和分析数据) 2. 搭建环境准备工作(1)克隆虚拟机,达到3台机器,分布式的架构即可重新搭建一个hadoop环境(2)克隆完成后,需要修改ip.主机名.映射.网络eth1->eth0(3)服务组件的规划senior01: 4G内存,1核CPU,50G,namenode,datanode, nodemanager, history…
大数据离线计算hadoop2.x 三周(6天) markdown文本剪辑器 罗振宇--跨年演讲,时间的朋友 http://tech.163.com/16/0101/11/BC87H8DF000915BF.html 勤奋的男人和爱笑的女人运气都不会太差. 1. 什么是Hadoop 2. hadoop生态系统架构功能与原理 3. hadoop核心模块组成 4. hadoop 2.x伪分布式环境搭建与配置.测试 一.前置课程: Linux: Java: 应用程开发>系统层开发 数据库: SQL on…
一.实用网站 1. linux内核版本 www.kernel.org 2. 查看网站服务器使用的系统  www.netcraft.com 二.推荐书籍 1. <Hadoop权威指南> 1-3版: Hadoop1系列 4版(目前仅有英文原版):Hadoop2系列 yarn高可用性,HA 2. <Hive权威指南> 3. <MapReduce设计模式> 4. <HBase权威指南> 5. <鸟哥的Linux私房菜> 6. <Vim使用技巧>…
7.16 一.回顾 二.HDFS Federation(联盟) Hadoop 2.2.0发布新特性 很多的大公司都在使用:BAT HDFS Federation + HDFS HA架构 互相隔开,但是数据存储共用 1.新特性介绍 ViewFs Guide 视图文件系统 HDFS Snapshots 快照 在某一时刻某一个瞬间在整个文件系统中,它存储的文件具体的情况 比如:存储多少文件.它的副本数...一些信息 好处:备份.恢复 Edits Viewer Image Viewer 用来查看fsim…
一.MapReduce编程模型1. 中心思想: 分而治之2. map(映射)3. 分布式计算模型,处理海量数据4. 一个简单的MR程序需要制定map().reduce().input.output5. 处理的数据放在input中.处理的结果放在output中6. MR程序>八股文7. MR在处理数据的时候,是由一个流向,数据在处理过程中的流向格式:以<key,value>进行流向8. input -> map() -> reduce() -> output<key…
hdfs可视化界面: http://beifeng-hadoop-01:50070/dfshealth.html#tab-overview yarn可视化界面: http://beifeng-hadoop-01:8088/cluster 历史服务器可视化界面:http://beifeng-hadoop-01:19888/ sbin/hadoop-daemon.sh start namenode sbin/hadoop-daemon.sh start datanode sbin/yarn-daem…
一.Hadoop 前置课程 1. Linux系统,基本命令 2. Java语言,JavaSE相关知识 3. MySQL基本的DML和DDL SQL on Hadoop…
一.打包压缩 知识点: tar -zxvf -C PATH tar -jxvf tar -zcvf tar -jcvf tar:打包命令 -z 打包同时gzip压缩 -j 打包同时bzip2 -c 打包 -x 解压 -v 显示过程信息 -f 对普通文件进行操作 -C 指定解压路径 -t 查看包内容 (1)tar -zcvf `date +"%Y_%m_%d"`etc.tar.gz /etc (2)tar -zxvf 2016_07_01etc.tar.gz -C /tmp (3)tar…
linux下tar命令解压到指定的目录 :#tar zxvf /bbs.tar.zip -C /zzz/bbs //把根目录下的bbs.tar.zip解压到/zzz/bbs下,前提要保证存在/zzz/bbs这个目录 这个和cp命令有点不同,cp命令如果不存在这个目录就会自动创建这个目录!附:用tar命令打包例:将当前目录下的zzz文件打包到根目录下并命名为zzz.tar.gz#tar zcvf /zzz.tar.gz ./zzz----------------------------------…
1. 1) vim /etc/udev/rules.d/-persistent-net.rules vi /etc/sysconfig/network-scripts/ifcfg-eth0 TYPE=Ethernet UUID=57d4c2c9-9e9c-48f8-a654-8e5bdbadafb8 ONBOOT=yes NM_CONTROLLED=yes BOOTPROTO=static DEFROUTE=yes IPV4_FAILURE_FATAL=yes IPV6INIT=no NAME=…
一.磁盘管理 Linux添加新硬盘.分区.格式化.自动挂载 http://lxsym.blog.51cto.com/1364623/321643 给Linux系统新增加一块硬盘 http://www.linuxidc.com/Linux/2011-02/31868.htm 二.压缩和解压 linux下解压命令大全  http://www.cnblogs.com/eoiioe/archive/2008/09/20/1294681.html 三. 七.克隆虚拟机 1. 修改网络 (1)vi /etc…
一. NAT模式网络访问 (1)在linux中输入命令ifconfig查看网络信息 (2)在mac中输入命令ifconfig查看网络信息 lo0: flags=<UP,LOOPBACK,RUNNING,MULTICAST> mtu options=<RXCSUM,TXCSUM> inet6 :: prefixlen inet 127.0.0.1 netmask 0xff000000 inet6 fe80::%lo0 prefixlen scopeid 0x1 nd6 options…
一.Linux基本环境 1. Linux常见版本及VMware虚拟机安装Linux系统 2. 虚拟机网络配置(IP地址.主机名.防火墙) 3. 文件基本命令操作 4. 四大远程连接工具使用 二.Linux基础命令 1. 用户和组创建.删除.更改和授权 2. 文件/目录创建.删除.移动和拷贝重命名 3. 编辑器VI/VIM基本使用 4. 文件常用操作(内容查看.追加等) 三.Linux系统管理 1. 磁盘基本命令(df.du.fdisk.mount) 2. 内存使用监控命令(top.free) 3…
properties 配置文件的优先级高于.yml .在properties文件中配置了server.port=8080 同时在.yml中配置了server.port=8090  Spring Boot 将使用.properties中的8080端口 @SpringBootApplication 是一个组合注解 包含@EnableAutoConfiguration @ComponentScan @SpringBootConfiguration三个注解 是项目启动注解 入口类需要放置在包的最外层,以…
1.概述 本课程的视频教程地址:<项目工程准备> 本节给大家分享的主题如下图所示: 下面我开始为大家分享今天的第三节的内容——<项目工程准备>,接下来开始分享今天的内容. 2.内容 从本节开始,我们将进入到Hadoop项目的工程准备一节学习,本节课程为大家介绍的主要知识点有一下内容,如下图所示: 首先,我给大家介绍开发Hadoop项目的IDE和相关插件的使用,其内容包含的知识点如下图所示: 在开发Hadoop项目时,我们使用的开发语言时Java,编写Java的相关代码,都是在IDE…
Vue 旅游网首页开发2 - 首页编写 项目结构 首页开发 效果图 项目开发组件化 将页面的各个部分划分成不同的组件,有助于项目的开发和维护. 项目代码初始化 项目结构修改 1.删除整个 compinents 文件夹. 2.创建 pages 文件夹用于存放各个页面. 3.在 pages 文件夹下,创建 home 文件夹,用于项目首页开发. 4. home 文件夹下,创建 components 文件夹,用于存放首页中的各个组件. 5. home 文件夹下创建 Home.vue 文件,用于首页界面内…
Vue 旅游网首页开发-工具安装及码云使用 环境安装 安装 node.js node.js 官网:https://nodejs.org/en/ 注册码云,创建私密仓库存储项目 码云:https://gitee.com/wjw1014/ 下载 git 用于同步本地与码云项目 git 官网:https://git-scm.com/ 安装 Vue 脚手架工具 CLI https://cn.vuejs.org/v2/guide/installation.html npm install --global…
JS 相信看这篇文章的你们,都和我一样对Hadoop和Apache Spark的选择有一定的疑惑,今天查了不少资料,我们就来谈谈这两种 平台的比较与选择吧,看看对于工作和发展,到底哪个更好. 一.Hadoop与Spark 1.Spark Spark是一个用来实现快速而通用的集群计算的平台.速度方面,Spark扩展了广泛使用的MapReduce计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理. Spark项目包含多个紧密集成的组件.Spark的核心是一个对由很多计算任务组成的.运行在多…
这是一门付费Android项目课程,我们只做付费课程:同时也感谢大家的支持. 这一节,对本课程做一个简单介绍,以及放一些项目效果图,如果想直接查看项目视频演示,可以直接在腾讯课堂查看[高仿Android网易云音乐企业级项目实战]课程第三节,让大家对该项目有一个整体的认识. 1 前言 我们课程学完都不能让你,年薪百万,出任CEO,走上人生巅峰. 2 课程简介 这是一门使用Java语言,从0开发一个Android平台,接近企业级的项目(我的云音乐). 课程包含了基础内容,高级内容,项目封装,项目重构…
  本人5年开发经验.18年年底开始跑路找工作,在互联网寒冬下成功拿到阿里巴巴.今日头条.途牛旅游网等公司offer,岗位是Java后端开发,因为发展原因最终选择去了途牛旅游网,入职一年时间了,也成为了面试官,之前面试了很多家公司,感觉大部分公司考察的点都差不多,趁空闲时间,将自己的心得记下来,希望能给正在找或者准备找工作的朋友提供一点帮助.   下面提的问题可以看下你自己是否能回答出来,是否做好准备了,当然面试题准备是一方面,你本身的技能掌握是一方面,本身技能不过硬也会被刷下来,下面的图是进阶…
一.引言 即时通讯(IM)功能对于电商平台来说非常重要,特别是旅游电商. 从商品复杂性来看,一个旅游商品可能会包括用户在未来一段时间的衣.食.住.行等方方面面.从消费金额来看,往往单次消费额度较大.对目的地的陌生.在行程中可能的问题,这些因素使用户在购买前.中.后都存在和商家沟通的强烈需求.可以说,一个好用的 IM 可以在一定程度上对企业电商业务的 GMV 起到促进作用. 本文我们将结合马蜂窝旅游电商IM系统的发展历程,单独介绍基于Go重构分布式IM系统过程中的实践和总结(本文相当于<从游击队到…
本文由马蜂窝技术团队电商交易基础平台研发工程师"Anti Walker"原创分享. 一.引言 即时通讯(IM)功能对于电商平台来说非常重要,特别是旅游电商. 从商品复杂性来看,一个旅游商品可能会包括用户在未来一段时间的衣.食.住.行等方方面面.从消费金额来看,往往单次消费额度较大.对目的地的陌生.在行程中可能的问题,这些因素使用户在购买前.中.后都存在和商家沟通的强烈需求.可以说,一个好用的 IM 可以在一定程度上对企业电商业务的 GMV 起到促进作用. 本文我们将结合马蜂窝旅游电商I…
最近利用业余时间,使用了同程旅游网的开放平台,并对大部分的方法进行了调用,发现有很多不好用的地方,比如 1.同一个开放平台居然有几个调用地址,景区调用http://tcopenapi.17usoft.com/handlers/scenery/queryhandler.ashx ,酒店调用http://tcopenapi.17usoft.com/handlers/hotel/QueryHandler.ashx. 2.只能返回xml格式,在现在大多数平台可以返回json的情况下,居然只能返回xml,…
Hadoop是什么? Hadoop是一个处理海量数据的开源框架.2002年Nutch项目面世,这是一个爬取网页工具和搜索引擎系统,和其他众多的工具一样,都遇到了在处理海量数据时效率低下,无法存储爬取网页和搜索网页时产生的海量数据的问题.2003年谷歌发布了一篇论文,专门介绍他们的分布式文件存储系统GFS.鉴于GFS在存储超大文件方面的优势,Nutch按照GFS的思想在2004年实现了Nutch的开源分布式文件系统,即NDFS.2004年谷歌发布了另一篇论文,专门介绍他们处理大数据的计算框架Map…
铭文一级: DataV功能说明1)点击量分省排名/运营商访问占比 Spark SQL项目实战课程: 通过IP就能解析到省份.城市.运营商 2)浏览器访问占比/操作系统占比 Hadoop项目:userAgent DataV访问的数据库(MySQL),需要能够在公网上访问 DataV测试数据CREATE TABLE course_click_count(ID int(4) PRIMARY KEY,day VARCHAR(10),course_id VARCHAR(10),click_count lo…
铭文一级:[木有笔记] 铭文二级: 第12章 Spark Streaming项目实战 行为日志分析: 1.访问量的统计 2.网站黏性 3.推荐 Python实时产生数据 访问URL->IP信息->referer和状态码->日志访问时间->写入到文件中 本地与虚拟机都要装了python才能运行 重要代码: #coding=UTF-8 #数组最后一个没有“,” url_paths = [ "class/128.html", "class/112.html&…
铭文一级: 第11章 Spark Streaming整合Flume&Kafka打造通用流处理基础 streaming.conf agent1.sources=avro-sourceagent1.channels=logger-channelagent1.sinks=log-sink #define sourceagent1.sources.avro-source.type=avroagent1.sources.avro-source.bind=0.0.0.0agent1.sources.avro…