大数据之路week01--day02我实在时被继承super这些东西搞的头疼，今天来好好整理以下。

这一周的第一天的内容是面向对象的封装,以及对方法的调用.实在时没法单独拿出来单说,就结合这一节一起说了. 我实在是被继承中的super用法给弄的有点晕,程序总是不能按照我想的那样,不是说结果,而是实现过程,很明显复杂,后来进行推敲后,原来是我的理解出了差错. 先把前对象的的内容补补在开始面向对象之前,我们先来了解一下,Java的内存分配:(在之前我也说过,只是简单的提到) Java把内存划分为4个部分 1. 代码区 1.栈区 3.堆区 4.静态区域1.栈区(stacksegment)—由编译器…

胖子哥的大数据之路（6）- NoSQL生态圈全景介绍

引言: NoSQL高级培训课程的基础理论篇的部分课件,是从一本英文原著中做的摘选,中文部分参考自互联网.给大家分享. 正文: The NoSQL Ecosystem 目录 The NoSQL Ecosystem... 1 13.1. What's in a Name?. 5 13.1.1. SQL and the Relational Model 6 13.1.2. NoSQL Inspirations. 8 13.1.3. Characteristics and Considerations…

大数据之路week04--day06（I/O流阶段一之异常）

从这节开始,进入对I/O流的系统学习,I/O流在往后大数据的学习道路上尤为重要!!!极为重要,必须要提起重视,它与集合,多线程,网络编程,可以说在往后学习或者是工作上,起到一个基石的作用,没了地基,房屋就算盖起来,风一吹就倒. 好了,废话不多说,进入正题:在学习I/O流之前,我们先掌握什么是异常和File 1.先看看异常的分类: 图1 异常的分类从上图我们不难看出来,异常主要分为三大类:Error Exception RuntimeException 有朋友就要问了,上来就给我搞这…

C#码农的大数据之路 - 使用C#编写MR作业

系列目录写在前面从Hadoop出现至今,大数据几乎就是Java平台专属一般.虽然Hadoop或Spark也提供了接口可以与其他语言一起使用,但作为基于JVM运行的框架,Java系语言有着天生优势.而且能找到的与大数据框架如Hadoop等使用介绍的文章也都以Java语言作为示例居多.许多C#er为了转投大数据怀抱也开始学习Java.微软为了拥抱大数据在这方面也做了许多,提供了一些工具及库使C#可以更好的与Hadoop等协同工作.本系列中我们一同学习如何以我们熟悉语言来使用Hadoop等大数据平…

胖子哥的大数据之路（11）-我看Intel&&Cloudera的合作

一.引言 5月8日,作为受邀嘉宾,参加了Intel与Cloudera在北京中国大饭店新闻发布会,两家公司宣布战略合作,该消息成为继Intel宣布放弃大数据平台之后的另外一个热点新闻.对于Intel的放弃早在预料之中,对于Intel与Cloudera合作也在意料之中,但是没有想到的是居然那么快.壮士断腕的Intel反倒让我看出几分勇气可嘉来,Cloudera的顺势而为,也被我所认同,Intel借助Cloudera的技术能力,Cloudera借用Intel的商务平台,然后彼此合作真的就能够成功?换句…

胖子哥的大数据之路（10）- 基于Hive构建数据仓库实例

一.引言基于Hive+Hadoop模式构建数据仓库,是大数据时代的一个不错的选择,本文以郑商所每日交易行情数据为案例,探讨数据Hive数据导入的操作实例. 二.源数据-每日行情数据三.建表脚本 CREATE TABLE IF NOT EXISTS t_day_detail( id STRING, lastday FLOAT, today FLOAT, highest FLOAT, lowest FLOAT, today_end FLOAT, today_jisuan FLOAT, updow…

胖子哥的大数据之路（9）-数据仓库金融行业数据逻辑模型FS-LDM

引言: 大数据不是海市蜃楼,万丈高楼平地起只是意淫,大数据发展还要从点滴做起,基于大数据构建国家级.行业级数据中心的项目会越来越多,大数据只是技术,而非解决方案,同样面临数据组织模式,数据逻辑模式的问题.它山之石可以攻玉,本文就数据仓库领域数据逻辑模型建设最负盛名的FS-LDM进行介绍,旨在抛砖引玉,希望能够给大家以启迪.参与交流请加群: 一.概述 (1)什么是LDM 逻辑数据模型LDM是数据仓库的数据建设阶段为解决业务需求而定义的数据仓库模型解决方案,它是指导数据仓库进行数据存放.数据组织.以…

胖子哥的大数据之路（7）- 传统企业切入核心or外围

一.引言昨天和一个做互联网大数据(零售行业)的朋友交流,关于大数据传统企业实施的切入点产生了争执,主要围绕两个问题进行了深入的探讨: 问题1:对于一个传统企业而言什么是核心业务,什么是外围业务? 问题2:大数据传统企业实施切入点到底是从核心开始还是该从外围介入? 两个问题有关联关系,如果界定不了核心与外围的边界,那么第二个问题也就无从回答.在此与大家共享,希望更多的人能参与进来发表自己的观点. 二.探讨案例某品牌电视产品厂商,主营业务是电视机生产.目前规划要做转型做数据化运营,通过内嵌入在电…

胖子哥的大数据之路（四）- VisualHBase功能需求框架

一.引言大数据在结构化数据存储方面的应用需求越来越明确,但是大数据环境下辅助开发工具的不完善,给数据库管理人员和开发人员带来的不变难以言表,基于此创建了开源项目VisualHBase,同时创建了VisualHBase的开发群:263505724,希望能够借助社区的力量,解决大数据企业实施的瓶颈. 二.应用场景基于Hadoop+HBase构建的实时查询数据库系统. 三.产品目标 HBase企业级可视化管理工具(数据定义和数据操作)和可视化定制开发管理工具. 四.角色分析 1.数据库设计人员 2…

大数据之路week01--自学之集合_1（Collection）

经过我个人的调查,发现,在今后的大数据道路上,集合.线程.网络编程变得尤为重要,为什么? 因为大数据大数据,我们必然要对数据进行处理,而这些数据往往是以集合形式存放,掌握对集合的操作非常重要. 在学习集合前,我们先看对象数组: 这是对象数组在创建到赋值到遍历的过程,其中我们遇到了一个数组的硬性问题:数组的大小是不可变的,而且数据类型也是不可变的,那么如果我们要插入一个新的元素该怎么办?很显然数组已经满足不了我们的需求. 此时我们将接触一个新的内容,集合. 集合一.数组和集合的比较数组不是面向…

大数据之路day01_1--Java下载、安装等配置

从今天开始,我就正式的走上大数据的道路了,如果说我为啥要去学习大数据,可能我的初衷是以后可以接触到人工智能方面的技术,后来在自学的过程中发现,学习人工智能,需要扎实的算法,以及对大量数据的处理,再者,渐渐的我想先系统的学习以下大数据这块的知识,从Java环境搭建到最后的机器学习,到深度学习,一步一个脚印的去实现,只有把基础打好了,后面的露才会好走,谁也不可能一口吃成胖子.马云的成功,在我看来,他发现了未来技术成长曲线,坚持自己想法,并与之去实现.从一开始的无人问津到后来的一个小举动引到各大媒体的…

大数据之路week07--day06 （Sqoop 将关系数据库（oracle、mysql、postgresql等）数据与hadoop数据进行转换的工具）

为了方便后面的学习,在学习Hive的过程中先学习一个工具,那就是Sqoop,你会往后机会发现sqoop是我们在学习大数据框架的最简单的框架了. Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中. 对于某些NoSQL数据库它也提供了连接器. Sqoop,类似于其他ETL工具,使用元数据模型来判断数据类型并在数据…

大数据之路week07--day03（Hadoop深入理解，JAVA代码编写WordCount程序，以及扩展升级）

什么是MapReduce 你想数出一摞牌中有多少张黑桃.直观方式是一张一张检查并且数出有多少张是黑桃. MapReduce方法则是: 1.给在座的所有玩家中分配这摞牌 2.让每个玩家数自己手中的牌有几张是黑桃,几张是红桃,然后把这两组数目汇报给你 3.你把所有玩家告诉你的两组数字分别加起来,得到最后的结论 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个…

大数据之路week06--day07（Hadoop生态圈的介绍）

Hadoop 基本概念一.Hadoop出现的前提环境随着数据量的增大带来了以下的问题 (1)如何存储大量的数据? (2)怎么处理这些数据? (3)怎样的高效的分析这些数据? (4)在数据增长的情况下如何构建一个解决方案? 在大数据领域提出了两个概念 (1)分布式文件系统用于存储大量的数据 (2)分布式计算框架MapReduce高效的分析数据以上的两个概念组成一个名词 Hadoop 二.Hadoop的起源谷歌发布了三篇论文 : GFS 分布式存储系统 , MapReduce 分…

大数据之路week06--day01（VMware的下载与安装、安装CentOS）

好了,从今天开始就开始正式的进入大数据道路的轨道上了,当然了,Java 也是需要不断地在日后进行反复地学习,熟练掌握.(这里我要说一下,Java种还有一些I/O流.Lambda表达式和一些常用工具类有关的博客没有更新.在后面的学习中,我会抽空进行补充.) 在此之前,希望每个学习大数据的童鞋们,电脑的内存一定要在8G以上!!!!! 废话不多说,上干货!! 一.VMware的下载与安装我这里安装的是Vmware14 根据经验,会有一小部分人的电脑可能会装不上14的版本,这里我给出(Vmware15…

大数据之路week04--day03（网络编程）

哎,怎么感觉自己变得懒了起来,更新博客的频率变得慢了起来,可能是因为最近得知识开始变得杂变得难了起来,之前在上课的时候,也没有好好听这一方面的知识,所以,现在可以说是在学的新的知识,要先去把新的知识思路屡了一遍,自己实现了代码,把整个过程以及规则搞懂了,我才会来总结博客. 说个有关这节知识的相关内容, 在学习网络编程之前,我们一定要先把I/O输入输出流给先学了,为什么这么说呢?仔细想想,我们学习网络编程,说到底还是数据之间的传输,文字,图片,音乐,视频等等也好,它们有的传输以及接收的方式不同,如…

大数据之路week03--day05（线程 I）

真的,身体这个东西一定要爱护好,难受的时候电脑都不想去碰,尤其是胃和肾... 这两天耽误了太多时间,今天好转了立刻学习,即刻不能耽误!. 话不多说,说正事: 1.多线程(理解) (1)多线程:一个应用程序有多条执行路径进程:正在执行的应用程序线程:进程的执行单元,或者说是执行路径单线程:一个应用程序只有一条执行路径多线程:一个应用程序有多条执行路径多进程的意义何在? 提高CPU的使用率多线程的意义何在? 提高应用程序的使用率问题: 一边玩游戏,一边听歌时同时进行的吗…

唱吧基于 MaxCompute 的大数据之路

使用 MaxCompute之前,唱吧使用自建体系来存储处理各端收集来的日志数据,包括请求访问记录.埋点数据.服务器业务数据等.初期这套基于开源组件的体系有力支撑了数据统计.业务报表.风控等业务需求.但随着每天处理数据量的增长,积累的历史数据越来越多,来自其他部门同事的需求越来越复杂,自建体系逐渐暴露出了能力上的短板.同时期,唱吧开始尝试阿里云提供的ECS.OSS等云服务,大数据部门也开始使用 MaxCompute来弥补自建体系的不足. 在内部ELK实现的基础上,从自建机房向MaxCompute进…

数据分析大数据之路四 numpy 2

NumPy 数学函数 NumPy 提供了标准的三角函数:sin().cos().tan(import numpy as np a = np.array([0,30,45,60,90])print ('不同角度的正弦值:')# 通过乘 pi/180 转化为弧度 print (np.sin(a*np.pi/180))print ('\n')print ('数组中角度的余弦值:')print (np.cos(a*np.pi/180))print ('\n')print ('数组中角度的正切值:')pr…

大数据之路day04_1--数组 and for循环进阶

Java数组在开始之前,提一个十分重要的一点:注意:在给数组分配内存空间时,必须指定数组能够存储的元素来确定数组大小.创建数组之后不能修改数组的大小,可以使用length属性获取数组的大小.在java数组中,数组只有length属性,并没有字符串的length()方法!!! 学习Java少不了对数组的学习,也就是说,从这节开始,我们的学习难度慢慢增加,代码思维更加复杂. 什么数组: 数组是由相同类型的若干项组成的一个数据集合,数组中的每个数据称为元素. 数组声明格式:(3种) 1.数据类型[]…

大数据之路day01_3--JAVA语言基础（1）

从这里开始,正式进入正轨 1.关键字 2.main main是关键字吗? 不是,他只是一个标识符,只不过有点特殊,虚拟机可以识别. main(主函数)的作用 1:可以保证程序的独立运行 2:是程序的入口 3:被java虚拟机所识别注意:main方法不是必须要在类中定义的如果想要运行这个类,则需要添加,否则不需要 3.标识符在程序中自定义的一些名称. 由26个英文字母大小写,数字:0-9 符号:_ $ 组成定义合法标识符规则: 1,数字不可以开头. 2,不可以使用关键字. Java中严格…

大数据之路week07--day06 （Sqoop 的使用）

Sqoop的使用一(将数据库中的表数据上传到HDFS) 首先我们先准备数据 1.没有主键的数据(下面介绍有主键和没有主键的使用区别) -- MySQL dump 10.13 Distrib 5.1.73, for redhat-linux-gnu (x86_64) -- -- Host: localhost Database: student -- ------------------------------------------------------ -- Server version 5…

大数据之路week07--day05 （一个基于Hadoop的数据仓库建模工具之一 HIve）

什么是Hive? 我来一个短而精悍的总结(面试常问) 1:hive是基于hadoop的数据仓库建模工具之一(后面还有TEZ,Spark). 2:hive可以使用类sql方言,对存储在hdfs上的数据进行分析和管理. Hive 是建立在 Hadoop 上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据的机制.Hive 定义了简单的类 SQL 查询语言,称为 HQL ,它允许熟悉 SQL 的用户查询数…

大数据之路week07--day04 (YARN，Hadoop的优化，combline，join思想，)

hadoop 的计算特点:将计算任务向数据靠拢,而不是将数据向计算靠拢. 特点:数据本地化,减少网络io. 首先需要知道,hadoop数据本地化是指的map任务,reduce任务并不具备数据本地化特征. 通常输入的数据首先将会分片split,每个分片上构建一个map任务,由该任务执行执行用户自定义的map函数,从而处理分片中的每条记录. 那么切片的大小一般是趋向一个HDFS的block块的大小.为什么最佳的分片大小是趋向HDFS块的大小呢?是因为这样能够确保单节点上最大输入块…

大数据之路week07--day01（HDFS学习，Java代码操作HDFS，将HDFS文件内容存入到Mysql）

一.HDFS概述数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 . 是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间. 通透性.让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般. 容错.即使系统中有某些节点宕机,整体来说系统仍然可以持续运作而不会有数据损失[通过副本机制实现]. 分布式文件管理…

大数据之路week06--day03（jdk8新特性 Lambda表达式）

为什么使用Lambda表达式?(做为初学者接触这个新的语法,会很懵逼,说道理,我在接触到这一块的时候,语法规则我看到了也很懵逼,因为这个和逻辑的关系不是很大,但就是作为一种新的语法出现,一时间很难接受.所以,只要我们多加练习,熟悉了就会接受了,记住,要多加练习!!就像你和一个刚刚学习Java的人来说,你和他说100遍地Hello world 的格式,他也不会写,这个需要自己去敲.) Lambda是一个匿名函数,我们可以把Lambda表达式理解为是一段可以传递的代码(将代码像数据一样传递).使用它…

大数据之路week04--day05（java XML解析）

java解析XML的四种方式: XML是一种通用的数据交换格式,它的平台无关性.语言无关性.系统无关性.给数据集成与交互带来了极大的方便.XML在不同的语言环境中解析方式都是一样的,只不过实现的语法不同而已. XML的解析方式分为四种:1.DOM解析:2.SAX解析:3.JDOM解析:4.DOM4J解析.其中前两种属于基础方法,是官方提供的平台无关的解析方式:后两种属于扩展方法,它们是在基础的方法上扩展出来的,只适用于java平台. 针对以下XML文件,会对四种方式进行详细描述: <?xml v…

大数据之路week02 List集合的子类

1:List集合的子类(掌握) (1)List的子类特点 ArrayList: 底层数据结构是数组,查询快,增删慢. 线程不安全,效率高. Vector: 底层数据结构是数组,查询快,增删慢. 线程安全,效率低. LinkedList: 底层数据结构是链表,查询慢,增删快. 线程不安全,效率高. (2)ArrayList A: 没有特有的功能需要学习 B: 案例: a: ArrayList 存储字符串对象并遍历 package com.wyh.jdkNews; import java.util.…

C#码农的大数据之路 - 使用Ambari自动化安装HDP2.6(基于Ubuntu16.04)并运行.NET Core编写的MR作业

准备主机准备3台主机,名称作用如下: 昵称 Fully Qualified Domain Name IP 作用 Ubuntu-Parrot head1.parrot 192.168.9.126 Ambari控制中心,头结点(辅助) Ubuntu-Laiothrix head0.parrot 192.168.9.127 头节点(主) Ubuntu-Siskin data0.parrot 192.168.9.128 数据节点使用hostname <fully.qualified.domain.n…

数据分析大数据之路六 matplotlib 绘图工具

散点图 #导入必要的模块 import numpy as np import matplotlib.pyplot as plt #产生测试数据 x = np.arange(1,10) y = x fig = plt.figure() ax1 = fig.add_subplot(111) #设置标题 ax1.set_title('Scatter Plot') #设置X轴标签 plt.xlabel('X') #设置Y轴标签 plt.ylabel('Y') #画散点图 ax1.scatter(x,…

【大数据之路week01--day02我实在时被继承super这些东西搞的头疼，今天来好好整理以下。】的更多相关文章