前期准备: jdkhostnamehostsdate安全机制firewallwindows 域名映射 具体的操作见下面 1.看看自己是否已经配置了别名了(linux别名的配置可以参考博文:自己centos7成功的修改了主机名(记录了该改哪些文件)) 2.看看防火墙是否关闭了 CentOS 7.0默认使用的是firewall作为防火墙:若没有启用iptables 作为防火墙,则使用以下方式关闭.开启.禁用防火墙: 查看防火墙状态具体的命令 (1) firewall-cmd --state #查看防…
上一课讲了怎样在一台机器上建立Hadoop环境.我们仅仅配置了一个NHName Node, 这个Name Node里面包括了我们全部Hadoop的东西.包括Name Node, Secondary Name Node, Job Tracker, Task Tracker,这一课解说怎样把上述配置放到不同机器上.从而构建一个分布式的hadoop配置. 1. hadoop分布式安装概览 a) 2-10个nodes:Name Node, Job Tracker, Secondary Name Node…
目录 搭建Docker-Hadoop基础环境 简介 步骤 搭建Docker image ..待续 注释 搭建Docker-Hadoop基础环境 简介 因为很难真正的有一个集群环境.在一般的条件下想要模拟hadoop集群的话,我只好选择docker 关于docker的简介我就不在这里写了. 详细可以看 http://www.docker.com 1 我的项目地址 http://git.oschina.net/dark.H/DDataAny Dockerfile 文件和必要的打包文件都在我的项目里面…
今天是8月19日,距离开学还有15天,假期作业完成还是遥遥无期,看来开学之前的恶补是躲不过了 今天总结一下在Linux环境下安装Hadoop的过程,首先是对Linux环境的配置,设置主机名称,网络设置.关闭防火墙.安装JDK.配置环境变量 免密钥登录配置:大数据集群中的Linux计算机之间需要频繁分通信,免密钥登录是指两台Linux计算机之间不需要用户名和密码的SSH链接,默认状态下,SSH链接是需要密码认证的,但是可以通过修改系统认证,使系统通信免除密码输入和SSH认证 首先终端生成密钥: s…
1 每个节点ssh免密连接本机 cd ~/.ssh/ # 若没有该目录,请先执行一次ssh localhost ssh-keygen -t rsa # 会有提示,都按回车就可以 cat id_rsa.pub >> authorized_keys # 加入授权 chmod 600 ./authorized_keys # 修改文件权限 排错: 如果ssh链接服务器是出现: Agent admitted failure to sign using the key 解決方式 使用 ssh-add 指令…
scrapy-redis简介 scrapy-redis是scrapy框架基于redis数据库的组件,用于scrapy项目的分布式开发和部署. 有如下特征:  分布式爬取 您可以启动多个spider工程,相互之间共享单个redis的requests队列.最适合广泛的多个域名网站的内容爬取.  分布式数据处理 爬取到的scrapy的item数据可以推入到redis队列中,这意味着你可以根据需求启动尽可能多的处理程序来共享item的队列,进行item数据持久化处理  Scrapy即插即用组件 S…
Jmeter 是java 应用,对于CPU和内存的消耗比较大,因此,当需要模拟数以千计的并发用户时,使用单台机器模拟所有的并发用户就有些力不从心,甚至会引起JAVA内存溢出错误.为了让jmeter工具提供更大的负载能力,jmeter短小精悍一有了使用多台机器同时产生负载的机制. 那么,是如何实现多台负载机同时运行的呢?当然不会多个人坐在多台负载机面前,一喊开始,大家同时启动jmeter.这种方式很笨,也很难达到真正的同步.其实,我们通过单个jmeter 客户端就可以控制多个远程的jmeter服务…
scrapy-redis 简介 scrapy-redis 是 scrapy 框架基于 redis 数据库的组件,用于 scraoy 项目的分布式开发和部署. 有如下特征: 分布式爬取: 你可以启动多个 spider 工程,相互之间共享单个的 requests 队列,最适合广泛的多个域名的内容的抓取. 分布式数据处理: 爬取到的 scrapy 的 item 数据可以推入到 redis 队列中,着意味着你可以根据需求启动尽可能多的处理程序来共享 item 队列,进行 item 数据持久化处理 scr…
原因:在原来的电脑上配置伪分布的时候,已经将hostname与IP绑定了,所以拷贝到别的电脑的时候,重新启动的时候就会失败,因为新的电脑的IP不见得就和原来的电脑的IP一样!因为在不同的网络中,在NAT模式下Linux的IP肯定是位于不同的网段的!! 解决方法:vi /etc/hosts  将原来的电脑的IP改成新的电脑的IP即可. 另外:重新格式化hadoop的时候,要把原来的hadoop下的tmp目录下的所有文件都删除掉,然后停止所有的进程,如datanode等.然后 利用hadoop na…
单节点 单节点:https://hub.docker.com/r/cloudera/quickstart/ 相关命令 docker pull cloudera/quickstart:latest docker run --privileged=true --hostname=quickstart.cloudera -p 8020:8020 -p 7180:7180 -p 21050:21050 -p 50070:50070 -p 50075:50075 -p 50010:50010 -p 500…