大数据开发-linux下常见问题详解】的更多相关文章

1.user ss is currently user by process 3234 问题原因:root --> ss --> root 栈递归一样 解决方式:exit 退出当前到ss再退出到root 然后执行命令即可. 2.列出某目录下的目录而不是文件 参考:ls --https://jingyan.baidu.com/article/e8cdb32b100dd537052badc5.html 3.登录用户与当前用户 whoami 当前用户 who am i 登录用户 其中有root权限才…
数据分析中将两个数据集进行 Join 操作是很常见的场景.在 Spark 的物理计划阶段,Spark 的 Join Selection 类会根 据 Join hints 策略.Join 表的大小. Join 是等值 Join 还是不等值以及参与 Join 的 key 是否可以排序等条件来选择最 终的 Join 策略,最后 Spark 会利用选择好的 Join 策略执行最终的计算.当前 Spark 一共支持五种 Join 策略: Broadcast hash join (BHJ) Shuffle…
一.引言 在完成了Storm的环境配置之后,想着鼓捣一下Hadoop的安装,网上面的教程好多,但是没有一个特别切合的,所以在安装的过程中还是遇到了很多的麻烦,并且最后不断的查阅资料,终于解决了问题,感觉还是很好的,下面废话不多说,开始进入正题. 本机器的配置环境如下: Hadoop(2.7.1) Ubuntu Linux(64位系统) 下面分为几个步骤来详解配置过程. 二.安装ssh服务 进入shell命令,输入如下命令,查看是否已经安装好ssh服务,若没有,则使用如下命令进行安装: sudo…
概述 —— 什么是makefile?或许很多Winodws的程序员都不知道这个东西,因为那些Windows的IDE都为你做了这个工作,但我觉得要作一个好的和professional的程序员,makefile还是要懂.这就好像现在有这么多的HTML的编辑器,但如果你想成为一个专业人士,你还是要了解HTML的标识的含义.特别在Unix下的软件编译,你就不能不自己写makefile了,会不会写makefile,从一个侧面说明了一个人是否具备完成大型工程的能力. 因为,makefile关系到了整个工程的…
http://yaksayoo.blog.51cto.com/510938/162062 Linux计划任务工具cron用法详解 linux下大名鼎鼎的计划任务工具crontab的使用介绍baidu.google上多得让人眼花缭乱,本着“天下文章一大抄”的觉悟,加上本人日常工作中总结的使用经验,索性推出这篇笔记式文章,以供遗忘时翻阅之用.       cron是linux系统下一个自动执行指定任务的程序,即包含“时间”.“路径”.“自动执行脚本”等要素,例如我想通过自动执行脚本“newcopy.…
/mr的combiner /mr的排序 /mr的shuffle /mr与yarn /mr运行模式 /mr实现join /mr全局图 /mr的压缩 今日提纲 一.流量汇总排序的实现 1.需求 对日志数据中的上下行流量信息汇总,并输出按照总流量倒序排序的结果 2.分析 基本思路:实现自定义的bean来封装流量信息,并将bean作为map输出的key来传输 MR程序在处理数据的过程中会对数据排序(map输出的kv对传输到reduce之前,会排序),排序的依据是map输出的key 所以,我们如果要实现自…
在日常开发过程中,除了例行调度的任务和直接在开发环境下比如Scripts,开发,很多情况下是shell下直接搞起(小公司一般是这样),看一下常见的linux后台运行和关闭的命令,这里做一个总结,主要包括:fg.bg.jobs.&.nohup.ctrl+z.ctrl+c 命令等 一.& 加在一个命令的最后,可以把这个命令放到后台执行,如 watch -n 10 sh test.sh & #每10s在后台执行一次test.sh脚本 回到顶部 二.ctrl + z 可以将一个正在前台执行…
1. 概述: crond是linux下用来周期性的执行某种任务或等待处理某些事件的一个守护进程,与windows下的计划任务类似,当安装完成操作系统后,默认会安装此服务工具,并且会自动启动crond进程,crond进程每分钟会定期检查是否有要执行的任务,如果有要执行的任务,则自动执行该任务. 2. 任务调度的分类: 系统任务调度:系统周期性所要执行的工作,比如写缓存数据到硬盘.日志清理等.在/etc目录下有一个crontab文件,这个就是系统任务调度的配置文件.                 …
1.crond介绍 crond是Linux下的任务调度命令,让系统定期执行指定程序.crond命令每分钟都会检查是否有要执行的工作,若有要执行的程序便会自动执行. linux下任务调度工作主要分两类: 1)系统执行的工作:系统周期性所要执行的工作,如备份系统数据.清理缓存 2)个人执行的工作:某个用户定期要做的工作,自动备份网站程序 2.crond服务启动.关闭 service crond start //启动服务 service crond stop //关闭服务 service crond…
一.引言: 在storm发布到0.9.x以后,配置storm将会变得简单很多,也就是只需要配置zookeeper和storm即可,而不再需要配置zeromq和jzmq,由于网上面的storm配置绝大部分都是0.9以前的storm版本,所以有很多工作是不需要进行的,下面就storm的0.9.5版本在linux环境下进行配置进行详细解析. 由于配置storm只需要两个步骤,大大简化了配置,也是storm团队做了很大的努力,让程序员们专注于程序,让storm配置进行异常简单,好了,废话说了不少,下面正…
一.本地模式调试MR程序 1.准备 参考之前随笔的windows开发说明处:http://www.cnblogs.com/jiangbei/p/8366238.html 2.流程 最重要的是设置LocalJobRunner这个参数,这样mapreduce就变成一个线程在跑了! 而处理的数据及输出结果可以在本地文件系统,也可以在hdfs上 3.代码实现 以wordcount为例,只需在原来的Driver的main()方法中,对conf进行设置: // 设置本地运行 conf.set("mapred…
重要文件解释: ProFTPD:一个Unix平台上或是类Unix平台上(如Linux, FreeBSD等)的FTP服务器程序,它是在自由软件基金会的版权声明(GPL)下开发.发布的免费软件,可以随意修改源始码.它是完全独立而完整.重新改写的FTP Server. 主要特色: 一个单一的和 Apache 的 httpd.conf 类似的配置文件 每个目录下的 .ftpaccess 文件(和 Apache 的. htaccess 类似) 很容易配置的,多个虚拟 FTP 服务器以及匿名 FTP 服务…
什么是Awk Awk是一种小巧的编程语言及命令行工具.(其名称得自于它的创始人Alfred Aho.Peter Weinberger 和 Brian Kernighan姓氏的首个字母).它非常适合服务器上的日志处理,主要是因为Awk可以对文件进行操作,通常以可读文本构建行. 我说它适用于服务器是因为日志文件,转储文件(dump files),或者任意文本格式的服务器终止转储到磁盘都会变得很大,并且在每个服务器你都会拥有大量的这类文件.如果你经历过这样的情境--在没有像Splunk或者其他等价的工…
如果你使用Linux比较长时间了,那你就知道,在对待设备文件这块,Linux改变了几次策略.在Linux早期,设备文件仅仅是是一些带有适当的属性集的普通文件,它由mknod命令创建,文件存放在/dev目录下.后来,采用了devfs,一个基于内核的动态设备文件系统,他首次出现在2.3.46 内核中.Mandrake,Gentoo等Linux分发版本采用了这种方式.devfs创建的设备文件是动态的.但是devfs有一些严重的限制,从 2.6.13版本后移走了.目前取代他的便是文本要提到的udev--…
1.简介 2.安装配置 3.在windows和linux系统上验证 一.简介 早期网络想要在不同主机之间共享文件大多要用FTP协议来传输,但FTP协议仅能做到传输文件却不能直接修改对方主机的资料数据,这样确实不太方便,于是便出现了NFS开源文件共享程序:NFS(NetworkFile System)是一个能够将多台Linux的远程主机数据挂载到本地目录的服务,属于轻量级的文件共享服务,不支持Linux与 Windows系统间的文件共享. Samba服务程序是一款基于SMB协议并由服务端和客户端组…
mknod - make block or character special filesmknod [OPTION]... NAME TYPE [MAJOR MINOR] option 有用的就是 -m 了 name 自定义 type 有 b 和 c 还有 p 主设备号 次设备号 主设备号是由/usr/src/linux/include/linux/major.h定义的,如下定义了一个DOC设备: #define IGEL_FLASH_MAJOR 62 假如有一个命令mknod doc b 6…
1. 什么是ACL ACL即Access Control List 主要的目的是提供传统的owner,group,others的read,write,execute权限之外的具体权限设置 ACL可以针对单一用户.单一文件或目录来进行r,w,x的权限控制,对于需要特殊权限的使用状况有一定帮助. 如,某一个文件,不让单一的某个用户访问.或者只让某个用户访问 2. ACL的使用 ACL使用两个命令来对其进行操作    getfacl:查看某个文件/目录的ACL设置    setfacl:设置某个文件/…
配置之前先了解一下bind DNS服务器软件:BIND是一种开源的DNS(Domain Name System)协议的实现,包含对域名的查询和响应所需的所有软件.它是互联网上最广泛使用的一种DNS服务器,对于类UNIX系统来说,已经成为事实上的标准. 为了构架DNS服务器来解析域名或ip地址,我们得安装BIND和caching-nameserver.为了TCP和UDP53数据包能通过,我们也有必要配置路由器. 安装 BIND 软件包 1.安装 # yum -y install bind cach…
一.自定义in/outputFormat 1.需求 现有一些原始日志需要做增强解析处理,流程: 1. 从原始日志文件中读取数据 2. 根据日志中的一个URL字段到外部知识库中获取信息增强到原始日志 3. 如果成功增强,则输出到增强结果目录:如果增强失败,则抽取原始数据中URL字段输出到待爬清单目录 1374609560.11 1374609560.16 1374609560.16 1374609560.16 110 5 8615038208365 460023383869133 86964200…
1.参数解释 -t 设置分隔符 -k 设置比较域(列) -n 按数字比较 -g 科学记数法方式比较 -o 设置输出文件,与“>”相比可以设置输出到原文件,“>”会清空原文件 -r 降序(大->小)排列 -u 删除相同行 2.实例演示 文件内容 [@ibi-genome temp]$ cat temp : : : 使用-k -t指定列()及分隔符(:) [@ibi-genome temp]$ sort -k2 -t':' temp : : : :4 使用-n指定以数字形式排序 &当…
一.数据倾斜分析——mapJoin 1.背景 接上一个day的Join算法,我们的解决join的方式是:在reduce端通过pid进行串接,这样的话: --order ,,P0001, ,,P0001, ,,P0002, --product P0001,小米5,, P0002,锤子T1,, 例如订单中的小米5卖的比较好(截止博客时间,已经是米7将出的时候了.),这样的话大部分的数据都流向了P0001的这个reduce上,而P0002 的锤子的reduce确很轻松,这样,就产生了数据倾斜了! 更多…
1.Spark计算依赖内存,如果目前只有10g内存,但是需要将500G的文件排序并输出,需要如何操作? ①.把磁盘上的500G数据分割为100块(chunks),每份5GB.(注意,要留一些系统空间!) ②.顺序将每份5GB数据读入内存,使用quick sort算法排序. ③.把排序好的数据(也是5GB)存放回磁盘. ④.循环100次,现在,所有的100个块都已经各自排序了.(剩下的工作就是如何把它们合并排序!) ⑤.从100个块中分别读取5G/100=0.05 G入内存(100input bu…
前面一篇文章提到大数据开发-Spark Join原理详解,本文从源码角度来看cogroup 的join实现 1.分析下面的代码 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object JoinDemo { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName(this.get…
详解Kafka: 大数据开发最火的核心技术   架构师技术联盟 2019-06-10 09:23:51 本文共3268个字,预计阅读需要9分钟. 广告 大数据时代来临,如果你还不知道Kafka那你就真的out了(快速掌握Kafka请参考文章:如何全方位掌握Kafka核心技术)!据统计,有三分之一的世界财富500强企业正在使用Kafka,包括所有TOP10旅游公司,7家TOP10银行,8家TOP10保险公司,9家TOP10电信公司等等. LinkedIn.Microsoft和Netflix每天都用…
转载于:http://blog.chinaunix.net/uid-10449864-id-2956854.html Linux中/proc目录下文件详解(一)/proc文件系统下的多种文件提供的系统信息不是针对某个特定进程的,而是能够在整个系统范围的上下文中使用.可以使用的文件随系统配置的变化而变化.命令procinfo能够显示基于其中某些文件的多种系统信息.以下详细描述/proc下的文件. /proc文件系统是一个伪文件系统,它只存在内存当中,而不占用外存空间.它以文件系统的方式为访问系统内…
本文链接:http://kayosite.com/ios-development-and-detail-of-photo-framework-part-three.html 这里接着前文<iOS 开发之照片框架详解之二 —— PhotoKit 详解(上)>,主要是干货环节,列举了如何基于 PhotoKit 与 AlAssetLibrary 封装出通用的方法. 三. 常用方法的封装 虽然 PhotoKit 的功能强大很多,但基于兼容 iOS 8.0 以下版本的考虑,暂时可能仍无法抛弃 ALAss…
Linux常用命令详解 目录 一.Linux常用命令 1.1.查看及切换目录(pwd.cd.ls.du) 1.2.创建目录和文件(mkdir.touch.ln) 1.3.复制.删除.移动目录和文件(cp.rm.mv) 1.4.查找目录和文件(which.find) 一.Linux常用命令 1.查看当前工作目录 -pwd 1)显示用户当前所在的工作目录位置-pwd 2) 示例 ① [root@localhost ~]#pwd /root 当前工作目录 2.切换工作目录 -cd 1) 将用户的工作目…
linux下压缩与解压(zip.unzip.tar)详解 2012-05-09 13:58:39| 分类: linux | 标签:linux zip unzip tar linux命令详解 |举报|字号 订阅 下载LOFTER我的照片书 |最近经常在linux上进行打包压缩解压,从网上收集整理并结合自己的常用的,跟大家分享一下下,废话不多说,进入正题.1.zip 压缩如果是直接压缩几个文件,那就可以直接使用命令 zip newfilename.zip filename1 filename2,但是…
来源: http://www.cnblogs.com/JustinYoung/archive/2009/04/03/kaifarenyuangongju2.html 在上一篇文章IE8“开发人员工具”使用详解上(各级菜单详解)中,我们详细地讲解了IE8开发人员工具中各个菜单中命令的使用方法,相信很多朋友应该已经使用上了.而IE8开发人员工具更强劲的功能例如:如何测试版本兼容性.如何利用开发人员工具调试JavaScript脚本,以及如何利用探查器检测页面脚本函数效率等,我们将在本篇文章中讲解.小弟…
  转载:http://www.sudu.cn/info/index.php?op=article&id=302529   Linux中/proc目录下文件详解(一) 声明:可以自由转载本文,但请务必保留本文的完整性. 作者:张子坚 email:zhangzijian@163.com 说明:本文所涉及示例均在fedora core3下得到. ------------------------------------------------------------------------------…