jar is not a valid DFS filename

MapReduce处理HBase出错：XXX.jar is not a valid DFS filename

原因:Hadoop文件系统没有检查路径时没有区分是本地windows系统还是Hadoop集群文件系统解决: 只需将Map和Reduce的init方法最后一个参数(boolean addDependencyJars)设为false(默认为true…

jar is not a valid DFS filename

…

SVN chechout 错误： xxx is not valid as filename in directory

转载:https://blog.csdn.net/ClementAD/article/details/47838989 意思就是Linux系统允许文件或文件夹的名字包含空格,而windows是不允许的.所以,解决的方法是用乌龟(SVN Repository Browser)去svn服务器中把该文件或文件夹中的空格去掉. 参考: https://stackoverflow.com/questions/18452218/how-can-i-get-rid-of-the-error-folder-na…

大数据离线分析平台用户数据Etl

Etl目标解析我们收集的日志数据,将解析后的数据保存到hbase中.这里选择hbase来存储数据的主要原因就是: hbase的宽表结构设计适合我们的这样多种数据格式的数据存储(不同event有不同的存储格式). 在etl过程中,我们需要将我们收集得到的数据进行处理,包括ip地址解析.userAgent解析.服务器时间解析等. 在我们本次项目中ip解析采用的是纯真ip数据库,官网是http://www.cz88.net/另外:ip解析可以采用淘宝提供的ip接口来进行解析地址:http://i…

一脸懵逼学习MapReduce的原理和编程（Map局部处理，Reduce汇总）和MapReduce几种运行方式

1:MapReduce的概述: (1):MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. (2):MapReduce由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单. (3):这两个函数的形参是key.value对,表示函数的输入信息. 2:MapReduce执行步骤: (1): map任务处理 (a):读取输入文件内容,解析成key.value对.对输入文件的每一行,解析…

hdfs 路径不支持‘：’

hdfs 路径不支持‘:’,但Linux支持. -put: Pathname /public/platform/control_center/file_center/weiflow/core-user-core-submit-core-dispatch-train_988-/:q from /public/platform/control_center/file_center/weiflow/core-user-core-submit-core-dispatch-train_988-/:q is…

maven 项目 pom.xml文件中配置的jar包下载报错

[ERROR] [ERROR] Some problems were encountered while processing the POMs:[ERROR] 'dependencies.dependency.version' for org.springframework:spring-core:jar must be a valid version but is '${spring.version}'. @ line 28, column 13[ERROR] 'dependencies.d…

引用jar版本错误

[INFO] Scanning for projects... [ERROR] The build could not read 1 project -> [Help 1] [ERROR] [ERROR] The project cas_client_sso:cas_app2:0.0.1-SNAPSHOT (D:\java\workSpace\cas_app2\pom.xml) has 7 errors [ERROR] 'dependencies.dependency.versi…

jar命令使用介绍

http://docs.oracle.com/javase/7/docs/technotes/tools/solaris/jar.html Skip to Content Oracle Technology Network Software Downloads Documentation Search jar-The Java Archive Tool jar combines multiple files into a single JAR archive file. Synopsis D…

【转载 Hadoop&Spark 动手实践 2】Hadoop2.7.3 HDFS理论与动手实践

简介 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统.是根据google发表的论文翻版的.论文为GFS(Google File System)Google 文件系统(中文,英文). HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复.默认存3份. ② 运行在廉价的机器上. ③ 适合大数据的处理.多大?多小?HDFS默认会将文件分割成block,64M为1个block.然后将block按键值对存储在HDFS上,并将键…

java 使用 poi 解析excel

背景: web应用经常需要上传文件,有时候需要解析出excel中的数据,如果excel的格式没有问题,那就可以直接解析数据入库. 工具选择: 目前jxl和poi可以解析excel,jxl很早就停止维护了,只支持excel-2003也就是xls格式的文件: poi可支持xls和xlsx格式的文件,经过考察,poi的功能强大很多,所以选择这个工具解析excel.文件上传在之前的一个专题有所提及. 需要如下jar包,jar包见附件,也可在官网下载. 注意: 1. 不支持单元格合并的情况,默认表…

hadoop安装问题

1. 运行start-dfs.sh启动HDFS守护进程,start-yarn.sh面向YARN的资源器和节点管理器,资源管理器web地址是http://localhost:8080/.输入stop.dfs.sh,stop-yarn.sh终止守护进程. 以上是打开hadoop服务的两种方法,每次使用hadoop之前都需要使用这条命令打开hadoop,接着使用jps查看服务是否已经启动,在浏览器中http://localhost:50070查看hadoop相关情况 2.运行 ps -e | grep…

Hadoop生态圈-注册并加载协处理器(coprocessor)的三种方式

Hadoop生态圈-注册并加载协处理器(coprocessor)的三种方式作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 到目前为止,大家已经掌握了如何使用过滤器来减少服务器端通过网络返回到客户端的数据量.HBase中还有一些特性让用户甚至可以把一部分计算也移动到数据的存放端,他就是本篇博客的主角:协处理器(coprocessor). 一.协处理器简介使用客户端API,配合筛选机制,例如,使用过滤器或限制列族的范围,都可以控制被返回到客户端的数据量.如果可以更进一步优化会更…

DexClassLoader和PathClassLoader载入Dex流程

0x00 在上一篇文章apk安装和优化原理,在最后我们分析了DexClassLoader和PathClassLoader的构造函数的不同. PathClassLoader最后调用的是new DexFile(pathFile),而DexClassLoader调用的是DexFile.loadDex(dexPathList[i], outputName, 0). 0x01 new DexFile(pathFile)相应的代码位于libcore\dalvik\src\main\java\dalvik\s…

OpenCV人脸识别Eigen算法源码分析

1 理论基础学习Eigen人脸识别算法需要了解一下它用到的几个理论基础,现总结如下: 1.1 协方差矩阵首先需要了解一下公式: 共公式可以看出:均值描述的是样本集合的平均值,而标准差描述的则是样本集合的各个样本点到均值的距离之平均.以一个国家国民收入为例,均值反映了平均收入,而均方差/方差则反映了贫富差距,如果两个国家国民收入均值相等,则标准差越大说明国家的国民收入越不均衡,贫富差距较大.以上公式都是用来描述一维数据量的,把方差公式推广到二维,则可得到协方差公式: 协方差表明了两个随机变量之…

odoo8.0 win7 64位安装配置（补遗）

各种参考博客资源--http://www.cnblogs.com/yiguxianyun/p/6256641.html 最开始蛋疼问题的是安装各种site-packages! 云盘里面有些win764位安装后wheel出来的文件,下载后可以本地安装(http://pan.baidu.com/s/1pL0KhwZ): pip install --no-index --find-links=D:\BaiduYunDownload\python\odoo8.0-lib\whl64 -r D:\Baid…

Eclipse 中的重构功能

Eclipse 中的重构功能使其成为了一个现代的 Java 集成开发环境 (IDE),而不再是一个普通的文本编辑器.使用重构,您可以轻松更改您的代码,而不必担心对别处造成破坏.有了重构,您可以只关注于所编写代码的功能, 而不必分心去考虑代码的外观如何,因为之后您可以使用重构工具来快捷地将代码变成整洁而高度模块化的代码.本文将向您介绍如何使用 Eclipse 中的一些功能强大的重构函数. 重构类型重命名 Rename 应该是 Eclipse 中重常用的重构.利用这个重构,可以对变量.类.方法.包…

Hadoop集群（第10期）_MapReduce与MySQL交互

2.MapReduce与MySQL交互 MapReduce技术推出后,曾遭到关系数据库研究者的挑剔和批评,认为MapReduce不具备有类似于关系数据库中的结构化数据存储和处理能力.为此,Google和MapReduce社区进行了很多努力.一方面,他们设计了类似于关系数据中结构化数据表的技术(Google的BigTable,Hadoop的HBase)提供一些粗粒度的结构化数据存储和处理能力:另一方面,为了增强与关系数据库的集成能力,Hadoop MapReduce提供了相应的访问关系数据库库的编…

hadoop环境安装及简单Map-Reduce示例

说明:这篇博客来自我的csdn博客,http://blog.csdn.net/lxxgreat/article/details/7753511 一.参考书:<hadoop权威指南--第二版(中文)> 二.hadoop环境安装 1.安装sun-jdk1.6版本 1)目前我只在一台服务器(CentOS5.5)上搭建hadoop环境,因此先卸载已安装的java1.4版本卸载命令:yum -y remove java 2)下载sun-jdk1.6,地址:http://download.oracle.…

Hadoop集群（第10期）_MySQL关系数据库

1.MySQL安装 MySQL下载地址:http://www.mysql.com/downloads/ 1.1 Windows平台 1)准备软件 MySQL版本:mysql-5.5.21-win32.msi 2)安装环境: 操作系统:Windows 7旗舰版 3)开始安装第一步:双击"msi"安装文件,出现如图1.1-1界面——"MySQL安装向导",按"Next"继续. 图1.1-1 MySQL安装向导第二步:在"I accept…

谈谈SpringMVC Validation

2016-10-12 19:26:08,897 [INFO ] [http-nio-8032-exec-1] HttpHeaderValidator:84 - HttpHeaderValidator.doFilter==================================== 2016-10-12 19:26:09,044 [ERROR] [http-nio-8032-exec-1] GlobalHandler:23 - org.springframework.validation.…

解决poi导出Excel异常org.openxmlformats.schemas.spreadshe

JAVA报表 POI未捕获到 servlet OUTEXCEL 的其中一个服务方法中抛出的异常.抛出的异常:java.lang.NoClassDefFoundError: org.openxmlformats.schemas.spreadsheetml.x2006.main.CTFileRecoveryPr at java.lang.J9VMInternals.verifyImpl(Native Method) at java.lang.J9VMInternals.verify(J9VMInte…

Ubuntu中使用终端运行Hadoop程序

接上一篇<Ubuntu Kylin系统下安装Hadoop2.6.0> 通过上一篇,Hadoop伪分布式基本配好了. 下一步是运行一个MapReduce程序,以WordCount为例: 1. 构建实现类: cd /usr/local/hadoop mkdir workspacecd workspacegedit WordCount.java 将代码复制粘贴. import java.io.IOException; import java.util.StringTokenizer; import…

Nutch+Hadoop集群搭建

转载自:http://www.open-open.com/lib/view/open1328670771405.html 1.Apache Nutch Apache Nutch是一个用于网络搜索的开源框架,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫. 1.1.Nutch的组件结构 WebDB:存储网页数据和连接信息 Fetch lists:将WebDB所存储的连接分成多个组,来用于分布式检索 Fetchers:检索Fetch list中的内容并下载到本地,共有两…

分散式-ubuntu12.04安装hadoop1.2.1

在hadoop1.2.1被预装在一份报告中安装说明java.我装了很多的版本号java以及许多的版本号hadoop,然后发现oracle-java7与hadoop1.2.1能够匹配. 一,安装详细过程例如以下: 1. 安装java: sudo apt-get install oracle-java7-installer 2. 安装hadoop1.2.1: http://hadoop.apache.org/docs/r1.2.1/single_node_setup.html#Download 二.…