首页
Python
Java
IOS
Andorid
NodeJS
JavaScript
HTML5
【
nutch2.2.1
】的更多相关文章
Nutch2+Hbase环境部署和基本使用
由于项目想借助Nutch来做网络爬虫,所以一番研究,发现网上文档比较散,学习的很艰难,因此总结了一些,放上来与大家交流. 1 环境部署 Nutch有1.x系列和2.x系列,主要区别是2.x使用了Gora作为持久层媒介,可以将数据持久化到关系型数据库,更详细的介绍参考Nutch官网. 这里主要介绍采用Nutch2.3.1+HBase的方式进行部署,HBase又依赖于HDFS和Zookeeper,实际上,Nutch只是将HBase视为持久层,而并不关心HBase是单机模式还是分布模式,H…
nutch-2.1导入eclipse+mysql运行
初次接触nutch,记录下来 首先数据库 CREATE DATABASE nutch DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_unicode_ci; 表 CREATE TABLE `webpage` ( `id` ) NOT NULL, `headers` blob, `text` mediumtext, `status` ) default NULL, `markers` blob, `parseStatus` blob, `modifi…
Nutch2.x 演示抓取第一个网站
http://www.micmiu.com/opensource/nutch/nutch2x-crawl-first-website/?utm_source=tuicool&utm_medium=referral 下面演示的过程是基于目前 Nutch 2.2.1 自己编译配置的版本. 在编译后 bin目录下有两个脚本文件:nutch 和 crawl ,在命令行下执行各命令即可查看具体使用说明: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19…
nutch-2.2.1 hadoop-1.2.1 hbase-0.92.1 集群部署
国内私募机构九鼎控股打造APP,来就送 20元现金领取地址:http://jdb.jiudingcapital.com/phone.html 内部邀请码:C8E245J (不写邀请码,没有现金送) 国内私募机构九鼎控股打造,九鼎投资是在全国股份转让系统挂牌的公众公司,股票代码为430719,为“中国PE第一股”,市值超1000亿元. ---------------------------------------------------------------------------------…
Ubuntu环境下nutch2.2.1集成HBase0.94.25
nutch2.2.1集成HBase0.94.25 (详见:http://duguyiren3476.iteye.com/blog/2085973 ) 1. 修改nutch的hbase配置 //将自己的hbase配置copy到nutch配置中 cp /home/hbase/conf/hbase-site.xml /home/nutch/conf/ 2. 使用hbase0.92.2-jar代替原来的hbase文件(在/home/nutch/runtime/local/lib中) 原因:(我使用的hb…
Ubuntu环境下利用ant编译nutch2.2.1 & 配置nutch2.2.1
/×××××××××××××××××××××××××××××××××××××××××/ Author:xxx0624 HomePage:http://www.cnblogs.com/xxx0624/ /×××××××××××××××××××××××××××××××××××××××××/ 利用ant编译nutch2.x 详见:1. http://blog.javachen.com/2014/05/20/nutch-intro/ 2. wiki.apache.org/nutch/Nu…
windows环境下nutch2.x 在eclipse中实现抓取数据存进mysql详细步骤
nutch2.x 在eclipse中实现抓取数据存进mysql步骤 最近在研究nutch,花了几天时间,也遇到很多问题,最终结果还是成功了,在此记录,并给其他有兴趣的人提供参考,共同进步. 对nutch的实现过程熟悉下,就可以实现电影采集网站了 如 无为电影在线 1.环境搭建 1)准备eclipse 安装Maven ,svn 2)在svn中下载官方2.x最新源码(参考官方http://wiki.apache.org/nutch/RunNutchInEclipse说明) 3)把工程…
在Eclipse中运行Nutch2.3
参考http://wiki.apache.org/nutch/RunNutchInEclipse 一.环境准备 1.下载nutch2.3源代码 wget http://mirror.bit.edu.cn/apache/nutch/2.3/apache-nutch-2.3-src.tar.gz 或者下载正在开发中的最新版本 svn co https://svn.apache.org/repos/asf/nutch/branches/2.x 2.选择使用的数据库类型,以hbase为例 在conf/n…
【Nutch2.2.1基础教程之3】Nutch2.2.1配置文件
nutch-site.xml 在nutch2.2.1中,有两份配置文件:nutch-default.xml与nutch-site.xml. 其中前者是nutch自带的默认属性,一般情况下不要修改. 如果需要修改默认属性,可以在nutch-site.xml中增加一个同名的属性,并修改其值.nutch-site.xml中的属性值会覆盖nutch-default.xml中的值. 1.db.ignore.external.links 若为true,则只抓取本域名内的网页,忽略外部链接. 可以在 rege…
【Nutch2.2.1基础教程之2.2】集成Nutch/Hbase/Solr构建搜索引擎之二:内容分析
请先参见"集成Nutch/Hbase/Solr构建搜索引擎之一:安装及运行",搭建测试环境 http://blog.csdn.net/jediael_lu/article/details/37329731 一.被索引的域 Schema.xml 1.文档基本内容 在使用solr对Nutch抓取到的网页进行索引时,schema.xml被替换成以下内容. 文件中指定了哪些域被索引.存储等内容. <?xml version="1.0" encoding="U…
hadoop1.2.1+hbase0.90.4+nutch2.2.1+elasticsearch0.90.5配置(伪分布式)
系统:ubuntu14.04 一.hadoop安装 ssh免密码登陆详情见上一篇博客. 解压hadoop1.2.1到某个目录下,这里解压到ubuntu下载目录下(注意没必要使用管理员权限) 在hadoop1.2.1 conf目录下的core-site.xml添加一下内容: <configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000<…
Nutch2.2.1在MyEclipse中的安装(window7环境)
在https://svn.apache.org/repos/asf/nutch/branches/branch-2.2.1/网址里面可以找到Nutch2.2.1版本的资源文件. 1. 在MyEclipse中安装nutch2.2.1的前提 (1)系统中已经安装并且配置好java环境(jdk最好是1.7.0.51版本的) (2)MyEclipse中已安装插件:Svneclipse.ivyDE 2. 本机环境 (1)win7-32系统 (2)jdk1.7.0…
谁说他们版本不兼容——hadoop1.2.1+hbase0.94.11+nutch2.2.1+el
一.背景 最近由于项目和论文的需要,需要搭建一个垂直搜索的环境,查阅了很多资料,决定使用Apache的一套解决方案hadoop+hbase+nutch+es.这几样神器的作用就不多作介绍了,自行参考各类百科就行了.我选择这样的方案主要是基于以下考虑: 1.可扩展,虽然 一.背景 最近由于项目和论文的需要,需要搭建一个垂直搜索的环境,查阅了很多资料,决定使用Apache的一套解决方案hadoop+hbase+nutch+es.这几样神器的作用就不多作介绍了,自行参考各类百科就行了.我选择这样的…
nutch-2.2.1 hadoop-1.2.1 hbase-0.92.1 集群部署(实用)
原文地址: http://www.cnblogs.com/i80386/p/3540389.html 参考网站:http://blog.csdn.net/weijonathan/article/details/10178919 一个完整的部署过程,只是版本有所区别http://m.blog.csdn.net/blog/WeiJonathan/9251597 杨尚川的博客(nutch 分布式运行)http://qindongliang1922.iteye.com/blog/1977053 三劫散仙…
Nutch2.x 集成ElasticSearch 抓取+索引
http://blog.csdn.net/eryk86/article/details/14111811 使用https://github.com/apache/nutch.git导入nutch项目到intellij 配置ivy.xml和conf下的gora.properties.nutch-site.xml 修改ivy/ivy.xml 修改elasticsearch版本 <dependency org="org.elasticsearch" name=&quo…
hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5安装配置攻略
一.背景 最近由于项目和论文的需要,需要搭建一个垂直搜索的环境,查阅了很多资料,决定使用Apache的一套解决方案hadoop+hbase+nutch+es.这几样神器的作用就不多作介绍了,自行参考各类百科就行了.我选择这样的方案主要是基于以下考虑: 1.可扩展,虽然只是实验环境,但是以后在项目中是要应用到生产中的,随着数据量的增大,需要的硬件设备能够方便的加入进来,所以选择了分布式的方案中最具人气的hadoop+hbase组合 2.数据来源兼容,nutch2以后集成了gora和tika,可以方…
nutch2.1+mysql+elasticsearch整合linux单机部署
这次主要介绍下nutch2.1和mysql和elasticsearch的整合,是在单机上运行,并不是分布式部署.1.下载nutch2.1 nutch下载地址:http://labs.mop.com/apache-mirror/nutch/2.1/apache-nutch-2.1-src.tar.gz 下载完成后解压, 2.配置nutch使用mysql作为数据存储,修改nutch根目录/ivy/ivy.xml文件 将这行的注释取消<dependency org=”mysql” name=”mysq…
NUTCH2.3 hadoop2.7.1 hbase1.0.1.1 solr5.2.1部署(三)
Precondition: hadoop 2.7.1 hbase 0.98.13 solr 5.2.1 / Apache Solr 4.8.1 http://archive.apache.org/dist/lucene/solr/4.8.1/ gora 0.6.1 gora编译和Nutch编译部署 1. Gora下载 最新版本号呢gora是0.6.1,下载或者直接通过git获取 git clonehttps://github.com/apache/gora.git 2. 改动gora p…
nutch2.x在eclipse+windows环境下运行遇到的一些问题的解决方案
1.问题 permission /tmp/hadoop.... 解决方法:下载hadoop源码包,修改org.apache.hadoop.fs.FileUtil.java文件中方法checkReturnValue内容.将异常改为log.用意:不在检测文件系统路径问题 private static void checkReturnValue(boolean rv, File p, FsPermission permi…
NUTCH2.3 hadoop2.7.1 hbase1.0.1.1 solr5.2.1部署(二)
Precondition: hadoop 2.7.1 hbase 1.0.1.1 / hbase 0.98.13 192.168.1.106 ->master 192.168.1.105 ->slave / regionservers hbase部署 直接下载hbase bin文件 hbase1.0.1.1 还有hbase 0.98.13 和hadoop2.7.1 / hadoop 2.5.2 配合并没有问题. 仅仅只是 Nutch2.3 似乎和hbase 0.98.13 配合比較好.…
hadoop2.7.1 nutch2.3 二次开发windows环境
Hadoop windows编译: 能够略过这一段,直接下载hadoo2.7.1 bin文件.我的资源里有终于生成的winutils.exe和一些native code,放在bin文件夹即可了 參考building.txt以及http://wiki.apache.org/hadoop/Hadoop2OnWindows,编译条件: * Windows System - win8 * JDK 1.7+ - jdk1.8 * Maven 3.0 or later - maven 3.3 * Fin…
Nutch2 WebPage 字段解释
Nutch2 WebPage 字段解释 Nutch2.2.1 id…
在Eclipse中运行Nutch2.3 分类: H3_NUTCH 2015-01-28 16:41 3175人阅读 评论(13) 收藏
参考http://wiki.apache.org/nutch/RunNutchInEclipse 一.环境准备 1.下载nutch2.3源代码 wget http://mirror.bit.edu.cn/apache/nutch/2.3/apache-nutch-2.3-src.tar.gz 或者下载正在开发中的最新版本 svn co https://svn.apache.org/repos/asf/nutch/branches/2.x 2.选择使用的数据库类型,以hbase为例 在conf/n…
【Nutch2.2.1基础教程之3】Nutch2.2.1配置文件 分类: H3_NUTCH 2014-08-18 16:33 1376人阅读 评论(0) 收藏
nutch-site.xml 在nutch2.2.1中,有两份配置文件:nutch-default.xml与nutch-site.xml. 其中前者是nutch自带的默认属性,一般情况下不要修改. 如果需要修改默认属性,可以在nutch-site.xml中增加一个同名的属性,并修改其值.nutch-site.xml中的属性值会覆盖nutch-default.xml中的值. 1.db.ignore.external.links 若为true,则只抓取本域名内的网页,忽略外部链接. 可以在 rege…
Nutch2.1+solr3.6.1+mysql5.6问题
1.Nutch2.1问题 1.1 问题:导入完成后,Nutch2.1里面runtime仍旧不能运行,出现jobfailed等错误. 解决:runtime里的nutch调试过程和导入Eclipse差不多,都是在调试配置文件.将Eclipse里能运行的nutch的配置文件,特别是nutch-default.xml,nutch-site.xml,gora.properties替换runtime/local/conf里的文件. 如果仍有错误,打开nutch-default.xml,找到plugin.fo…
Nutch2.1+mysql+solr3.6.1+中文网站抓取
1.mysql 数据库配置 linux mysql安装步骤省略. 在首先进入/etc/my.cnf (mysql为5.1的话就不用修改my.cnf,会导致mysql不能启动)在[mysqld] 下添加: innodb_file_format=barracuda innodb_file_per_table=true innodb_large_prefix=true character-set-server=utf8mb4 collation-server=utf8mb4_unicode_ci 创建…
nutch2.2.1+mysql抓取数据
基本环境:linux centos6.5 nutch2.2.1 源码包, mysql 5.5 ,elasticsearch1.1.1, jdk1.7 1.下载地址http://mirror.bjtu.edu.cn/apache/nutch/2.2.1/ 解压 2.修改数据存储方式是mysql 修改nutch根目录/ivy/ivy.xml文件,原来mysql数据存储是注释的. <dependency org="org.apache.gora" name="gora-cor…
Nutch2.3 编译和安装配置
Nutch2.3 编译和安装配置 [一].介绍 Nutch 是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫.现在Nutch分为两个版本:1.x和2.x,这两个版本的 主要区别在于底层的存储不同.1.x版本是基于Hadoop架构的,底层存储使用的是HDFS,而2.x通过使用Apache Gora,使得Nutch可以访问HBase.Cassandra.MySQL.DataFileAvroStore.AvroStore等等. [二].编译配置…
Nutch2.x
http://www.micmiu.com/opensource/nutch/nutch2x-tutorial/…
Ubuntu环境下Hadoop1.2.1, HBase0.94.25, nutch2.2.1各个配置文件一览
/×××××××××××××××××××××××××××××××××××××××××/ Author:xxx0624 HomePage:http://www.cnblogs.com/xxx0624/ /×××××××××××××××××××××××××××××××××××××××××/ Hadoop伪分布式配置过程: Hadoop:1.2.1 Hbase:0.94.25 nutch:2.2.1 Java:1.8.0 SSH:1.0.1j tomcat:7.0.57 zookeeper:3.4.6…