nutch-1.7-二次开发-Content中增加编码

1 识别nutch-1.7的编码，完成

以前1.2是在 org.apache.nutch.parse.html.HtmlParser

               EncodingDetector detector = new EncodingDetector(conf);

               detector.autoDetectClues(content, true);

               detector.addClue(sniffCharacterEncoding(contentInOctets), "sniffed");

               String encoding = detector.guessEncoding(content,

                         defaultCharEncoding);

               metadata.set(Metadata.ORIGINAL_CHAR_ENCODING, encoding);

               metadata.set(Metadata.CHAR_ENCODING_FOR_CONVERSION, encoding);

              ------在这里讲识别出来的编码写进content的metadata中

               System.out.println("set charset in Content " + encoding);

               content.getMetadata().add("charset", encoding);

但是在1.7中却不行了。原因不详

目前的策略是，org.apache.nutch.protocol.http.api.HttpBase 
位置：src/plugin/lib-http/src/java下的org.apache.nutch.protocol.http.api包中

中进行修改。

做法是将HtmlParser中的代码搬过来。

               EncodingDetector detector = new EncodingDetector(conf);

               detector.autoDetectClues(c, true);

               detector

               .addClue(sniffCharacterEncoding(c.getContent()), "sniffed");

               String encoding = detector.guessEncoding(c, "windows-1252");

               System.out.println("set charset in Content " + encoding);

               c.getMetadata().add("charset", encoding);

同时将相关函数字段拷贝过来：

// NUTCH-1006 Meta equiv with single quotes not accepted

    private static Pattern metaPattern = Pattern.compile(

            "<meta\\s+([^>]*http-equiv=(\"|')?content-type(\"|')?[^>]*)>",

            Pattern.CASE_INSENSITIVE);

    private static Pattern charsetPattern = Pattern.compile(

            "charset=\\s*([a-z][_\\-0-9a-z]*)", Pattern.CASE_INSENSITIVE);

    // I used 1000 bytes at first, but found that some documents have

    // meta tag well past the first 1000 bytes.

    // (e.g. http://cn.promo.yahoo.com/customcare/music.html)

    private static final int CHUNK_SIZE = 2000;

    /**

     * Given a <code>byte[]</code> representing an html file of an

     * <em>unknown</em> encoding, read out 'charset' parameter in the meta tag

     * from the first <code>CHUNK_SIZE</code> bytes. If there's no meta tag for

     * Content-Type or no charset is specified, <code>null</code> is returned. <br />

     * FIXME: non-byte oriented character encodings (UTF-16, UTF-32) can't be

     * handled with this. We need to do something similar to what's done by

     * mozilla

     * (http://lxr.mozilla.org/seamonkey/source/parser/htmlparser/src/nsParser

     * .cpp#1993). See also http://www.w3.org/TR/REC-xml/#sec-guessing <br />

     *

     * @param content

     *            <code>byte[]</code> representation of an html file

     */

    private static String sniffCharacterEncoding(byte[] content) {

        int length = content.length < CHUNK_SIZE ? content.length : CHUNK_SIZE;

        // We don't care about non-ASCII parts so that it's sufficient

        // to just inflate each byte to a 16-bit value by padding.

        // For instance, the sequence {0x41, 0x82, 0xb7} will be turned into

        // {U+0041, U+0082, U+00B7}.

        String str = "";

        try {

            str = new String(content, 0, length, Charset.forName("ASCII")

                    .toString());

        } catch (UnsupportedEncodingException e) {

            // code should never come here, but just in case...

            return null;

        }

        Matcher metaMatcher = metaPattern.matcher(str);

        String encoding = null;

        if (metaMatcher.find()) {

            Matcher charsetMatcher = charsetPattern.matcher(metaMatcher

                    .group(1));

            if (charsetMatcher.find())

                encoding = new String(charsetMatcher.group(1));

        }

        return encoding;

    }

同时修改：SegmentReader的中的方法
public void reduce(Text key, Iterator<NutchWritable> values,

      OutputCollector<Text, Text> output, Reporter reporter)

          throws IOException {

    StringBuffer dump = new StringBuffer();

    dump.append("\nRecno:: ").append(recNo++).append("\n");

    dump.append("URL:: " + key.toString() + "\n");

    while (values.hasNext()) {

      Writable value = values.next().get(); // unwrap

      if (value instanceof CrawlDatum) {

        dump.append("\nCrawlDatum::\n").append(((CrawlDatum) value).toString());

      } else if (value instanceof Content) {

        Content ct = (Content)value;

        String charset = ct.getMetadata().get("charset");

        dump.append("\nContent::\n").append(ct.toString(charset));

      } else if (value instanceof ParseData) {

        dump.append("\nParseData::\n").append(((ParseData) value).toString());

      } else if (value instanceof ParseText) {

        dump.append("\nParseText::\n").append(((ParseText) value).toString());

      } else if (LOG.isWarnEnabled()) {

        LOG.warn("Unrecognized type: " + value.getClass());

      }

    }

    output.collect(key, new Text(dump.toString()));

  }

nutch-1.7-二次开发-Content中增加编码的更多相关文章

NX二次开发-NXOpen中Point3d类型转换成point类型
NX9+VS2012 #include <NXOpen/NXObject.hxx> #include <NXOpen/Part.hxx> #include <NXOpen ...
AE二次开发中几个功能速成归纳（符号设计器、创建要素、图形编辑、属性表编辑、缓冲区分析）
/* * 实习课上讲进阶功能所用文档,因为赶时间从网上抄抄改改,凑合能用,记录一下以备个人后用. * * ----------------------------------------------- ...
SPSS二次开发
在以前关于SPSS二次开发文章中留下过自己联系方式,差不多一年的时间,零零散散的和我取得联系的人也有几十位,看来对于SPSS二次开发的需求不少. Web SPSS系统是利用SPSS二次开发技术,使用户 ...
齐博x1 二次开发的灵魂fun函数
X1最强大之处,体现在灵活,扩展性强,在使用过程中,你会发现灵活之处非常之多. 现在跟大家讲一下,灵魂函数 fun() X1的核心函数文件是 application/common.php 随着模块频道 ...
Nutch 二次开发parse纸
大约nutch基础知识可以参考lemo柱 nutch支持二次开发,为了满足搜索的准确性的问题,内容提取出来作为索引的内容,相应的是parse_text的数据.我使用的事nutch1.4 版本号,在cy ...
CAD二次开发中浮动面板不浮动的问题
CAD二次开发中创建了一个浮动面板,想让它创建出来后以浮动状态显示, 但是DockSides.None设置完后,面板还是不浮动.搞了很久,最后原来是需要先设置Visible,再设置DockSides ...
在AE二次开发中出“正试图在 OS 加载程序锁内执行托管代码。不要尝试在 DllMain 或映像初始化函数内运行托管代码，这样做会导致应用程序挂起。”异常解决方案
今天的一个项目总用到了AE的开发组件,也就是ESRI公司提供的一系列的开发包(组件)都是以dll(动态链接库的形式)然后今天在调试的时候却出现了“正试图在 OS 加载程序锁内执行托管代码.不要尝试在 ...
visual studio2010中C#生成的，ArcGIS二次开发的basetool的dll，注册为COM组件tlb文件，并在arcmap中加载使用
写了个标题好长啊~~~~ 这两天又认识了一个新玩意,记录一下下,啦啦啦~~~~~ 话说,认识arcgis快十年了,从桌面版到engine的二次开发,其实不过才认识到它的冰山一角, 它总是能带来很多还未 ...
NX二次开发-Block UI C++界面关于在Block UI中UF_initialize();和UF_terminate();的使用
关于在Block UI中UF_initialize();和UF_terminate();的使用用Block UI作NX二次开发的时候,不需要在使用UFUN函数的时候加UF_initialize() ...

随机推荐

Android 疑难杂症之获取listView Item上面组件的值
事实上思路就是又一次findById一次获取当中组建的值.比方应用场景是长按点击事件获取目录名字 @Override public boolean onItemLongClick(Adapter ...
register_globals（全局变量注册开关）
register_globals,是php.ini文件里面的一个配置选项,接下来,我们可以通过例程来分析一下,当register_globals = on 与 register_globals = o ...
Android - Binder驱动
以下资料摘录整理自老罗的Android之旅博客,是对老罗的博客关于Android底层原理的一个抽象的知识概括总结(如有错误欢迎指出)(侵删): http://blog.csdn.net/luosh ...
css修改li前面的小圆点的颜色
直接改 li 的style 的 color 就好:就是这样:over
CI框架篇之类库篇--基础（1）
使用 CodeIgniter 类库: 所有的类库文件存放在system/libraries 文件夹.大多数情况下你需要预先在controller中初始化后才能使用它们: $this->load- ...
python基础知识六
博客园的博文对每篇博文的长度似乎做了限制面向对象编程, 在程序何种,根据操作数据的函数或语句块来设计程序.这被成为面向过程的编程.还有一种把数据和功能结合起来,用称为对象的东西包裹起来组织组织程序的 ...
Error parsing XML: not well-formed (invalid token)
从网络上或别的文件复制粘贴进来的代码有隐含格式,可将内容先粘贴进记事本清除格式,再复制粘贴进工程文件,即可解决此问题注:1. 要使工程文件全选清空, 2. 若粘贴后刷新仍无效果,可手动输入
windows server 2003 系统重装蓝屏
错误码:0X0000007B 这个代码和硬盘有关系,不过不用害怕,不是有坏道了,是设置问题或者病毒造成的硬盘引导分区错误.如果您在用原版系统盘安装系统的时候出这个问题,那说明您的机器配置还是比较新的, ...
手把手教你Windows下Go语言的环境搭建
1.想写GO语言首先得下载go语言的开发包官方下载地址:https://code.google.com/p/go/downloads/list 我用的是Win7 64位的操作系统,截图如下: 2.把 ...
关于shell脚本编程的10个最佳实践
每一个在UNIX/Linux上工作的程序员可能都擅长shell脚本编程.但大家解决问题的方式却不尽相同,这要取决于对专业知识的掌握程度.使用命令的种类.看待问题的方式等等.对于那些处在shell脚本 ...

nutch-1.7-二次开发-Content中增加编码

nutch-1.7-二次开发-Content中增加编码的更多相关文章

随机推荐

热门专题