企业搜索引擎开发之连接器connector（十八）

创建并启动连接器实例之后，连接器就会基于Http协议向指定的数据接收服务器发送xmlfeed格式数据，我们可以通过配置http代理服务器抓取当前基于http协议格式的数据（或者也可以通过其他网络抓包工具抓取）

// 设置代理

            /Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress("IP地址", "端口"));

            synchronized (this) {

                uc = (HttpURLConnection) feedUrl.openConnection();

            }

如此设置之后，我们就可以打开代理工具清楚的观察到连接器发送的具体数据了

POST http://127.0.0.1:8080/hedgehog-searchEngine/xmlfeed HTTP/1.1

Content-Type: multipart/form-data; boundary=<<

Cache-Control: no-cache

Pragma: no-cache

User-Agent: Java/1.6.0_45

Host: 127.0.0.1:8080

Accept: text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2

Connection: keep-alive

Content-Length: 31621

--<<

Content-Disposition: form-data; name="datasource"

Content-Type: text/plain

default_collectionName_dbconnector_1401370320421

--<<

Content-Disposition: form-data; name="feedtype"

Content-Type: text/plain

incremental

--<<

Content-Disposition: form-data; name="data"

Content-Type: text/xml

<?xml version='1.0' encoding='UTF-8'?><!DOCTYPE gsafeed PUBLIC "-//Google//DTD GSA Feeds//EN" "gsafeed.dtd">

<gsafeed>

<header>

<datasource>default_collectionName_dbconnector_1401370320421</datasource>

<feedtype>incremental</feedtype>

</header>

<group>

<record url="googleconnector://default_collectionName_dbconnector_1401370320421.localhost/doc?docid=B/9795" displayurl="dbconnector://default_collectionName_dbconnector_1401370320421.localhost/B/9795" action="add" mimetype="text/html">

<metadata>

<meta name="google:displayurl" content="dbconnector://default_collectionName_dbconnector_1401370320421.localhost/B/9795"/>

<meta name="google:mimetype" content="text/html"/>

</metadata>

<content encoding="base64binary">

PGh0bWw+DQo8dGl0bGU+RGF0YWJhc2UgQ29ubmVjdG9yIFJlc3VsdCBkb2NJRD05Nzk1PC90aXRsZT4NCjxib2R5Pg0KPHRhYmxlIGJvcmRlcj0iMSI+DQo8dHIgYmdjb2xvcj0iIzlhY2QzMiI+DQo8dGg+ZG9jX3Rhc2tpZDwvdGg+PHRoPmRvY19zaXRlSUQ8L3RoPjx0aD5kb2NfZGF0ZTwvdGg+PHRoPmRvY190aXRsZTwvdGg+PHRoPmRvY19ocmVmPC90aD48dGg+ZG9jSUQ8L3RoPjx0aD5kb2NfY2F0ZUlEPC90aD48dGg+ZG9jX2NoaWxkY2F0ZUlEPC90aD4NCjwvdHI+DQo8dHI+DQo8dGQ+MTwvdGQ+PHRkPjE1PC90ZD48dGQ+MjAxMi0wOC0wMzwvdGQ+PHRkPuWMl+S6rOaWsOS4lue6qumlreW6l+WKnuWFrOalvDwvdGQ+PHRkPmh0dHA6Ly8yMTAuNzUuMjExLjUzL2djanN6bC5wclByb2plY3QucHJHQ0pTX1pMX1ZfUFJPSl9BUFBSX0lORk9fUVVFUlkuZG8/Y29kZT0zMTQ5NjImYW1wO3NlY1RhZz1wcm9qZWN0JmFtcDtzeXNvcmdhbmlkPTc1PC90ZD48dGQ+OTc5NTwvdGQ+PHRkPjE8L3RkPjx0ZD4xPC90ZD4NCjwvdHI+DQo8L3RhYmxlPg0KPC9ib2R5Pg0KPC9odG1sPg0K

</content>

</record>

……

</group>

</gsafeed>

--<<--

分析上面的数据格式，可以观察到发送方式为POST，发送元素项为datasource feedtype data（datasouce为连接实例名，feedtype表示增量信息，data即为xmlfeed数据）

xmlfeed数据部分，我们可以参考官方的dtd文件

<?xml version="1.0" encoding="UTF-8"?>

    <!ELEMENT gsafeed (header, group+)>

    <!ELEMENT header (datasource, feedtype)>

    <!-- datasource name should match the regex [a-zA-Z_][a-zA-Z0-9_-]*,

        the first character must be a letter or underscore,

        the rest of the characters can be alphanumeric, dash, or underscore. -->

    <!ELEMENT datasource (#PCDATA)>

    <!-- feedtype must be either 'full', 'incremental', or 'metadata-and-url' -->

    <!ELEMENT feedtype (#PCDATA)>

    <!-- group element lets you group records together and

        specify a common action for them -->

    <!ELEMENT group (record*)>

    <!-- record element can have attribute that overrides group's element-->

    <!ELEMENT record (metadata*,content*)>

    <!ELEMENT metadata (meta*)>

    <!ELEMENT meta EMPTY>

    <!ELEMENT content (#PCDATA)>

    <!-- last-modified date as per RFC822 -->

    <!-- default is 'add' -->

    <!ATTLIST group action (add|delete) "add">

    <!ATTLIST record

        url CDATA #REQUIRED

        displayurl CDATA #IMPLIED

        action (add|delete) #IMPLIED

        mimetype CDATA #IMPLIED

        last-modified CDATA #IMPLIED

        lock (true|false) "false"

        authmethod (none|httpbasic|ntlm|httpsso) "none">

    <!ATTLIST meta

        name CDATA #REQUIRED

        content CDATA #REQUIRED>

    <!-- if encoding is specified it must be base64binary as that is the only

        binary encoding that is supported -->

    <!ATTLIST content encoding (base64binary) #IMPLIED>

接下来我们便可以在数据接收服务器端接收这些数据并解析之

具体解析过程不再描述，读者可以参考下面的相关资料，本人推荐woodstox这款解析器(符合stax规范)

使用 StAX 解析 XML，第 1 部分: Streaming API for XML (StAX) 简介
http://www.ibm.com/developerworks/cn/xml/x-stax1.html

使用 StAX 解析 XML，第 2 部分: 拉式解析和事件
http://www.ibm.com/developerworks/cn/xml/x-stax2.html

使用 StAX 解析 XML，第 3 部分: 使用定制事件和编写 XML
http://www.ibm.com/developerworks/cn/xml/x-stax3.html

Geronimo 叛逆者: 使用集成软件包：Codehaus 的 Woodstox
http://www.ibm.com/developerworks/cn/opensource/os-ag-renegade15/

Woodstox官网

http://woodstox.codehaus.org/

---------------------------------------------------------------------------

本系列企业搜索引擎开发之连接器connector系本人原创

转载请注明出处博客园刺猬的温驯

本人邮箱： chenying998179@163#com （#改为.）

本文链接 http://www.cnblogs.com/chenying99/p/3765047.html

企业搜索引擎开发之连接器connector（十八）的更多相关文章

企业搜索引擎开发之连接器connector（二十八）
通常一个SnapshotRepository仓库对象对应一个DocumentSnapshotRepositoryMonitor监视器对象,同时也对应一个快照存储器对象,它们的关联是通过监视器管理对象D ...
企业搜索引擎开发之连接器connector（十九）
连接器是基于http协议通过推模式(push)向数据接收服务端推送数据,即xmlfeed格式数据(xml格式),其发送数据接口命名为Pusher Pusher接口定义了与发送数据相关的方法 publi ...
企业搜索引擎开发之连接器connector（三十）
连接器里面采用的什么样的数据结构,我们先从Document迭代器开始入手,具体的Document迭代器类都实现了DocumentList接口,该接口定义了两个方法 public interface D ...
企业搜索引擎开发之连接器connector（二十九）
在哪里调用监控器管理对象snapshotRepositoryMonitorManager的start方法及stop方法,然后又在哪里调用CheckpointAndChangeQueue对象的resum ...
企业搜索引擎开发之连接器connector（二十六）
连接器通过监视器对象DocumentSnapshotRepositoryMonitor从上文提到的仓库对象SnapshotRepository(数据库仓库为DBSnapshotRepository)中 ...
企业搜索引擎开发之连接器connector（二十五）
下面开始具体分析连接器是怎么与连接器实例交互的,这里主要是分析连接器怎么从连接器实例获取数据的(前面文章有涉及基于http协议与连接器的xml格式的交互,连接器对连接器实例的设置都是通过配置文件操作的 ...
企业搜索引擎开发之连接器connector（二十四）
本人在上文中提到,连接器实现了两种事件依赖的机制 ,其一是我们手动操作连接器实例时:其二是由连接器的自动更新机制上文中分析了连接器的自动更新机制,即定时器执行定时任务那么,如果我们手动操作连接器实 ...
企业搜索引擎开发之连接器connector（二十二）
下面来分析线程执行类,线程池ThreadPool类对该类的理解需要对java的线程池比较熟悉该类引用了一个内部类 /** * The lazily constructed LazyThreadPo ...
企业搜索引擎开发之连接器connector（二十）
连接器里面衔接数据源与数据推送对象的是QueryTraverser类对象,该类实现了Traverser接口 /** * Interface presented by a Traverser. Used ...

随机推荐

URL的getFile()和getPath()方法的区别(转)
转自博客:http://blog.csdn.net/l375852247/article/details/7999063 import java.net.MalformedURLException; ...
Call to your teacher
链接:https://www.nowcoder.net/acm/contest/76/F来源:牛客网 Call to your teacher 时间限制:C/C++ 1秒,其他语言2秒空间限制:C/ ...
[Java.web]JSTL 使用
<%@ page import="cn.itcast.domain.Person"%> <%@ page language="java" im ...
istio 配置https gateway
沒有親手實驗,参考官方文档: https://istio.io/docs/tasks/traffic-management/secure-ingress/
2018 Multi-University Training Contest 2-1007(hdu 6315)-题解
一.题意给定一个元素个数为$N(1 \le N \le 10^5)$初始序列$a$和$b$,$a$序列的初始值全为$0$,$b$序列的初始值为$1$到$N$的一个排列.有$T(1 \le T \le ...
jdbc练习demo
//连接云端服务器数据库工具类 public class TestJDBCUtil { public static String driver="com.mysql.jdbc.Driver& ...
zoj-3410-Layton's Escape
/* ZOJ Problem Set - 3410Layton's Escape ----------------------------------------------------------- ...
Thymeleaf系列五迭代,if,switch语法
1. 概述这里介绍thymeleaf的编程语法,本节主要包括如下内容迭代语法:th:each; iteration status 条件语法:th:if; th:unless switch语法: ...
firemonkey Grid自定义
http://stackoverflow.com/questions/28893564/memory-leak-on-tstringgrids-ondrawcolumncell-event http: ...
Linux中shell变量$0,$?等含义
linux中shell变量$#,$@,$0,$1,$2的基本含义: 变量说明: $$ Shell本身的PID(ProcessID) $! Shell最后运行的后台Process的PID $? 最后运行 ...

企业搜索引擎开发之连接器connector（十八）

企业搜索引擎开发之连接器connector（十八）的更多相关文章

随机推荐

热门专题