针对特定XML的解析器XMLParser
一、建立网页库和偏移文件
为文本搜索引擎建立网页库,首先要把所有的网页(这里是文章)格式化,并保存到指定的格式中。如以下格式:
|
| <doc>
| <docid>...</docid>
| <url>...</url>
| <title>...</title>
| <content>...</content>
| </doc>
| <doc>
| ...
| </doc>
| ...
其中<doc>……</doc>保存着一篇文章;<docid>...</docid> 保存文档id;<url>...</url>保存文本路径;<content>...</content> 保存文章内容。
如何生成这样的格式呢?对每一篇文章使用以下方法:
首先从文章中提取标题 title;以及获得文章的路径,然后用字符串拼接,拼接成上述格式。
std::ofstream ofs("pages.lib",std::ios::out);//打开网页库
std::ofstream out("offset.lib",std::ios::out); //打开偏移文件
string txt = "<doc><docid>" + docid + "</docid>" + "<url>" + url + ... + "</doc>";
ofs << txt; //写到文件流
int offset = ofs.tellg();// offset 获得当前指针的位置 ,tellg()和tellp()是C++文件流操作中获得流指针的函数
int length = txt.size();//length
out<<docid<<" "<<offset<<""<<length<<endl;//将这片文章的起始位置和偏移量写到偏移文件中,便于后面从网页库中读出一篇网页
循环对所有文章执行上面的操作,就得到一个网页库和一个偏移文件。
二、解析网页
根据偏移文件,从网页库中读出一篇网页,接着对网页库中的docid,title,url进行解析。
以下是解析器的代码:
#ifndef _XMLPARSER_HPP
#define _XMLPARSER_HPP
#include <stdio.h>
#include <utility>
#include <string>
#include <stdlib.h>
using namespace std;
class XMLParser
{
public:
XMLParser(string & page)
:page_(page)
{}
string parser(string tag)
{
string ltag,rtag;
ltag = "<"+tag+">"; //拼接左标签
rtag = "</"+tag+">"; //拼接右标签
string str;
//pair<string,string> pr;
string::size_type bpos;
string::size_type epos;
string::size_type len;
//确定字符串范围
bpos = page_.find(ltag);//查找作标签下标
epos = page_.find(rtag);//查找右标签下标
bpos+=ltag.size();
len = epos - bpos; //计算标签包含内容长度
if(bpos==page_.npos||epos==page_.npos)
{
printf("No such tag: %s \n",tag.c_str());
exit(-);
}
if(bpos==epos)
{
printf("标签内容不存在\n");
exit(-);
} string content = page_.substr(bpos+,len-);//截取标签包含内容
#if 0
if(content[content.size()-]=='\n')
content[content.size()-]=='\0';
if(content[content.size()-]=='\n')
content[content.size()-]=='\0';
if(content[content.size()-]=='\n')
content[content.size()-]=='\0';
#endif
//pr.first = tag;
//pr.second = content;
//return pr; //最好使用std::move,减少复制
return content;
}
private:
string &page_; //使用引用,避免大复制
};
#endif
解析器每次只能传入一个标签,并且返回标签对应的内容,要对所有标签进行解析,那么就要多次调用parser()。当然,对于一篇文章,就对应一个解析器对象,parser()是对外的一个函数,接收标签,并从对象中解析出便签包含的内容。也就是说,创建一个对象可以对这个对象调用多次parser(string tag)对文章进行解析。
三、解析器的使用
首先要有一个加载偏移文件的工具,这里写了一个工具PageOffset.hpp
(代码折叠)代码如下:
#ifndef _PAGEOFFSET_HPP
#define _PAGEOFFSET_HPP #include <fstream>
#include <sstream>
#include <vector>
#include <string>
#include <utility>
#include <stdlib.h>
#include <stdio.h>
using namespace std; class PageOffset
{
public:
PageOffset(string &path)
{
ifstream ifs(path.c_str(),ios::in);
string line;
string str;
pair<int,int> p1;
pair<int ,pair<int ,int > > p2;
while(getline(ifs,line),!ifs.eof())
{
istringstream iss(line);
int pos = ;
while(iss>>str)
{
if(pos == )
{
p2.first = atoi(str.c_str());
}
else if(pos == )
{
p1.first = atoi(str.c_str());
}
else if(pos == )
{
p1.second = atoi(str.c_str());
p2.second = p1;
}
pos++;
}
offset.insert(p2);
}
ifs.close();
} pair<int ,int > &operator[](int docid)
{
return offset[docid];
} size_t size() const
{
return offset.size();
}
private:
map<int,pair<int,int> > offset;
};
#endif
测试程序代码如下:
#include "XMLParser.hpp"
#include "PageOffset.hpp"
#include <fstream>
#include <cstring>
#include <string>
#include <utility>
using namespace std;
int main()
{
ifstream ifs("pages.lib",ios::in);
PageOffset pageoffset("offset.lib");
char *buf = new char[*]; //开缓存空间
pair<int,int> page =(pageOffset)[vec[i]]; //从偏移文件中提取文档相应的offset与size,读出一篇文章
ifs.seekg(page.first,ios::beg); //定位文件起始位置
memset(buf,,*);
ifs.read(buf,page.second); //读取一篇文档
string str(buf); //C风格的字符串转化为C++风格的字符串
XMLParser xmlparser(str); //将文章加入解析器,初始化一个解析器对象
string title = xmlparser.parser("title"); //解析标题
string url = xmlparser.parser("url"); //解析url
string content = xmlparser.parser("content"); //解析内容
delete []buf; //释放缓存空间,防止内存泄露
return ;
}
以上是针对特定格式的文本库进行解析。因此不能给适用于多种场合。
针对特定XML的解析器XMLParser的更多相关文章
- PHP XML Expat 解析器
PHP XML Expat 解析器 内建的 Expat 解析器使在 PHP 中处理 XML 文档成为可能. XML 是什么? XML 用于描述数据,其焦点是数据是什么.XML 文件描述了数据的结构. ...
- XML实体解析器的作用
XML实体解析器的作用 什么是实体解析器 如果一个sax解析器需要实现对外部实体的自定义处理,那么必须实现一个EntityResolver接口并且注册到SAX驱动上. 从这段文字可以看出来,实体解析器 ...
- Mybatis源码解析,一步一步从浅入深(三):实例化xml配置解析器(XMLConfigBuilder)
在上一篇文章:Mybatis源码解析,一步一步从浅入深(二):按步骤解析源码 ,中我们看到 代码:XMLConfigBuilder parser = new XMLConfigBuilder(read ...
- Spring MVC Xml视图解析器
XmlViewResolver用于在xml文件中定义的视图bean来解析视图名称.以下示例演示如何在Spring Web MVC框架使用XmlViewResolver. XmlViewResolver ...
- Spring MVC-视图解析器(View Resolverr)-XML视图解析器(Xml View Resolver)示例(转载实践)
以下内容翻译自:https://www.tutorialspoint.com/springmvc/springmvc_xmlviewresolver.htm 说明:示例基于Spring MVC 4.1 ...
- Rails 4.0 移除了 XML 参数解析器。若要使用请加入 actionpack-xml_parser
拜读了用 Rails 搭建微信公众平台 API之后发现, params[:xml]这个办法在Rails 4里面已经被办掉了,于是就看了一下Rails 4的新特性发现XML Parameter pars ...
- Spring MVC视图解析器
Spring MVC提供的视图解析器使用ViewResolver进行视图解析,实现浏览器中渲染模型.ViewResolver能够解析JSP.Velocity模板.FreeMarker模板和XSLT等多 ...
- 高性能Java解析器实现过程详解
如果你没有指定数据或语言标准的或开源的Java解析器, 可能经常要用Java实现你自己的数据或语言解析器.或者,可能有很多解析器可选,但是要么太慢,要么太耗内存,或者没有你需要的特定功能.或者开源解析 ...
- Spring MVC之视图解析器
Spring MVC提供的视图解析器使用ViewResolver进行视图解析,实现浏览器中渲染模型.ViewResolver能够解析JSP.Velocity模板.FreeMarker模板和XSLT等多 ...
随机推荐
- js中常用的方法(数组篇)
1.replace(),根据释义,即为代替,用法为: stringObject.replace(regexp/substr,replacement)括号内前者是待匹配字符串,并用后者代替这个字符串.例 ...
- shell第三篇
第三篇本文摘自鸟哥的私房菜:http://cn.linux.vbird.org/linux_basic/0105computers.php#program(当年看的时候浮光掠影,现在回头发现,经典就是 ...
- Firefox使用Poster插件发送post请求
目的:验证http请求功能正确与否,需要发送post,get请求,则可以使用Poster插件方便简单. 自我总结,有什么改正的地方请指出,感激不尽! 1.安装Poster插件. 点击firefox右上 ...
- 机器学习01:使用scikit-learn的线性回归预测Google股票
这是机器学习系列的第一篇文章. 本文将使用Python及scikit-learn的线性回归预测Google的股票走势.请千万别期望这个示例能够让你成为股票高手.下面按逐步介绍如何进行实践. 准备数据 ...
- Spring整合JMS(三)——MessageConverter介绍
原文链接:http://haohaoxuexi.iteye.com/blog/1900937 1.4 消息转换器MessageConverter MessageConverter的作用主要有两 ...
- 创建一个vue项目的过程
创建一个vue项目: 1.首先从UI手上拿到PSD设计图,然后看设计搞的内容,需要做个大概的页面布局 2.做vue之前不许安装node,因为做vue项目要和node结合使用 3.然后安装vue脚手架: ...
- 洛谷3月月赛 R1 Step! ZERO to ONE
洛谷3月月赛 R1 Step! ZERO to ONE 普及组难度 290.25/310滚粗 t1 10分的日语翻译题....太难了不会... t2 真·普及组.略 注意长为1的情况 #include ...
- Linux内存机制以及手动释放swap和内存
今天我们来谈谈Linux的内存机制. 首先我们理一下概念 一.什么是linux的内存机制? 我们知道,直接从物理内存读写数据要比从硬盘读写数据要快的多,因此,我们希望所有数据的读取和写入都在内存完成, ...
- 移植cjson到windows下编译
#起因 在工作过程中发现需要让Lua支持json库,如果直接用lua版本的json解析器的话效率不够高,所以找了一个用C实现的json库--cjson,据说此库比lua版本的效率高10-20倍.但是c ...
- WPF 圆角输入框
今天打算来做一个圆角的输入框 默认输入框: 这个输入框不好看,并且在XP 跟 WIN 7 WIN10 效果 都不太一样 我们今天不用模板的方式,而是 最简单的方式 来实现 圆角 输入框: ----- ...