本文是一篇介绍Wrapper Induction的阅读笔记,原文详见《Wrapper induction:Efficiency and expressiveness》。

  Wrapper Induction是一种自动的学习Wrapper的技术,通过一系列需要抽取的页面资源(训练数据),每个被抽取的文本段落都需要被标注来构建Wrapper Induction。文章分为以下几部分来介绍Wrapper Induction:

第一部分:Introduction

  Ⅰ—EXPRESSIVENESS:介绍wrapper classes是如何有效处理Internet resources,并且通过one class来拓展处理其他网站资源。

    Ⅰ-1—COVERAGE:我们调查了一些真实的网站,来决定哪些通过wrapper classes能够处理的,和以往追求100%准确率和召回率的采集方式(正则抽取或CSS选择器抽取)不同,我们对覆盖率更加感兴趣,能覆盖大约70%的网站抽取。

    Ⅰ-2—RELATIVE EXPRESSIVENESS:另一个问题是拓展将一个wrapper classes复用模仿到其他。

  Ⅱ—EFFICIENCY:我们的wrapper classes在抽取工作上被证明是有用的,但它们如何快速的学习?我们分为部分介绍:多少样本被需要?多少计算量被需要?

    Ⅱ-1—SAMPLE COST:理论上训练的样本越多,wrapper就越有效,我们假定样本的数量是根据经验和分析得出的。

      Ⅱ-1-a—EMPIRICAL RESULTS:通过测试的结果我们得出训练一个完美的wrapper通常需要2~3个样本就足够了。

      Ⅱ-1-b—SAMPLE COMPLEXITY:We have shown that the number of examples required is polynomial in the relevant parameters;

    Ⅱ-2—INDUCTION COST:在度量被训练的样本时,我们关注处理样本所花费的时间成本。

      Ⅱ-2-a—EMPIRICAL RESULTS:测试学习算法通常每个样本在单个CPU上(less than)运行。

      Ⅱ-2-b—TIME COMPLEXITY:Most of our wrapper classes can be learned in polynomial time.

第二部分:Wrapper Induction

  之前提到了Wrapper Induction是一种构建wrapper classes的技术,下面是一些重要概念:

  

  query我们不关注,resouce是一种资源(可以理解为互联网文档资源),page可以理解类比为html(想要抽取的页面),wrapper是我们都过训练样本获取的抽取模型,label是标签。

Attributes and tuples:简单的说就是每个page可以表示为若干个tuple,一个tuple是由一组attributes构成的向量表示。

Content and labels:简单的说就是每个page代表content,每个page由有个标签标注。

下面举个栗子:

上面左图是page的页面形式,右图是源码形式。而我们通过以下形式进行表示:

L代表page的标签,等号右边是page的表现形式,<bm,k,em,k>表示一个tuple,这里代表一个tuple具有两个attributes。

 Wrappers and wrapper classes:Wrappers 是一种程序方法的集合,一个wrapper class作为Wrappers中的一个子集。

a wrapper W is a function from a page to a label; the notation W(P) = L indicates that the result of invoking wrapper W on page P is label L.

  

接下来会介绍六种wrapper class,其中比较简单的是 LR wrapper class

  我们会根据几个步骤来介绍wrapper class是如何生效的。

  1、wrapper class在执行程序exec(w)是如何运行的;

  2、定义wrapper class所构建的字符串分隔符向量;

  3、定义字符串分隔符候选集cands(x);

  4、定义字符串分隔符的限制条件constraints(x)和验证条件valid(x);

  5、定义wrapper class学习程序learn(w),如何选择cands(x)和测试验证valid(x)。

第三部分:The LR wrapper class

  LR wrapper class是一种比较简单的方法,它只关注需要抽取内容的左邻和右邻部分内容。

  1、执行程序exec(w):

  

  执行程序exec(w)可以看成是一个函数,通过输入想要抽取的页面page和包装器wrapper,输出结果label。其中<l1,r1,l2,r2,...,lk,rk>是我们通过字符串分隔符形成的向量。在该程序中我们其实是不断通过定义的左右分隔符来获取抽取信息的位置信息。

  2、LR wrapper class的字符串分隔符向量

  LR wrapper class分别具有左右两种分隔符,通过元组tuple<lk,rk>来将信息抽取出来记录位置信息。举个例子:

  

  我们想要抽取“国家”信息和“数字”信息两种,这时我们定义k=2,左分隔符l1可以是<B>,右分隔符r1可以是</B>;左分隔符l2可以是<I>,右分隔符r2可以是</I>。

  3、字符串分隔符候选集cands(x)

  LR wrapper class分为左右两个候选集cands(l)和cands(r),上段中提到的左右分隔符只是对应候选集中的一个。同样我们举个栗子:

  cands(l)可以如下表示为(其中表示换行符):

  

  cands(r)可以如下表示为:

  

  4、字符串分隔符的限制条件constraints(x)和验证条件valid(x)

  右分隔符u限制条件constraints(r):

  a、u 必须不能是任何需要抽取的属性k中的一部分;

  b、u 必须是任何需要抽取的属性k后面紧贴字符的前缀。

  右验证方法valid(r):

  当且仅当分隔符能够正确的抽取想要的信息时,我们返回true,否则返回false。(结合国家代码那个html栗子)

  

  左分隔符u限制条件constraints(l):

  a、u 必须是任何需要抽取的属性k前面紧贴字符的后缀,其中后缀满足条件(‘cde’是‘deabcde’的后缀,但是‘de’不是,因为前缀也是‘de’);

  b、只针对l1,u 必须不能是抽取页面的尾部字符中任何一部分。

  验证方法valid(l):

  当且仅当分隔符能够正确的抽取想要的信息时,我们返回true,否则返回false。(结合国家代码那个html栗子)

  

  5、学习程序learn(w),如何选择cands(x)和测试验证valid(x)

  

  至此LR wrapper class基本介绍完了!之后有机会介绍后五种相对比左右包装器复杂一些的方法。

  

wrapper induction随笔的更多相关文章

  1. [Python学习] 简单网络爬虫抓取博客文章及思想介绍

            前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy ...

  2. IE11阅读视图:带给你静心饕餮阅读大餐的片刻

    编者按:又到读书日,今天你挤出时间读书了吗?如今,越来越多人在习惯电子阅读,然而总难逃眼花缭乱的干扰信息.Internet Explorer 11新增阅读视图功能,一键开启,给你带给你静心饕餮阅读大餐 ...

  3. C++随笔:.NET CoreCLR之GC探索(4)

    今天继续来 带大家讲解CoreCLR之GC,首先我们继续看这个GCSample,这篇文章是上一篇文章的继续,如果有不清楚的,还请翻到我写的上一篇随笔.下面我们继续: // Initialize fre ...

  4. Orchard运用 - 在页面每篇随笔添加编辑链接

    今天继续捣鼓Orchard系统,在此分享一个小技巧,如何在页面每个随笔添加编辑链接,这样方便管理员直接点击进去编辑内容.是的,只对管理员可见. 话说这一个特性一开始是默认启用并集成在核心实现中的,后来 ...

  5. AI人工智能系列随笔

    初探 AI人工智能系列随笔:syntaxnet 初探(1)

  6. 【置顶】CoreCLR系列随笔

    CoreCLR配置系列 在Windows上编译和调试CoreCLR GC探索系列 C++随笔:.NET CoreCLR之GC探索(1) C++随笔:.NET CoreCLR之GC探索(2) C++随笔 ...

  7. C++随笔:从Hello World 探秘CoreCLR的内部(1)

    紧接着上次的问题,上次的问题其实很简单,就是HelloWorld.exe运行失败,而本文的目的,就是成功调试HelloWorld这个控制台应用程序. 通过我的寻找,其实是一个名为TryRun的文件出了 ...

  8. ASP.NET MVC 系列随笔汇总[未完待续……]

    ASP.NET MVC 系列随笔汇总[未完待续……] 为了方便大家浏览所以整理一下,有的系列篇幅中不是很全面以后会慢慢的补全的. 学前篇之: ASP.NET MVC学前篇之扩展方法.链式编程 ASP. ...

  9. gradlew wrapper使用下载到本地的gradle.zip文件装配--转

    原文地址:http://www.myexception.cn/mobile/1860089.html gradlew wrapper使用下载到本地的gradle.zip文件安装.使用gradlew来b ...

随机推荐

  1. POST 请求中 multipart/form-data、 application/x-www-form-urlencoded 的区别

    以 Postman 为工具来看一下这两个编码类型的数据格式,假设我们需要传输的数据为 { "name": "test", "age": 18 ...

  2. 文本框监听事件blur()的简单使用

    场景描述:在做编辑功能的时候,经常要判断编码,或者密码之类的是否已经被使用,以前自己做的时候,经常都是在提交了之后才判断的,到现在,才发现,这样做的用户体验不好,完美一点的做法就是当此文本框失去焦点的 ...

  3. 剑指offer字符串列表

    字符串 面试题5:替换空格 面试题20:表示数值的字符串 面试题58:翻转字符串 面试题58(二):左旋转字符串

  4. 使用wps插件,实现word转PDF

    项目需求:不打算用office自带的组件实现word转pdf操作 环境需求:安装wps2016专业版 新建一个控制台应用程序 添加引用:在COM下 Kingsoft Add-In Designer和U ...

  5. .net OADate 转javascript的Datetime js 5位 日期 转换

    以下是将.net的OADate转成javascript的DateTime函数. 其中参数oadate是.net那里传过来的UTC时间的double.记得 一定是UTC时间. .net Double o ...

  6. UOJ#55. 【WC2014】紫荆花之恋 点分树 替罪羊树 平衡树 splay Treap

    原文链接https://www.cnblogs.com/zhouzhendong/p/UOJ55.html 题解 做法还是挺容易想到的. 但是写的话…… 首先这种题如果只要求一棵树中的满足条件的点数( ...

  7. xlrd模块;xlwt模块使用,smtp发送邮件

    先安装 pip3 install xlwt pip3 install xlrd import xlwt, xlrd from xlrd.book import Book from xlrd.sheet ...

  8. python 单行写法

    if not any([_ in fingers for _ in finger_ids])

  9. PostgreSQL自学笔记:6 PostgreSQL函数

    6 PostgreSQL函数 6.2 数学函数 abs(x) 绝对值 pi() 圆周率π select abs(-3),pi(); cookie: MySQL中的pi()默认值3.141593, Po ...

  10. 基于for循环的呼吸灯

    #include "stm32f10x.h" #include "stm32f10x_gpio.h" //#include "led.h" ...