网络爬虫的基本操作是抓取网页.首先要了解下URL~~ 在理解URL之前,先了解下URI,这两个概念我曾经混淆过~@_@|| 什么是URI? Web上每种可用的资源,如:html文档.视频,图片等都由一个通用的资源标志符(Universal Resources Identifier,即URI)进行定位 URI的组成 URI通常由三部分组成:(1)访问资源的命名机制:(2)存放资源的主机名:(3)资源自身的名称,由路径表示. 例如:http://www.cnblogs.com/lmei/p/3463…
利用爬虫技术获取网页源代码后,针对网页抽取出它的特定文本内容,利用正则表达式和抽取工具,能够更好地抽取这些内容. 下面介绍一种抽取工具 -- HtmlParser HtmlParser是一个用来解析HTML文件的java包,主要用于转换.抽取两个方面. 利用HtmlParser可以实现下面内容的抽取: (1)文本抽取.作为一些垂直搜索引擎的检索内容放入数据库中. (2)链接抽取. (3)资源抽取.可以搜索到图像和声音等资源. (4)链接检查.保证链接是有用的. (5)站点检查.可以查看页面不同版…
最近在做网页信息提取这方面的,由于没接触过这系列的知识点,所以逛博客,看文档~~看着finallyly大神的博文和文档,边看边学习边总结~~ 对网站页面进行信息提取,需要进行页面解析,解析的方法有以下几种: 1.利用HTML标记的分布规律进行解析 2.利用HTML标记间的关系进行解析 3.利用页面的视觉特征进行解析 需要人工不断地总结调整规则,需要的规则往往比较多,一条规则的加入会对已经成功解析的网页产生影响.因此,保持规则集的一致性是一大难点. 4.利用TABLE标记的布局特性进行解析.比较常…
实现从Web网页提取文本之前,首先要识别网页的编码,有时候还需要进一步识别网页所使用的语言.因为同一种编码可能对应多种语言,例如UTF-8编码可能对应英文或中文等语言. 识别编码整体流程如下: (1)从WEB服务器返回的content type头信息中提取编码,如果是GB2312的编码要当GBK处理. (2)从网页mate标签中识别字符编码,如果content type中的编码不一致,以meta中声明的编码为准. (3)如果仍然无法确定网页所使用的字符集,需要从返回流的二进制格式判断. (4)确…
Python入门基础学习 三 数据类型 Python区分整型和浮点型依靠的是小数点,有小数点就是浮点型. e记法:e就是10的意思,是一种科学的计数法,15000=1.5e4 布尔类型是一种特殊的整形,true就相当于1,false相当于0,可以用来计算 类型转换 转换:整数:int();字符串:str();浮点数:float() 转换例子:(图9) 如果用内置函数当变量名,比如str=123,一旦被赋值,再使用这个函数会被报错. type()函数可以明确告诉我们变量类型. isinstance…
Python基础学习三 1.列表与元组 len()函数:可以获取列表的元素个数. append()函数:用于在列表的最后添加元素. sort()函数:用于排序元素 insert()函数:用于在指定位置添加元素. list=['1','2','3','4'] list.insert(1,5) #在索引为1处添加元素5 pop()函数:删除指定索引的元素,空填时默认最后一位. 元组的元素不能被修改.在单元素元组的定义中,需要在元素后添加英文逗号 t=(1,) 元组不可变,但是若其元素有列表等,可以通…
今天主要来学习一下Django的路由系统,视频中只学了一些皮毛,但是也做下总结,主要分为静态路由.动态路由.二级路由 一.先来看下静态路由 1.需要在project中的urls文件中做配置,然后将匹配到的urls转发到对应app的views的函数中 2.在对应的app的views中配置相应的函数 3.这个时候我们通过浏览器访问这个url,就可以得到如下的结果 ok.至此,静态路由我们就学习完了,下面我们开始学习动态路由 二.动态路由的学习,动态路由的学习主要是用到了python的正则表达式,我们…
1.1 什么是URI? 简单点说:URI就是通用资源标志符,不理解是吧,我第一次听说也是不理解. 进一步说:网络上的一些资源(文档.图片.音频.视频.程序等)都是有一些通用资源标识(Universal Resource Identifier, URI)进行定位的.也就是说如果你想要在网络上找到特定的这些资源,只需知道他们的URI,就可以进行定位,从而找到他们. 通常情况下URI由三部分组成: 1.访问资源的命名机制 2.存放资源的主机名 3.资源自身的名称,由路径表示 如下面的URI: http…
1.url: 统一资源定位符(Uniform Resource Locator,URL)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址.互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它. 在因特网的历史上,统一资源定位符的发明是一个非常基础的步骤.统一资源定位符的语法是一般的,可扩展的,它使用ASCII代码的一部分来表示因特网的地址.一般统一资源定位符的开始标志着一个计算机网络所使用的网络协议. 2.uri: 在电…
1.什么是URL? 统一资源定位符(或称统一资源定位器/定位地址.URL地址等[1],英语:Uniform Resource Locator,常缩写为URL),有时也被俗称为网页地址(网址).如同在网络上的门牌,是因特网上标准的资源的地址(Address).它最初是由蒂姆·伯纳斯-李发明用来作为万维网的地址.现在它已经被万维网联盟编制为因特网标准 RFC 1738. URL是URI的一个子集其中URL包含位置和协议统一资源定位符(URL)的完整定义如下: 协议类型:[//[访问资源需要的凭证信息…