网络爬虫-使用正则表达式抓取网络数据

关于网络数据抓取不仅仅在iOS开发中有,其他开发中也有,也叫网络爬虫,大致分为两种方式实现

  • 1:正则表达
  • 2:利用其他语言的工具包:java/Python

先来看看网络爬虫的基本原理:

一个通用的网络爬虫的框架如图所示:

网络爬虫的基本工作流程如下:

1.首先选取一部分精心挑选的种子URL;

2.将这些URL放入待抓取URL队列;

3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。

4.分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。

以下内容均为本人个人理解。

网络数据抓取

  • 概念:网络数据抓取,也叫网络爬虫。是在我们iOS程序中,获取要抓取到的网页上的数据。
  • 用处:如果要用到某网站的一些数据,这个时候我们就要用到抓取数据技术。
  • 建议:建议抓取过程中,多利用分类,多写一些分类方法,有助于提高程序可读性,也可提高效率。

今天先来介绍一下第一种:正则表达式

注意点:

其实网络抓取数据很简单,但是有用到正则表达式,这个有人说难,有人说很难,有人说非常难,其实我们抓取数据只会用到“." 、"*"、"?"这三个符号!

正则表达式中:“.”是包括任何字符不包括换行符,“*”是任意多个的字符,“?”是指到最近的一个URL,如果没有就是到最远的一个!

1 NSString *pantten = [NSString stringWithFormat:@"<ul class=\"cs_list\">(.*?)</ul>"];
2
3 NSRegularExpression *regx = [NSRegularExpression regularExpressionWithPattern:pantten options:NSRegularExpressionCaseInsensitive |NSRegularExpressionDotMatchesLineSeparators error:NULL];

其中有两个参数需要大家了解一下,很重要

1
2
3
4
5
NSRegularExpressionCaseinsensitive 不区分大小写
 
NSRegularExpressionDotMatcheLineSeparators 让“点”字符可以匹配换行符

抓数据,其实主要会写匹配字符串就行

  • (.*?)表示要抓到的内容
  • .*?表示要忽略的内容,爱是啥是啥
  • 字符串转义双引号用\转义括号用\\

在开发项目的过程,很多情况下我们需要利用互联网上的一些数据,在这种情况下,我们可能要写一个爬虫来爬我们所需要的数据。一般情况下都是利用正则表达式来匹配Html,获取我们所需要的数据。一般情况下分以下三步。

1、获取网页的html

  • 2、利用正则表达式,获取我们所需要的数据
  • 3、分析,使用获取到的数据,(例如,保存到数据库)

接下来我们分析代码:

1、获取网页的html

  对于一些网页,不需要提交Post提交数据时,我们可以简单的利用NSURL类来获取我们所需要的html,交将其转换中kCFStringEncodingGB_18030_2000格式,解决中文乱码问题。

  

 1 +(NSString*) urlstring:(NSString*)strurl{
2     NSURL *url = [NSURL URLWithString:strurl];
3     NSData *data = [NSData dataWithContentsOfURL:url];
4
5     NSStringEncoding enc = CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000);
6     NSString *retStr = [[NSString alloc] initWithData:data encoding:enc];
7
8     //NSLog(@" html = %@",retStr);
9
10     return retStr;
11   }

  对于需要Post提交数据的网页,我们可以利用强大的ASIFormDataRequest类来实现,例如:

 1 +(void)getPostResult:(NSString*)startqi{
2     ASIFormDataRequest *request = [[ASIFormDataRequest alloc] initWithURL:[NSURL URLWithString:URLPost]];
3
4     [request setPostValue:startqi forKey:@"startqi"];
5     [request setPostValue:@"20990101001" forKey:@"endqi"];
6     [request setPostValue:@"qihao" forKey:@"searchType"];//网页的中的搜索方式
7     [request startSynchronous];
8
9     NSData* data = [request responseData];
10
11   if (data==nil) {
12     FCLOG(@"has not data");
13   }
14   else{
15     NSStringEncoding enc = CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000);
16     NSString *retStr = [[NSString alloc] initWithData:data encoding:enc];
17     FCLOG(@"html = %@",retStr);
18   }
19 }

这样的话,我们就通过了两种方式获取了我们所需要的html

2、分析html

  关于利用正则表达式匹配问题,我又对NSString类扩展了一个方法-(NSMutableArray *)substringByRegular:(NSString *)regular。根据传入的正则表达式,返回所有匹配的数组。

  

 1 @implementation NSString(StringRegular)
2
3
4 -(NSMutableArray *)substringByRegular:(NSString *)regular{
5
6      NSString * reg=regular;
7
8       NSRange r= [self rangeOfString:reg options:NSRegularExpressionSearch];
9
10       NSMutableArray *arr=[NSMutableArray array];
11
12       if (r.length != NSNotFound &&r.length != 0) {
13
14       int i=0;
15
16       while (r.length != NSNotFound &&r.length != 0) {
17
18       FCLOG(@"index = %i regIndex = %d loc = %d",(++i),r.length,r.location);
19
20       NSString* substr = [self substringWithRange:r];
21
22       FCLOG(@"substr = %@",substr);
23
24       [arr addObject:substr];
25
26       NSRange startr=NSMakeRange(r.location+r.length, [self length]-r.location-r.length);
27
28       r=[self rangeOfString:reg options:NSRegularExpressionSearch range:startr];
29     }
30   }
31   return arr;
32 }
33 @end

在这种情况下,我们首先我得到我们要获取数据的正则表达式,关于正则表达式这种火星文我就不多说了,我也很纠结,我就不多说了,但是有一点就是,所写的正则表达式一定是我们所需要的数据,并且能够屏蔽无效信息的,有可能在一次匹配中无法获取,可以多次利用正则表达式来分段获取。下面是我的语句,在我的例子中,就是两次利用正则表达式。

NSString *regstr = @"<td class=\'z_bg_05\'>\\w{11}</td><td class=\'z_bg_13\'>(\\w{2}\\s{0,1})*</td>";
NSMutableArray *arr=[strhtml substringByRegular:regstr];

3、分析或利用数据,在这里,我只是利用上一篇博客上所述方法简单的把这些数据保存到了数据库(sqlite3)中。

其实在这个arr数组中一条就是对应我数据库表中的一条记录,但是像td class等这些信息我是不需要的,所以再次利用正则表达式来分析NSString

 1 if (arr!=nil&&[arr count]>0) {
2
3       NSString *prereg=@"\\w{11}";
4       NSString *backreg=@"(\\w{2}\\s{0,1}){8}";
5
6       TicketResultService *service=[[TicketResultService alloc] init];
7       [[Sqlite3Helper Instance] openDB];
8     for (NSString *sub in arr) {
9
10       TicketResult* r=[[[TicketResult alloc] init] autorelease];
11
12       NSMutableArray* prearr=[sub substringByRegular:prereg];
13
14       if (prearr!=nil&&[prearr count]>0) {
15         r.sectionID=(NSString*)[prearr objectAtIndex:0];
16       }
17       else{
18         continue;
19       }
20
21       NSMutableArray *backarr=[sub substringByRegular:backreg];
22       if (backarr!=nil&&[backarr count]>0) {
23       r.result=[backarr objectAtIndex:0];
24       }
25       else{
26         continue;
27       }
28
29       if([service isExist:r.sectionID]){
30         continue;
31       }
32
33     r.type=[NSNumber numberWithInt:1];
34
35     [service addModel:r];
36
37   }
38   [[Sqlite3Helper Instance] closeDB];
39
40   [service release];
41 }

以上爬虫才算正式完成,其实,在此之前还有一个第0步,即判断设备目前的网络状态,如果没有联网的就没有必要去爬虫了,因为你也爬不到任何的数据。判断网络状态我是利用Apple官方的一个例子Reachability,网上也有很多关于这个的例子,我就不再细说了,非常感谢网上的各位大牛们提供的很好的办法,让我能更快的写出这些。

iOS开发——网络使用技术OC篇&网络爬虫-使用正则表达式抓取网络数据的更多相关文章

  1. iOS开发之多线程技术——GCD篇

    本篇将从四个方面对iOS开发中GCD的使用进行详尽的讲解: 一.什么是GCD 二.我们为什么要用GCD技术 三.在实际开发中如何使用GCD更好的实现我们的需求 一.Synchronous & ...

  2. iOS开发之多线程技术—GCD篇

    本篇将从四个方面对iOS开发中GCD的使用进行详尽的讲解: 一.什么是GCD 二.我们为什么要用GCD技术 三.在实际开发中如何使用GCD更好的实现我们的需求 一.Synchronous & ...

  3. iOS开发之多线程技术——NSOperation篇

    本篇将从四个方面对iOS开发中使用到的NSOperation技术进行讲解: 一.什么是NSOperation 二.我们为什么使用NSOperation 三.在实际开发中如何使用NSOperation ...

  4. iOS开发--JS调用原生OC篇

    JS调用原生OC篇 方式一(反正我不用) 第一种方式是用JS发起一个假的URL请求,然后利用UIWebView的代理方法拦截这次请求,然后再做相应的处理. 我写了一个简单的HTML网页和一个btn点击 ...

  5. ios开发——常用经典算法OC篇&冒泡/快速

    冒泡排序与快速排序 1.序言 ios开发中涉及到算法的地方还真不多,除非你的应用程序真的非常大,或者你想你的应用程序性能非常好才会去想到关于算法方面的性能优化,而在ios开发中真的能用得到的也就是关于 ...

  6. iOS开发——高级UI之OC篇&UIdatePicker&UIPickerView简单使用

    UIdatePicker&UIPickerView简单使用 /***************************************************************** ...

  7. iOS开发之多线程技术

    本篇争取一篇讲清讲透,依然将通过四大方面清晰的对iOS开发中多线程的用法进行详尽的讲解: 一.什么是多线程 1)多线程执行原理 2)线程与进程 3)多线程的优缺点 二.我们为什么要用多线程编程技术 三 ...

  8. iOS开发——网络实用技术OC篇&网络爬虫-使用青花瓷抓取网络数据

    网络爬虫-使用青花瓷抓取网络数据 由于最近在研究网络爬虫相关技术,刚好看到一篇的的搬了过来! 望谅解..... 写本文的契机主要是前段时间有次用青花瓷抓包有一步忘了,在网上查了半天也没找到写的完整的教 ...

  9. iOS开发——网络实用技术OC篇&网络爬虫-使用java语言抓取网络数据

    网络爬虫-使用java语言抓取网络数据 前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码 实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件 上一 ...

随机推荐

  1. 【动态规划】bzoj1663 [Usaco2006 Open]赶集

    http://blog.csdn.net/u011265346/article/details/44906469 #include<cstdio> #include<algorith ...

  2. 【OSG学习笔记之一:】OSG+VS2010+win7 64位环境搭建

    虽然出生的时候,没有说过“Hello World!”,但是自从走上了编程之路,每一次输出“Hello World!”的时候,都觉得好比中了彩票大奖似的: 仔细算算,从2012年暑假到现在,经历了3年半 ...

  3. ERDAS文件格式:IGE、IMG、RRD、AUX

    ERDAS如果需要打开大于2GB的文件,ERDAS需要把文件转换成IMG格式.这时候,ERDAS自动生成三个文件,分别是IMG.IGE和RRD文件,其中:1.IGE:是数据文件,实际用来存储栅格数据: ...

  4. CabArc to create or extract a cab file

    CabArc n D:\test.cab D:\output\*.* CabArc x D:\test.cab -r -p D:\output\*.*

  5. #笔记# CSS工作流

    目录 明确代码规范 CSS Reset 关于前缀 浮动闭合 CSS的前处理器(Preprocessor)和后处理器(Postprocessor) 明确代码规范 目的是确保跨平台协作多人开发的代码显示界 ...

  6. linux mysql

    安装mysql 1.使用rpm 安装mysql 或者使用yum安装 使用rpm 安装 下载 Centos 7 所需要的mysql包 tar -xf 解压整合包 根据依赖 安装 common>li ...

  7. java.lang.OutOfMemoryError: Java heap space解决方法

    引起java.lang.OutOfMemoryError: Java heap space异常,可能是由JAVA的堆栈设置太小的原因 根据网上的答案大致有以下两种解决方法: 1.在D:/apache- ...

  8. [转] MySQL 查询表数据大小的总结

    一:关于mysql表数据大小 我们知道mysql存储数据文件一般使用表空间存储 当mysql使用innodb存储引擎的时候,mysql使用表存储数据分为共享表空间和独享表空间两种方式 ·共享表空间:I ...

  9. PHP项目感悟 -- 从CI框架来看iOS的MVC

    其实这几天一直都想找时间把这个感悟整理出来,也是这一段一直思考的问题,因为这一段参加一个PHP后台项目的开发,框架使用的是CI,随着项目的进展,对于CI接触的也越多,但是由于理解的可能并不深刻,我也只 ...

  10. mysql 性能配置优化

    修改mysql配置文件 my.cnf ,内容如下: [mysqld]datadir=/data/mysql/datasocket=/var/lib/mysql/mysql.sockuser=mysql ...