perl 爬取csdn

<pre name="code" class="python">use  LWP::UserAgent;

use POSIX;

use HTML::TreeBuilder::XPath;

use DBI;

use Encode;

use utf8;

use HTML::TreeBuilder;

open DATAFH,">csdn.html" || die "open csdn file failed:$!";

my $ua = LWP::UserAgent->new;

$ua->timeout(10);

$ua->env_proxy;

$ua->agent("Mozilla/8.0");

$base_dir='/root/lwp';

my $response = $ua->get('http://blog.csdn.net/zhaoyangjian724');

if ($response->is_success) {

 print DATAFH  $response->decoded_content;  # or whatever

# print   $response->decoded_content;  # or whatever

  use HTML::TreeBuilder::XPath;

  my $tree= HTML::TreeBuilder::XPath->new;

  $tree->parse_file( "csdn.html");

## 按link_view

 ###获取每个类别的url

@Links = $tree->find_by_tag_name('a');

        foreach (@Links) {

                $href = $_->attr('href');

 ###获取每个类别的url

                 if ($href =~/category/){print "\$href is $href\n";

                 push (@href,$href);

                    };

                };

#@href 是所有类别url的汇总

print "\@href is @href\n";

#@type 是类别名称汇总

 my @type=$tree->findvalues( '/html/body//ul[@class="panel_body"]/li/a');

print "\@type is @type\n";

my $length=@href;

@tmp="";

for ($i=0;$i<$length;$i++){print "$href[$i]===$type[$i]\n";

                           push (@tmp,$type[$i])};

##此时@tmp表示Oracle dump解析 类别开始到监控平台项目结束

shift @tmp;

@type=@tmp;

print "\@type is @type\n";

#循环类别开始

	for ($i=0;$i<=@type - 1; $i++){

	print "\$type is $type\n";

                     #next  unless ($type[$i]) ;

                   if (! -d "$type[$i]"){

                    mkdir $type[$i];

                                };

                      chdir "$base_dir/$type[$i]";

                      system(pwd);

                      sleep (5);

                 ##进入每个分类版块url

                    my  $pageString;

                   my $response = $ua->get("http://blog.csdn.net$href[$i]");

                    ##每个版块首页url

					print "\$href[$i] is $href[$i]\n";

				    ##fh1.html每个版块首页url

                    open fh1,">fh1.html" || die "open csdn file failed:$!";

                    print fh1  $response->decoded_content;

                    close fh1;

                     my $tree= HTML::TreeBuilder::XPath->new;

                     $tree->parse_file( "fh1.html");

                   ##获取每个版块的页码数 这个方法有问题,这里是数组$_ is  150条数据 共8页

                   my  @pageString = $tree->findvalues('/html/body//div[@id="papelist"]/span');

                if ($pageString[0]){ if ($pageString[0] =~ /.*\s+.*?(\d+).*/){$pageString=$1}; };

				print "\@pageString is @pageString\n;";

				   ##获取$pageString

				   sleep (5);

                   unless ($pageString){$pageString=1};

                    print "\$pageString is $pageString\n";

                    sleep(5);

                     ##进入每页,处理url

                     for ($j=1;$j<=$pageString + 0; $j++){

					 ##每个类别对应的url

                      my $url="http://blog.csdn.net$href[$i]/$j";

                      print "\$url is $url\n";

                      my $response = $ua->get("$url");

					  ##fh2 每页url

                      open fh2,">fh2.html" || die "open csdn file failed:$!";

                       print fh2  $response->decoded_content;

                      close fh2;

                      #获取每页都多少条标题

                     my @pageTitles="";

                      my $tree= HTML::TreeBuilder::XPath->new;

                     $tree->parse_file( "fh2.html");

                     #获取标题,这里会拿到除了该类别下文章外,

                     my @pageTitles = $tree->findvalues('/html/body//span[@class="link_title"]');

                      print "\$pageTitles[0] is  $pageTitles[0]\n";

					  print "\@pageTitles is @pageTitles\n";

					  sleep (10);

                     ##获取标题连接url

                       my $tree= HTML::TreeBuilder::XPath->new;

                      $tree->parse_file( "fh2.html");

					  @titleLinks="";

                      @titleLinks=$tree->find_by_tag_name('a');

                      @urlall="";

                      @urltmp="";

                      #@urlall除了包含每个类别的文章,还包含阅读排行里的文章

                      foreach (@titleLinks) {

                                               @titleHref = $_->attr('href');

                                               foreach (@titleHref) {

											   ###获取版块中每个页面的url

                                               if ($_ =~/zhaoyangjian724\/article\/details\/(\d+)$/){

                                                 unless ($_ ~~ @urlall) { print "\$_=========$_\n";push (@urlall ,$_);}}

                                                     };

                                           };

										   ##第一个元素为空 需要去掉

										   shift @urlall;

                                          print "\@urlall is @urlall\n";

										  sleep (10);

                                          for ($k=0;$k<=@pageTitles - 1;$k++){

                                          print "\$urlall[$k] is $urlall[$k]\n";

                                          push (@urltmp,$urlall[$k]);

                                                                           };

                                            @urlall=@urltmp;

											shift @urlall;

                                          print "\$---urlall[0] is  $urlall[0]\n";

										  sleep (10);

					for ($m=0;$m<=@urlall - 1; $m++){

					$pageTitles[$m] =~ s/\s+//g;

					print "===========================\n";

					print "$pageTitles[$m]======$urlall[$m]\n";

				    print "===========================\n";

		         			 open fh3,">$pageTitles[$m].html" || die "open csdn file failed:$!";

						  my $response = $ua->get("http://blog.csdn.net$urlall[$m]");

                                                  print "--------------------------------\n";

                                                  print "$urlall[$m]"."\n";

                                                  print fh3  $response->decoded_content;

                                                  close fh3;

										# unlink("$pageTitles[$m].html.tmp");

                           #循环页码结束

                                                    }; 

							#循环每个分类的url结束

						#循环单个类别结束

                          }

						 chdir "$base_dir";  

				      }

				   }

else{print   $response->decoded_content;}

perl 爬取csdn的更多相关文章

[Python学习] 简单爬取CSDN下载资源信息
这是一篇Python爬取CSDN下载资源信息的样例,主要是通过urllib2获取CSDN某个人全部资源的资源URL.资源名称.下载次数.分数等信息.写这篇文章的原因是我想获取自己的资源全部的评论信息. ...
Python爬取CSDN博客文章
0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.win ...
Java爬虫实践--爬取CSDN网站图片为例
实现的效果,自动在工程下创建Pictures文件夹,根据网站URL爬取图片,层层获取.在Pictures下以网站的层级URL命名文件夹,用来装该层URL下的图片.同时将文件名,路径,URL插入数据库, ...
Python 2.7_爬取CSDN单页面博客文章及url(二)_xpath提取_20170118
上次用的是正则匹配文章title 和文章url,因为最近在看Scrapy框架爬虫需要了解xpath语法学习了下拿这个例子练手 1.爬取的单页面还是这个rooturl:http://blog.csd ...
Python 2.7_爬取CSDN单页面利用正则提取博客文章及url_20170114
年前有点忙,没来的及更博,最近看爬虫正则的部分巩固下 1.爬取的单页面:http://blog.csdn.net/column/details/why-bug.html 2.过程解析url获得网站 ...
信息领域热词分析系统--java爬取CSDN中文章标题即链接
package zuoye1; import java.sql.Connection;import java.sql.PreparedStatement;import java.sql.SQLExce ...
开发记录_自学Python写爬虫程序爬取csdn个人博客信息
每天刷开csdn的博客,看到一整个页面,其实对我而言,我只想看看访问量有没有上涨而已... 于是萌生了一个想法: 想写一个爬虫程序把csdn博客上边的访问量和评论数都爬下来. 打算通过网络各种搜集资料 ...
看我怎么扒掉CSDN首页的底裤（python selenium+phantomjs爬取CSDN首页内容）
这里只是学习一下动态加载页面内容的抓取,并不适用于所有的页面. 使用到的工具就是python selenium和phantomjs,另外调试的时候还用了firefox的geckodriver.exe. ...
Perl爬取江西失信执行
#! /usr/bin/perl use strict; use Encode qw(encode decode); binmode(STDIN,":encoding(utf8)" ...

随机推荐

转:修改类不重启tomcat 自动加载项目
可以修改类不用重启Tomcat加载整个项目(手工启动) 配置reloadable=true(自动重载) 使用Debug模式,前提是仅限于局部修改.(修改类不用重启--热加载) (rel ...
优化C#程序的48种方法
一.用属性代替可访问的字段 1..NET数据绑定只支持数据绑定,使用属性可以获得数据绑定的好处: 2.在属性的get和set访问器重可使用lock添加多线程的支持. 二.readonly(运行时常量) ...
bzoj1751 [Usaco2005 qua]Lake Counting
1751: [Usaco2005 qua]Lake Counting Time Limit: 5 Sec Memory Limit: 64 MB Submit: 168 Solved: 130 [ ...
UVA 10594-Date Flow(无向图的最小费用网络流+题目给的数据有误）
题意:给一个有N个点的无向图,要求从1向N传送一定的数据,每条边的容量是一定的,如果能做到,输出最小的费用,否则输出Impossible. 解析:由于是无向图,所以每个有连接的两个点要建4条边,分别是 ...
决策树之ID3算法实现(python)
决策树的概念其实不难理解,下面一张图是某女生相亲时用到的决策树: 基本上可以理解为:一堆数据,附带若干属性,每一条记录最后都有一个分类(见或者不见),然后根据每种属性可以进行划分(比如年龄是>3 ...
HDU 1576 A/B(数论)
题目:求(A/B)%9973,但由于A很大,我们只给出n(n=A%9973)(我们给定的A必能被B整除,且gcd(B,9973) = 1).数据给出n和b 推导过程 A/B = K K = 9973* ...
dispatch_group_async
- (void)viewDidLoad { [super viewDidLoad]; // Do any additional setup after loading the view. dispat ...
HLJOJ1015(多源最短路径失真)
意甲冠军:n,m,k,有着n村.有着k路,每个村都有一个电话亭,现在,我们要建立在村中心展台,快递每一个需要同村的中心村,然后返回报告(有向图),有着m电话,假设村配置的手机,那么你并不需要报告.最低 ...
oracle 临时表空间的增删改查
oracle 临时表空间的增删改查 oracle 临时表空间的增删改查 1.查看临时表空间 (dba_temp_files视图)(v_$tempfile视图)select tablespace_nam ...
同一DataTable下创建多个结构数据相同的DataView的小问题
昨天在根据经理的要求修改公司后台的时候,遇到了一个很奇怪的问题 DataView dvFocus = ]); DataView dvLook = ]); DataView dvNewUser = ]) ...

perl 爬取csdn

perl 爬取csdn的更多相关文章

随机推荐

热门专题