<pre name="code" class="python">use LWP::UserAgent; use POSIX; use HTML::TreeBuilder::XPath; use DBI; use Encode; use utf8; use HTML::TreeBuilder; open DATAFH,">csdn.html" || die "open csdn file failed:$!";…
这是一篇Python爬取CSDN下载资源信息的样例,主要是通过urllib2获取CSDN某个人全部资源的资源URL.资源名称.下载次数.分数等信息.写这篇文章的原因是我想获取自己的资源全部的评论信息.可是因为评论採用JS暂时载入.所以这篇文章先简介怎样人工分析HTML页面爬取信息. 源码 # coding=utf-8 import urllib import time import re import os #*******************************************…
#! /usr/bin/perl use strict; use Encode qw(encode decode); binmode(STDIN,":encoding(utf8)"); binmode(STDOUT,":encoding(utf8)"); binmode(STDERR,":encoding(utf8)"); use LWP::Simple; use LWP::UserAgent; use HTTP::Request; use HT…