python 爬poj.org的题目

主要是正则表达式不熟练，基础知识不扎实，函数也不怎么会用，下次再深入了解这3个函数吧。

主要是一个翻页的功能，其实，就是通过一个url替换一下数字，然后得到一个新的url，再找这个新的链接的信息。

 #-*-coding:utf8-*-

 import requests

 import re

 import sys

 reload(sys)

 sys.setdefaultencoding("utf-8")

 class spider(object):

     def __init__(self):

         print "开始爬虫"

     def getsource(self,url):

         html = requests.get(url)

         return html.text

     def changepage(self,url,total_page):

         now_page = 1

         page_group = []

         for i in range(now_page,total_page+1):

             link = re.sub('(\d+)','%s'%i,url,re.S)

             page_group.append(link)

         return page_group

 if __name__ =='__main__':

     problem = []

     url = 'http://poj.org/problemlist?volume=1'

     pojspider = spider()

     all_link = pojspider.changepage(url,10)

     for link in all_link:

         print link

         htm = pojspider.getsource(link)

         problem = re.findall('href=problem?(.*?)</a>',htm,re.S)

         for i in problem:

             if i[0]=='?':

                 print i

                 f = open('info.txt','a')

                 f.writelines(i+'\n')

                 f.close()

python 爬poj.org的题目的更多相关文章

Python学习-使用Python爬取陈奕迅新歌《我们》网易云热门评论
<后来的我们>上映也有好几天了,一直没有去看,前几天还爆出退票的事件,电影的主题曲由陈奕迅所唱,特地找了主题曲<我们>的MV看了一遍,还是那个感觉.那天偶然间看到Python中 ...
Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
python爬爬爬之单网页html页面爬取
python爬爬爬之单网页html页面爬取作者:vpoet mail:vpoet_sir@163.com 注:随意copy 不用告诉我 #coding:utf-8 import urllib2 Re ...
Python:爬取乌云厂商列表，使用BeautifulSoup解析
在SSS论坛看到有人写的Python爬取乌云厂商,想练一下手,就照着重新写了一遍原帖:http://bbs.sssie.com/thread-965-1-1.html #coding:utf- im ...
使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...
Python 爬取美团酒店信息
事由:近期和朋友聊天,聊到黄山酒店事情,需要了解一下黄山的酒店情况,然后就想着用python 爬一些数据出来,做个参考主要思路:通过查找,基本思路清晰,目标明确,仅仅爬取美团莫一地区的酒店信息,不过 ...
python爬取免费优质IP归属地查询接口
python爬取免费优质IP归属地查询接口具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就o ...

随机推荐

vue.js入门环境搭建
1.node.js环境(npm包管理器) 2.vue-cli手脚架构建工具 3.cnpm npm的淘宝镜像安装node.js 从node.js官网下载并安装node,安装过程一路“下一步”就可以安 ...
Angular JS 1.X 接口拿不到 http post 请求的数据
app上加上配置相关的代码即可 var myApp = angular.module('myApp',[]); myApp.config(function($httpProvider){ $httpP ...
java——java只有值传递
真的只有值传递! java中对象作为参数传递给一个方法,到底是值传递,还是引用传递? 答:值传递这里说的很清楚了:https://www.cnblogs.com/zhouxiansheng/p/39 ...
关于let 和 var 的作用域问题
直接来一个经典案例: // 1. 下面的结果是什么? 为什么? for (var i=0;i<5;i++){ setTimeout(function () { console.log(i) }, ...
2019.03.20 读书笔记 as is 以及重写隐式/显示
强转.as is 的用法强制转换类型有两种:子类转基类,重写隐式(implicit )\显示(explicit) 转换操作符 class myclass { private int value; p ...
CharacterController控制的物体移动
CharacterController控制的物体移动: public class playerMove : MonoBehaviour { public float Speed; private C ...
Murano Weekly Meeting 2015.09.29
Meeting time: 2015.September.29th 1:00~2:00 Chairperson: Serg Melikyan, PTL from Mirantis Meeting s ...
Java取得一个对象里所有get方法和set方法, 读取某个类下所有变量的名称
所有get方法和set方法public void getMethod(Object obj){ Class clazz=obj.getClass();//获得实体类名 Field[] fields = ...
spring注入bean的五种方式
1.属性注入 2.构造方法注入 3.静态工厂注入 package com.voole.factorybeans; import com.voole.beans.TestBean; public cla ...
快速排序c语言实现
#include <stdio.h> void quick_sort(int* a, int n) { ) return; int i,j,tmp,k; k = a[n/]; ,j = n ...

python 爬poj.org的题目

python 爬poj.org的题目的更多相关文章

随机推荐

热门专题