HDUOJ题目HTML的爬取

封装好的exe/app的GitHub地址：https://github.com/Rhythmicc/HDUHTML 按照系统选择即可。

其实没什么难度，先爬下来一个题目的html，然后正则匹配一波塞个标签上去就好了。

下图运行效果：

下面是爬取下的HTML运行效果：

源码：

import re

import requests

from requests.exceptions import RequestException

url = "http://acm.hdu.edu.cn/showproblem.php?pid=" + input("HDU题号：")

headers = {

    'User-Agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/11.1.2 Safari/605.1.15"}

def get_one_page(url, headers):

    try:

        response = requests.get(url, headers=headers)

        if response.status_code == 200:

            response.encoding = 'utf-8'

            return response.text

        return None

    except RequestException:

        return None

html = get_one_page(url, headers=headers)

tmp=re.findall('<tr><td align=center>(.*?)</tr>',html,re.S)[0]

ans=re.findall('<h1 (.*?)<br><div class=panel_title(.*)',tmp,re.S)[0]

print('<center><h1 '+ans[0]+'</center><br><div class=panel_title'+ans[1])

ask=input('按任意键退出')

求求你们放过我的博客吧，转载要注明出处呀。。

HDUOJ题目HTML的爬取的更多相关文章

爬取杭电oj所有题目
杭电oj并没有反爬所以直接爬就好了直接贴源码(参数可改,循环次数可改,存储路径可改) import requests from bs4 import BeautifulSoup import ti ...
[python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈
我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的.首先通过这篇文章,你能学到以下几点: 1.可以了解Python简单爬取图片的一些思路和方法 ...
【图文详解】scrapy安装与真的快速上手——爬取豆瓣9分榜单
写在开头现在scrapy的安装教程都明显过时了,随便一搜都是要你安装一大堆的依赖,什么装python(如果别人连python都没装,为什么要学scrapy….)wisted, zope interf ...
Python爬取CSDN博客文章
0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.win ...
Python编写网页爬虫爬取oj上的代码信息
OJ升级,代码可能会丢失. 所以要事先备份. 一開始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启示和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 p ...
爬取软考试题系列之ip自动代理
马上5月份有个软件专业等级考试,以下简称软考,为了更好的复习备考,我打算抓取www.rkpass.com网上的软考试题. 以上为背景. 很久没有更新博客园的博客了,所以之前的代码没有及时的贴出来,咱们 ...
利用python的爬虫技术爬取百度贴吧的帖子
在爬取糗事百科的段子后,我又在知乎上找了一个爬取百度贴吧帖子的实例,为了巩固提升已掌握的爬虫知识,于是我打算自己也做一个. 实现目标:1,爬取楼主所发的帖子 2,显示所爬去的楼层以及帖子题目 3,将爬 ...
使用scrapy爬取豆瓣上面《战狼2》影评
这几天一直在学习scrapy框架,刚好学到了CrawlSpider和Rule的搭配使用,就想着要搞点事情练练手!!! 信息提取算了,由于爬虫运行了好几次,太过分了,被封IP了,就不具体分析了,附上& ...
Python3实现QQ机器人自动爬取百度文库的搜索结果并发送给好友（主要是爬虫）
一.效果如下: 二.运行环境: win10系统:python3:PyCharm 三.QQ机器人用的是qqbot模块用pip安装命令是: pip install qqbot (前提需要有request ...

随机推荐

[BZOJ2090/2089] [Poi2010]Monotonicity 2/Monotonicity 树状数组优化dp
这个dp乍看不科学,仔细一看更不科学,所以作为一个执着BOY,我决定要造数据卡死波兰人民,但是我造着造着就......证出来了......... 这个就是把 < > =分开讨论每次找到f[ ...
dhcp 和ntpdate时间同步
为了防止路由器的dhcp服务干扰实验,我们2台机器分别新加了1快网卡. vmnet4 dhcp安装 [root@ygy130 ~]# yum -y install dhcp 将配置文件放在/etc/d ...
[MySQL] explain执行计划解读
Explain语法 EXPLAIN SELECT …… 变体: 1. EXPLAIN EXTENDED SELECT …… 将执行计划“反编译”成SELECT语句,运行SHOW WARNINGS 可得 ...
设置edittext的样式
1.在res->drawable编写 <?xml version="1.0" encoding="utf-8"?> <shape xml ...
[06] JavaScript 类型
下面对知识点总结: 1.类型分类 a.原始类型:number, string, boolean, null, undefined b.对象类型:除了原始类型都是(例如:object,array, fu ...
springmvc4+hibernate4+activiti5.18(Maven)
项目下载地址: http://files.cnblogs.com/files/walk-the-Line/springmvc_activiti5.18_hibernate4.zip
centos7装机时更改网卡名为eth0操作
BZOJ 3994: [SDOI2015]约数个数和
3994: [SDOI2015]约数个数和 Time Limit: 20 Sec Memory Limit: 128 MBSubmit: 898 Solved: 619[Submit][Statu ...
51nod数字1的数量
这道题瞎jbyy了很久方法可能很奇怪... #include<cstdio> #include<cstring> #include<algorithm> #inc ...
[BZOJ2190&BZOJ2705]欧拉函数应用两例
欧拉函数phi[n]是表示1~n中与n互质的数个数. 可以用公式phi[n]=n*(1-1/p1)*(1-1/p2)*(1-1/p3)...*(1-1/pk)来表示.(p为n的质因子) 求phi[p] ...

HDUOJ题目HTML的爬取

HDUOJ题目HTML的爬取

HDUOJ题目HTML的爬取的更多相关文章

随机推荐

热门专题