一.爬子域名

#!/usr/bin/python
# -*- coding: utf-8 -*- import requests
import re
import sys
def get(domain):
url = 'http://i.links.cn/subdomain/'
# payload = ("domain=ycxy.com&b2=1&b3=1&b4=1")
payload = ("domain={domain}&b2=1&b3=1&b4=1".format(domain=domain))
r = requests.post(url=url,params=payload)
con = r.text
a =re.compile('value="(.+?)"><input') #正则匹配引号里的任何字符,非贪婪
result = a.findall(con)
for i in result:
print i if __name__ == '__main__':
command =sys.argv[1:] #取所有后面的参数
f ="".join(command) #用空格连接
get(f)

二.爬I春秋精华页标题

#!/usr/bin/python
#coding=GBK import requests
import re
def gethtml():
url = 'https://bbs.ichunqiu.com/portal.php'
headers = {
'Host': 'bbs.ichunqiu.com',
'Connection': 'close',
'Cache-Control': 'max-age=0',
'Upgrade-Insecure-Requests': '1',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Language': 'zh-CN,zh;q=0.8',
}
r = requests.get(url=url,headers=headers)
html = r.content
title = re.findall(r'target="blank" class="ui_colorG" style="color: #555555;">(.*?)</a></h3>', html)
for i in title:
print i # return html
s =gethtml() # a =re.findall(r'target="blank" class="ui_colorG" style="color: #555555;">(.*?)</a></h3>',s)
# for i in a:
# print(i)

三.爬妹子图片

#!/usr/bin/python
# -*- coding: utf-8 -*- import requests,re,sys
import urllib def getimg():
for x in range(1,298):
url = 'http://www.7160.com/xingganmeinv/list_3_'+str(x)+'.html'
r =requests.get(url=url)
con = r.content
# result = re.findall(r'<span class="bom_z">(.*?)</span></a></li>',con)
tu = re.findall(r'<img src="(.+?)" alt="',con)
# for i in result:
# print i
# for j in tu:
# print j
xx = 0
for n in tu:
tu.append(n)
urllib.urlretrieve(n,'d:/meinv/%s.jpg'%xx)
xx=xx+1 if __name__ == '__main__':
getimg()

三.百度URL采集

#!/usr/bin/python
# -*- coding: utf-8 -*- import requests
from bs4 import BeautifulSoup
import sys
import urllib3 urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning) headers={ "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:48.0) Gecko/20100101 Firefox/48.0", 'Accept-Language' : 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3', 'Connection' : 'keep-alive', 'Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'X-Forwarded-For':'120.239.169.74'
} def url(key): for i in range(0,10,10):
bd_search="https://www.baidu.com/s?word=%s=&pn=%s"% (key,str(i))
# bd_search = "https://bbs.ichunqiu.com/thread-40592-1-1.html"
r =requests.get(bd_search,headers=headers,verify=False,timeout=2)
s= r.text
# result = re.findall(r'.t > a',s)
# print s.encode('utf-8')
soup=BeautifulSoup(s,"lxml") url_list=soup.select(".t > a") #对请求回来的内容进行查找,找出a标签里(URL链接)
# print url_list
for url in url_list:
real_url=url['href'] #遍历循环,并且打印
try:
r=requests.get(real_url,headers=headers,verify=False,timeout=2) #再次请求 print(r.url) #打印出URL链接
print key
except Exception as e: print(e)
# url('sss')
if __name__ == '__main__':
command = sys.argv[1:]
canshu = "".join(command)#加上参数 url(canshu)

python练习---小脚本的更多相关文章

  1. Python刷票小脚本——网络人气奖?不好意思,我要了

    零.前言 最近参加微软的kinect大赛,报名之后发现有一个网络投票,票数最多的项目可以得到网络人气奖. 这种事,必然是要搞一搞! 说干就干. 说明:由于本人过于懒惰,所以就不截图了,让大家失望了! ...

  2. 分享一个刷网页PV的python小脚本

    下面分享一个小脚本,用来刷网页PV. [root@huanqiu ~]# cat www.py #!/usr/bin/python# coding: UTF-8import webbrowser as ...

  3. 分享几个python小脚本

    by 梁凯 今天我想给大家分享几个python脚本,分别是: 1.公司访问外网认证脚本(最初有同事写过,我优化了一下). 2.统计周报系统所有同事的最近一篇周报. 3.统计测试技术分享里指定一个月所有 ...

  4. python 小脚本升级-- 钉钉群聊天机器人

    一则小脚本(工作中用) 在这篇文章中写的监控的脚本,发送监控的时候 是利用的邮箱,其实在实际,邮箱查收有着不方便性,于是乎升级, 我们工作中,经常用钉钉,那么如果要是能用到钉钉多好,这样我们的监控成功 ...

  5. python xss相关的编码解码小脚本

    1.功能分析: 实际工作中经常会遇到alert()之类的函数被防火墙过滤,而把alert()转化为ascii码放到String.fromCharCode()中就可以绕过,之前会一个一个查ascii表, ...

  6. Python简单的CTF题目hash碰撞小脚本

    Python简单的CTF题目hash碰撞小脚本 import hashlib for num in range(10000,9999999999): res = hashlib.sha1(str(nu ...

  7. Python脚本生成可执行文件&(恋爱小脚本)

    Python脚本生成可执行文件&(恋爱小脚本) 参考文献: http://c.biancheng.net/view/2690.html; https://blog.csdn.net/qq_39 ...

  8. 用Python实现一个爬取XX大学电费通知的小脚本

    内容简要 1分析网站 2简单爬取 3进阶自定义爬取 4保存进数据库 学校基础设施太差,宿舍电量过低提醒虽然贴在楼下,但是作为低头一族,经常忘记看提醒导致宿舍酣战时突然黑屏,为了避免这种尴尬的场景以及强 ...

  9. python小脚本(18-11.10)-修改excle后批量生成,作用:导入数据时,系统做了不能导入重复数据时的限制时使用 -本来是小白,大神勿扰

    from testcase.test_mokuai.operation_excle import OperationExcleimport shutil class test_daoru(): #一个 ...

随机推荐

  1. @PostConstruct与@PreDestroy讲解及实例

    关于在spring  容器初始化 bean 和销毁前所做的操作定义方式有三种: 第一种:通过@PostConstruct 和 @PreDestroy 方法 实现初始化后和销毁bean之前进行的操作 第 ...

  2. 关于tomcat无法启动问题详解

    通常情况tomcat无法启动,有这么几个原因?(1)代码有问题; (2)tomcat有问题; (3)端口被占; (4)动态web项目为3.0: (5)java环境运行内存不足; 这是比较常见的问题.解 ...

  3. python文件操作指令

    原文地址:http://www.cnblogs.com/rollenholt/archive/2012/04/23/2466179.html 常用的文件操作指令: python中对文件.文件夹(文件操 ...

  4. .NET完全手动搭建三层B/S架构

    简介:三层架构(3-tier application) 通常意义上的三层架构就是将整个业务应用划分为:表现层(WebUI).业务逻辑层(BusinessLogicLayer).数据访问层(DataAc ...

  5. mail发邮件报错 "send-mail: fatal: parameter inet_interfaces: no local interface found for ::1"

      发送邮件: [root@itfswelog123]# echo '测试邮件标题' | mail -s "数据库挂啦.挂啦.起床啦 "   xx@163.com 出现异常: [r ...

  6. 解决java log4j 配置log4jCaused by: java.lang.ClassNotFoundException: org.apache.logging.log4j.LogManager

    前提安装http://mirror.bit.edu.cn/apache/logging/log4j/2.11.2/apache-log4j-2.11.2-bin.zip Buildpath 配置add ...

  7. SDOI2018 一轮培训划水祭

    \(\mathcal{Day \ \ -3}\) 作为前言来讲,我对于过几天的省选培训还是很期待的--就算我的实力根本不够,名额是学校推荐的,但是能见到\(\mathcal{cwbc}\)以及一众大佬 ...

  8. POJ 1384 Intervals (区间差分约束,根据不等式建图,然后跑spfa)

    传送门: http://acm.hdu.edu.cn/showproblem.php?pid=1384 Intervals Time Limit: 10000/5000 MS (Java/Others ...

  9. 404 Note Found队-现场编程

    目录 组员职责分工 github 的提交日志截图 程序运行截图 程序运行环境 GUI界面 基础功能实现 运行视频 LCG算法 过滤(降权)算法 算法思路 红黑树 附加功能一 背景 实现 附加功能二(迭 ...

  10. java Activiti6 工作流引擎 websocket 即时聊天 SSM源码 支持手机即时通讯聊天

    即时通讯:支持好友,群组,发图片.文件,消息声音提醒,离线消息,保留聊天记录 (即时聊天功能支持手机端,详情下面有截图) 工作流模块---------------------------------- ...