一.爬子域名

  1. #!/usr/bin/python
  2. # -*- coding: utf-8 -*-
  3. import requests
  4. import re
  5. import sys
  6. def get(domain):
  7. url = 'http://i.links.cn/subdomain/'
  8. # payload = ("domain=ycxy.com&b2=1&b3=1&b4=1")
  9. payload = ("domain={domain}&b2=1&b3=1&b4=1".format(domain=domain))
  10. r = requests.post(url=url,params=payload)
  11. con = r.text
  12. a =re.compile('value="(.+?)"><input') #正则匹配引号里的任何字符,非贪婪
  13. result = a.findall(con)
  14. for i in result:
  15. print i
  16. if __name__ == '__main__':
  17. command =sys.argv[1:] #取所有后面的参数
  18. f ="".join(command) #用空格连接
  19. get(f)

二.爬I春秋精华页标题

  1. #!/usr/bin/python
  2. #coding=GBK
  3. import requests
  4. import re
  5. def gethtml():
  6. url = 'https://bbs.ichunqiu.com/portal.php'
  7. headers = {
  8. 'Host': 'bbs.ichunqiu.com',
  9. 'Connection': 'close',
  10. 'Cache-Control': 'max-age=0',
  11. 'Upgrade-Insecure-Requests': '1',
  12. 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',
  13. 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
  14. 'Accept-Language': 'zh-CN,zh;q=0.8',
  15. }
  16. r = requests.get(url=url,headers=headers)
  17. html = r.content
  18. title = re.findall(r'target="blank" class="ui_colorG" style="color: #555555;">(.*?)</a></h3>', html)
  19. for i in title:
  20. print i
  21. # return html
  22. s =gethtml()
  23. # a =re.findall(r'target="blank" class="ui_colorG" style="color: #555555;">(.*?)</a></h3>',s)
  24. # for i in a:
  25. # print(i)

三.爬妹子图片

  1. #!/usr/bin/python
  2. # -*- coding: utf-8 -*-
  3. import requests,re,sys
  4. import urllib
  5. def getimg():
  6. for x in range(1,298):
  7. url = 'http://www.7160.com/xingganmeinv/list_3_'+str(x)+'.html'
  8. r =requests.get(url=url)
  9. con = r.content
  10. # result = re.findall(r'<span class="bom_z">(.*?)</span></a></li>',con)
  11. tu = re.findall(r'<img src="(.+?)" alt="',con)
  12. # for i in result:
  13. # print i
  14. # for j in tu:
  15. # print j
  16. xx = 0
  17. for n in tu:
  18. tu.append(n)
  19. urllib.urlretrieve(n,'d:/meinv/%s.jpg'%xx)
  20. xx=xx+1
  21. if __name__ == '__main__':
  22. getimg()

三.百度URL采集

  1. #!/usr/bin/python
  2. # -*- coding: utf-8 -*-
  3. import requests
  4. from bs4 import BeautifulSoup
  5. import sys
  6. import urllib3
  7. urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
  8. headers={
  9. "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:48.0) Gecko/20100101 Firefox/48.0",
  10. 'Accept-Language' : 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',
  11. 'Connection' : 'keep-alive',
  12. 'Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  13. 'X-Forwarded-For':'120.239.169.74'
  14. }
  15. def url(key):
  16. for i in range(0,10,10):
  17. bd_search="https://www.baidu.com/s?word=%s=&pn=%s"% (key,str(i))
  18. # bd_search = "https://bbs.ichunqiu.com/thread-40592-1-1.html"
  19. r =requests.get(bd_search,headers=headers,verify=False,timeout=2)
  20. s= r.text
  21. # result = re.findall(r'.t > a',s)
  22. # print s.encode('utf-8')
  23. soup=BeautifulSoup(s,"lxml")
  24. url_list=soup.select(".t > a") #对请求回来的内容进行查找,找出a标签里(URL链接)
  25. # print url_list
  26. for url in url_list:
  27. real_url=url['href'] #遍历循环,并且打印
  28. try:
  29. r=requests.get(real_url,headers=headers,verify=False,timeout=2) #再次请求
  30. print(r.url) #打印出URL链接
  31. print key
  32. except Exception as e:
  33. print(e)
  34. # url('sss')
  35. if __name__ == '__main__':
  36. command = sys.argv[1:]
  37. canshu = "".join(command)#加上参数
  38. url(canshu)

python练习---小脚本的更多相关文章

  1. Python刷票小脚本——网络人气奖?不好意思,我要了

    零.前言 最近参加微软的kinect大赛,报名之后发现有一个网络投票,票数最多的项目可以得到网络人气奖. 这种事,必然是要搞一搞! 说干就干. 说明:由于本人过于懒惰,所以就不截图了,让大家失望了! ...

  2. 分享一个刷网页PV的python小脚本

    下面分享一个小脚本,用来刷网页PV. [root@huanqiu ~]# cat www.py #!/usr/bin/python# coding: UTF-8import webbrowser as ...

  3. 分享几个python小脚本

    by 梁凯 今天我想给大家分享几个python脚本,分别是: 1.公司访问外网认证脚本(最初有同事写过,我优化了一下). 2.统计周报系统所有同事的最近一篇周报. 3.统计测试技术分享里指定一个月所有 ...

  4. python 小脚本升级-- 钉钉群聊天机器人

    一则小脚本(工作中用) 在这篇文章中写的监控的脚本,发送监控的时候 是利用的邮箱,其实在实际,邮箱查收有着不方便性,于是乎升级, 我们工作中,经常用钉钉,那么如果要是能用到钉钉多好,这样我们的监控成功 ...

  5. python xss相关的编码解码小脚本

    1.功能分析: 实际工作中经常会遇到alert()之类的函数被防火墙过滤,而把alert()转化为ascii码放到String.fromCharCode()中就可以绕过,之前会一个一个查ascii表, ...

  6. Python简单的CTF题目hash碰撞小脚本

    Python简单的CTF题目hash碰撞小脚本 import hashlib for num in range(10000,9999999999): res = hashlib.sha1(str(nu ...

  7. Python脚本生成可执行文件&(恋爱小脚本)

    Python脚本生成可执行文件&(恋爱小脚本) 参考文献: http://c.biancheng.net/view/2690.html; https://blog.csdn.net/qq_39 ...

  8. 用Python实现一个爬取XX大学电费通知的小脚本

    内容简要 1分析网站 2简单爬取 3进阶自定义爬取 4保存进数据库 学校基础设施太差,宿舍电量过低提醒虽然贴在楼下,但是作为低头一族,经常忘记看提醒导致宿舍酣战时突然黑屏,为了避免这种尴尬的场景以及强 ...

  9. python小脚本(18-11.10)-修改excle后批量生成,作用:导入数据时,系统做了不能导入重复数据时的限制时使用 -本来是小白,大神勿扰

    from testcase.test_mokuai.operation_excle import OperationExcleimport shutil class test_daoru(): #一个 ...

随机推荐

  1. redis集群环境搭建的错误

    安装redis集群需要版本号在3.0以上 redis-cluster安装前需要安装ruby环境 搭建集群需要使用到官方提供的ruby脚本. 需要安装ruby的环境. yum -y install ru ...

  2. OpenID Connect Core 1.0(八)从第三方发起登录

    在某些情况下,登录流程由一个OpenID提供者或其他方发起,而不是依赖方(RP).在这种情况下,发起者重定向到RP在发起登录终结点,RP的请求验证请求发送到指定的OP.这个发起登录终结点可以在RP深度 ...

  3. mac终端 login: login: Could not determine audit condition

    手速太快,误操作:sudo chmod -R 777 / 这会导致终端命令用不了了,再次打开终端提示: Last login: Fri Jul 13 10:09:35 on ttys001 login ...

  4. Python实现创建字典

    编写一个名为 make_album() 的函数,它创建一个描述音乐专辑的字典.1.这个函数应接受歌手的名字和专辑名,并返回一个包含这两项信息的字典.使用这个函数创建三个表示不同专辑的字典,并打印每个返 ...

  5. Ubuntu 16 Java Develop环境快速搭建

    安装JDK 1. 更新apt-get: $ sudo apt-get update 2. 安装jdk: $ sudo apt-get install openjdk-8-jdk 部分eclipse现只 ...

  6. echarts动态加载数据无法更新series 无法更新图表

    最近遇到一个Echarts图表无法动态更新数据的问题 最初我在option中设置series的值为一个数组,想着通过修改数组来动态更新图表,但是没变 化,后来发觉是因为图表数据会和之前的合并 看官方的 ...

  7. Rabbitmq(一)

              ClientA,ClientB: 为Producer,数据的发送方. Client1,Client2,Client3:为Consumer,数据的接收方. Exchange:消息交换 ...

  8. Role Helper

    using System; using Microsoft.Xrm.Sdk; using Microsoft.Crm.Sdk.Messages; using System.Collections.Ge ...

  9. 嵌入式Linux系统移植——uboot常用命令

    flash的一般分区: 其它数据 环境变量 可执行程序.如bootloader print(可缩写为:pri):打印查看uboot这个软件中集成的环境变量setenv.saveenv:设置.保存环境变 ...

  10. 坚果云WebDav示例

    坚果云WebDav示例 最近看到坚果云有一个WebDAV应用,一时不解这是什么功能,了解后做了一个示例: WebDAV是一种基于HTTP1.1协议的通信协议.它扩展了HTTP1.1,在GET.POST ...