【学习笔记】Python 3.6模拟输入并爬取百度前10页密切相关链接

问题描述

通过模拟网页,实现百度搜索关键词,然后获得网页中链接的文本,与准备的文本进行比较,如果有相似之处则代表相关链接。

mechanicalsoup模块

MechanicalSoup无需图形界面环境下的浏览器开源项目,是一个基于极其流行而异常多能的 HTML 解析库 Beautiful Soup 建立的爬虫库。如果你的爬虫需要相当的简单,但是又要求检查一些选择框或者输入一些文字,而你又不想为这个任务单独写一个爬虫,那么这会是一个值得考虑的选择。

安装

pip install MechanicalSoup

需要BeautifulSoup和requests库的依赖。

解析百度网页源码

分析百度网页源代码,找到用来接收搜索关键字的表单和输入框。

搜索用的表单

程序实现

map函数

map函数第一个参数为函数,但不需要'()',第二个参数是迭代器对象,作用是对迭代器对象遍历使用第一个函数。

  1. #!/usr/bin/env python  

  2. #-*- coding:utf-8 -*-  

  3. """  

  4. @author:BanShaohuan 

  5. @file: Python 3.6模拟输入并爬取百度前10页密切相关链接 

  6. @time: 2018/06/09 

  7. @contact: banshaohuan@163.com 

  8. @software: PyCharm  

  9. """  

  10. import mechanicalsoup 


  11. # python小屋文章清单 

  12. with open('list.txt', encoding="utf8") as fp: 

  13. articles = fp.readlines() 

  14. #=> 使用map函数,去掉从文本当中读取时的字符,并放入元组中 

  15. articles = tuple(map(str.strip, articles)) 


  16. # 模拟打开指定网址,模拟输入并提交输入的关键字 

  17. browser = mechanicalsoup.StatefulBrowser() #=> 新建一个对象 

  18. browser.open(r'http://www.baidu.com')#=> 模拟打开百度 

  19. browser.select_form("#form")#=> 根据class指定一个表单 

  20. browser['wd'] = 'Python小屋'#=> 根据表单的id指定表单中输入的内容 

  21. browser.submit_selected()#=> 提交,模拟搜索 


  22. # 获取百度前十页 

  23. top10Urls = [] 

  24. #=> get_current_page得到本页网页,得到a标签对象 

  25. for link in browser.get_current_page().select('a'): 

  26. if link.text in tuple(map(str, range(2, 11))): 

  27. #=> link.attrs['href] a标签中的属性得到值 

  28. top10Urls.append(r'http://www.baidu.com'+ link.attrs['href']) 


  29. # 与微信公众号里的文章标题进行比对,如果非常相似就返回True 

  30. def check(text): 

  31. for article in articles: 

  32. # 使用切片,防止网站转发公众号文章时标题不完整 

  33. if article[2:-2].lower() in text.lower(): 

  34. return True 

  35. return False 


  36. # 只输出密切相关的链接 

  37. def getLinks(): 

  38. for link in browser.get_current_page().select('a'): 

  39. text = link.text 

  40. if 'Python小屋' in text or '董付国' in text or check(text): 

  41. print(link.text, '-->', link.attrs['href']) 


  42. # 输出第一页 

  43. getLinks() 

  44. # 处理后面的9页 

  45. for url in top10Urls: 

  46. browser.open(url) 

  47. getLinks() 

参考内容:Python 3.6模拟输入并爬取百度前10页密切相关链接

【学习笔记】Python 3.6模拟输入并爬取百度前10页密切相关链接的更多相关文章

  1. Python爬虫实战二之爬取百度贴吧帖子

    大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言 亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...

  2. 转 Python爬虫实战二之爬取百度贴吧帖子

    静觅 » Python爬虫实战二之爬取百度贴吧帖子 大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 ...

  3. Python 基础语法+简单地爬取百度贴吧内容

    Python笔记 1.Python3和Pycharm2018的安装 2.Python3基础语法 2.1.1.数据类型 2.1.1.1.数据类型:数字(整数和浮点数) 整数:int类型 浮点数:floa ...

  4. Python爬虫:通过关键字爬取百度图片

    使用工具:Python2.7 点我下载 scrapy框架 sublime text3 一.搭建python(Windows版本) 1.安装python2.7 ---然后在cmd当中输入python,界 ...

  5. 【python爬虫和正则表达式】爬取表格中的的二级链接

    开始进公司实习的一个任务是整理一个网页页面上二级链接的内容整理到EXCEL中,这项工作把我头都搞大了,整理了好几天,实习生就是端茶送水的.前段时间学了爬虫,于是我想能不能用python写一个爬虫一个个 ...

  6. python简单爬虫 用beautifulsoup爬取百度百科词条

    目标:爬取“湖南大学”百科词条并处理数据 需要获取的数据: 源代码: <div class="basic-info cmn-clearfix"> <dl clas ...

  7. Python爬虫之简单的爬取百度贴吧数据

    首先要使用的第类库有 urllib下的request  以及urllib下的parse  以及 time包  random包 之后我们定义一个名叫BaiduSpider类用来爬取信息 属性有 url: ...

  8. python制作的翻译器基于爬取百度翻译【笔记思路】

    #!/usr/bin/python # -*- coding: cp936 -*- ################################################### #基于百度翻 ...

  9. Python每日一练(3):爬取百度贴吧图片

    import requests,re #先把要访问URL和头部准备好 url = 'http://tieba.baidu.com/p/2166231880' head = { 'Accept': '* ...

随机推荐

  1. myeclipse实用快捷键

    笔者这里总结的是个人在使用myeclipse时常用的快捷操作,总结如下: 1.Ctrl +  /             :为选中的一段代码加上或去掉注释符 Ctrl + Shift + /   :( ...

  2. MPEG-PS封装格式

    据传输媒体的质量不同,MPEG-2中定义了两种复合信息流:传送流(TS:TransportStream)和节目流(PS:ProgramStream) PS文件分为3层:ps层(Program Stre ...

  3. 【总结整理】json数据请求简化版理解(祺哥的成果)

    在同源js目录下新建.txt文件 { "news":[ {"title":"审计管理","time":"201 ...

  4. Node 中的 stream (流)

    流的概念 流(stream)在 Node.js 中是处理流数据的抽象接口(abstract interface). stream 模块提供了基础的 API .使用这些 API 可以很容易地来构建实现流 ...

  5. 使用R语言绘制图表

    #========================================================#wolf moose graph version 20170616.R###Data ...

  6. ROS Learning-013 beginner_Tutorials (编程) 编写ROS服务版的Hello World程序(Python版)

    ROS Indigo beginner_Tutorials-12 编写ROS服务版的Hello World程序(Python版) 我使用的虚拟机软件:VMware Workstation 11 使用的 ...

  7. Ubuntu重启关机命令使用

    如果你想保持当前用户的登录而且使用root用户执行命令 可以输入:su root,输入密码 可以运行,shutdown 命令 重启命令: 1.reboot 2.shutdown -r now 立刻重启 ...

  8. MySQL安装与管理

    数据库服务器.数据库和表的关系 –所谓安装数据库服务器,只是在机器上装了一个数据库管理程序,这个管理程序可以管理多个数据库,一般开发人员会针对每一个应用创建一个数据库. –为保存应用中实体的数据,一般 ...

  9. STL 堆的使用

    本来是要写leetcode上的merge k sorted lists那道题目,这个题目我还是很熟悉的,毕竟是看过算法导论的人,但是写的过程中对堆的维护代码还是挺多的,所以我想到了STL中的堆.下面就 ...

  10. passing parameter to an event handler [stackoverflow]

    Q: i want to pass my List<string> as parameter using my event public event EventHandler _newFi ...