python_爬百度百科词条

如何爬取？
　　明确目标：爬取百度百科，定初始百度词条：python，初始URL：http://baike.baidu.com/item/Python，爬取数据量为1000条，值爬取简介，标题，和简介中url
　　怎么爬： 利用谷歌开发工具，分析html结构，分析查询层次与方法
　　怎么写： 面向过程和面向对象两个方向
环境声明：
　　python 3.50 
　　requests 库
　　beautifulsoup 库
使用面向过程的方式爬取：

#!/usr/bin/python3

import re

import bs4

import requests

from bs4 import BeautifulSoup

# 从百度百科爬取数据为三个字段，标题，简介，关联URL

# 给定初始百度词条：python，初始URL：http://baike.baidu.com/item/Python，爬取数据量为1000条

# 那就先有4个模块，URL管理器，下载器，解析器，数据展示

# 通过requests、BeautifulSoup两个库，实现下载器和解析器,通过两个集合数据类型，实现URL管理器

# URL拼接 起始url ：http://baike.baidu.com

# new_urls = set()

# old_urls = set()

# 已经在old_urls不再爬取，不在添加到new_urls中并从其中返回一个URL

def url_manager(links):

    if links is not None:

        # 把重复的url去掉

        links = links.difference(old_urls)

        if links is not None:

            for i in links:

                new_urls.add(i)

def download_html(url):

    headers = {

              # 'Host': 'static.tieba.baidu.com',

              'Referer': 'http://baike.baidu.com/item/Python',

              'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'}

    # 返回下载页面

    try:

        response = requests.get(url, headers=headers)

        response.raise_for_status()

        response.encoding = response.apparent_encoding

        return response.text

    except:

        return None

    pass

def analysis(page_html, one_url):

    # 返回标题，简介，关联URL

    # temp = title + introduction + page_url

    # links = 关联URL

    links = []

    temp_url = 'http://baike.baidu.com'

    soup = BeautifulSoup(page_html, 'html.parser')

    # 获取标题

    title = soup.find('dd', class_="lemmaWgt-lemmaTitle-title").find('h1').get_text()

    # print(title)

    # 获取简介

    introduction = soup.find('div', class_="lemma-summary").get_text().replace('\nPython[1]\xa0\n（英国发音：/ˈpaɪθən/ 美国发音：/ˈpaɪθɑːn/）,', '')

    # print(introduction)

    # 获得关联URL，只爬取简介中关联的URL

    links_labl = soup.find('div', class_="lemma-summary").find_all('a', href=re.compile("^/item/"))

    # links_text = soup.find('div', class_="lemma-summary").find_all('a', href=re.compile("^/item/"))

    # for i in links_text:

    #     print(i.get_text())

    for link in links_labl:

        new_url = temp_url + link['href']

        links.append(new_url)

    temp = one_url + ' : ' + title + '_' + introduction

    message.append(temp)

    if links is not None:

        links = set(links)

    else:

        links = None

    return links

def out_data():

    for i in message:

        print(i)

    pass

if __name__ == '__main__':

    new_urls = set()

    old_urls = set()

    message = []

    start_url = 'http://baike.baidu.com/item/Python'

    # 起始页

    page_html = download_html(start_url)

    links = analysis(page_html, start_url)

    url_manager(links)

    # 起始页简介中URL

    for i in range(100):

        url = new_urls.pop()

        try:

            page_html = download_html(url)

            if not page_html:

                continue

            urls = analysis(page_html, url)

            url_manager(urls)

        except:

            print('爬取失败')

        old_urls.add(url)

    # 依次打印爬取到的值

    out_data()

python_爬百度百科词条的更多相关文章

Python 爬虫实例(爬百度百科词条)
爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入 ...
python 使用selenium模块实现自动搜索百度百科词条（模拟人工搜索）
目标:模拟人工搜索百度百科词条,爬取相关信息,自动删除上一个关键词,输入新关键词,继续搜索,直到循环结束. 代码: from selenium import webdriver from seleni ...
python简单爬虫用beautifulsoup爬取百度百科词条
目标:爬取“湖南大学”百科词条并处理数据需要获取的数据: 源代码: <div class="basic-info cmn-clearfix"> <dl clas ...
java 如何爬取百度百科词条内容(java如何使用webmagic爬取百度词条)
这是老师所布置的作业说一下我这里的爬去并非能把百度词条上的内容一字不漏的取下来(而是它分享链接的一个主要内容概括...)(他的主要内容我爬不到也不想去研究大家有好办法可以call me) 例如互 ...
R语言爬虫：爬取百度百科词条
抓取目标:抓取花儿与少年的百度百科中成员信息 url <- "http://baike.baidu.com/item/%E8%8A%B1%E5%84%BF%E4%B8%8E%E5%B0 ...
莫烦python课程里面的bug修复;课程爬虫小练习爬百度百科
我今天弄了一下午修改这个代码,最后还是弄好了.原因是正则表达式的筛选不够准确,有时候是会带http:baidu这些东西的.所以需要一个正则表达式的断言,然后还有一点是如果his里面只有一个元素就不要再 ...
Python3爬取百度百科（配合PHP）
用PHP写了一个网页,可以获取百度百科词条.源代码已分享至github:https://github.com/1049451037/xiaobaike/tree/master 那么通过Python来爬 ...
python简单爬虫爬取百度百科python词条网页
目标分析:目标:百度百科python词条相关词条网页 - 标题和简介入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL:/ ...
Python开发简单爬虫（二）---爬取百度百科页面数据
一.开发爬虫的步骤 1.确定目标抓取策略: 打开目标页面,通过右键审查元素确定网页的url格式.数据格式.和网页编码形式. ①先看url的格式, F12观察一下链接的形式;② 再看目标文本信息的标签格 ...

随机推荐

Spark 学习笔记大纲
Spark 内核第28课:Spark天堂之门解密 (点击进入博客)从 SparkContext 创建3大核心对象开始到注册给 Master 这个过程中的源码鉴赏第29课:Master HA彻底解密 ...
Windows数据库编程接口简介
数据库是计算机中一种专门管理数据资源的系统,目前几乎所有软件都需要与数据库打交道(包括操作系统,比如Windows上的注册表其实也是一种数据库),有些软件更是以数据库为核心因此掌握数据库系统的使用方法 ...
MySQL并发复制系列二：多线程复制 2016
并发复制(Parallel Replication) 系列二: Enhanced Multi-threaded Slaves作者:沃趣科技MySQL数据库工程师麻鹏飞首先梳理下传统MySQL/M ...
java 重定向和转发的区别
注:原创链接 http://www.cnblogs.com/shenliang123/archive/2011/10/27/2226892.html response.sendredirect(&q ...
cookie记住浏览位置
/*返回上次浏览位置*/ $(function () { var str = window.location.href; str = str.substring(str.lastIndexOf(&qu ...
mongodb 聚合查询
操作符介绍: $project:包含.排除.重命名和显示字段 $match:查询,需要同find()一样的参数 $limit:限制结果数量 $skip:忽略结果的数量 $sort:按照给定的字段排序结 ...
bzoj:3085: 反质数加强版SAPGAP
Description 先解释一下SAPGAP=Super AntiPrime, Greatest AntiPrime(真不是网络流),于是你就应该知道本题是一个关于反质数(Antiprime)的问题 ...
bzoj:3994:vijos1949: [SDOI2015]约数个数和
Description 设d(x)为x的约数个数,给定N.M,求 Input 输入文件包含多组测试数据. 第一行,一个整数T,表示测试数据的组数. 接下来的T行,每行两个整数N.M. O ...
[POJ2243]考研路茫茫——单词情结
又是AC自动机上用矩乘优化DP= = 其实和上一题基本一样...补集转化思想.. 只是要多弄一个小矩阵求(26^1+26^2+....+26^L),并且也要求f的总和(因为是长度<=L) 直接调 ...
[bzoj4411] [Usaco2016 Feb]Load balancing
先离散化一下(也可以不用枚举横坐标,用线段树维护两边纵坐标上的节点数. 每次在线段树上二分...(感觉似乎树状数组也行? #include<cstdio> #include<ios ...

python_爬百度百科词条

python_爬百度百科词条的更多相关文章

随机推荐

热门专题