第一篇 - bsp抓取python中文开发者社区中的所有高级教程

工具：python3.6 pycharm

库：bs4 + urllib

第一步：读取html源码

from bs4 import BeautifulSoup
import urllib.request#导入urllib库
url = 'https://www.p y t hontab.com/html/pythonhexinbiancheng/index.html'#获取网页链接
request = urllib.request.urlopen(url)
html = request.read()#读取网页源代码

第二步：获取内容和标题

soup = BeautifulSoup(html,'html.parser')#解析html
title_links = soup.select('#catlist > li > a')#找到标题与链接
source_list = []#存储标题与链接的字典
for title_link in title_links:
    data = {
        'title' : title_link.get_text(),
        'link' : title_link.get('href')
    }
    source_list.append(data)

第三步：在当前目录下新建一个lesson的文件夹，将文件存储在此文件夹下

for dic in source_list:#遍历每一个字典
    request = urllib.request.urlopen(dic["link"])
    html = request.read()
    soup = BeautifulSoup(html, 'html.parser')
    text_p = soup.select('#Article > div.content > p')#拿到p标签下的数据
    text = []#存储文章内容
    for a in text_p:
        text.append(a.get_text().encode('utf-8'))#取出p标签下的文本部分，即文章的内容
    name = dic["title"]
    with open('lesson/%s.txt' % name, 'wb') as f:#将文章写入文件
        for line in text:
            f.write(line)

数据爬取完毕。

注：以上完成一个页面的抓取，若想多抓取页面的话，可用以下代码：

from bs4 import BeautifulSoup
import urllib.request#导入urllib库
url_list = ['https://www.p y t hontab.com/html/pythonhexinbiancheng/index.html']#获取网页链接
for i in range(2,20):
    url = 'https://www.py tho ntab.com/html/pythonhexinbiancheng/%s.html' % i
    url_list.append(url)
for url in url_list:
    request = urllib.request.urlopen(url)
    html = request.read()#读取网页源代码
    soup = BeautifulSoup(html,'html.parser')#解析html
    title_links = soup.select('#catlist > li > a')#找到标题与链接
    source_list = []#存储标题与链接的字典
    for title_link in title_links:
        data = {
            'title' : title_link.get_text(),
            'link' : title_link.get('href')
        }
        source_list.append(data)
 
    for dic in source_list:#遍历每一个字典
        request = urllib.request.urlopen(dic["link"])
        html = request.read()
        soup = BeautifulSoup(html, 'html.parser')
        text_p = soup.select('#Article > div.content > p')#拿到p标签下的数据
        text = []#存储文章内容
        for a in text_p:
            text.append(a.get_text().encode('utf-8'))#取出p标签下的文本部分，即文章的内容
        name = dic["title"]
        directory = '%s.txt' % name
        dir = directory.replace('/','_').replace('*','@').replace('"','o').replace('?','w').replace(':','m')
        with open('lesson/'+dir, 'wb') as f:#将文章写入文件
            for line in text:
                f.write(line)

第一篇 - bsp抓取python中文开发者社区中的所有高级教程的更多相关文章

「拉勾网」薪资调查的小爬虫，并将抓取结果保存到excel中
学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫. 第一步:分析网站的请求过程我们在查看拉勾网上的招聘信息的时候 ...
Windows环境中，通过Charles工具，抓取安卓手机、苹果手机中APP应用的http、https请求包信息
Windows环境中,通过Charles工具,抓取安卓手机.苹果手机中APP应用的http.https请求包信息1.抓取安卓手机中APP应用的http请求包信息1)在电脑上操作,查看Windows机器 ...
go, iris , nuxt, 服务端渲染等技术在helloworld开发者社区中的应用与实践
大家好,helloworld.net 上线已经有近半年的时间了,转眼过的好快,在这半年的时间里,迭代了近10多个版本,优化了很多的体验,交互上的不足之处,同时也上线了我们的安卓 app, 苹果的因为还 ...
(第一篇)记一次python分布式web开发（利用docker）
作者:落阳日期:2020-12-23 在一次项目开发中,决定使用docker+nginx+flask+mysql的技术栈来开发,用此系列文章记录开发的过程. 系列文章,当前为第一篇,记录一次pyth ...
开博客这么久以来，第一篇技术文章，python与c的接口对接
在博客园开博客已经有了蛮长时间了,但是从来只是看别人的文章,自己却从未写过一篇技术文章,深表惭愧.内心还是希望能够给大家提供一些帮助的,希望这第一篇技术博客,能够给大家一些帮助.闲话少叙,开始正文. ...
scrapy抓取的中文结果乱码解决办法
使用scrapy抓取的结果,中文默认是Unicode,无法显示中文. 中文默认是Unicode,如: \u5317\u4eac\u5927\u5b66 在setting文件中设置: FEED_EXPO ...
微信运动数据抓取(Python)
"微信运动"能够向朋友分享一个包含有运动数据的网页,网页中就有我们需要的数据.url类似于:http://hw.weixin.qq.com/steprank/step/person ...
Python爬虫抓取 python tutorial中文版，保存为word
看到了中文版的python tutorial,发现是网页版的,刚好最近在学习爬虫,想着不如抓取到本地首先是网页的内容查看网页源码后发现可以使用BeautifulSoup来获取文档的标题和内容,并保 ...
php抓取远程数据显示在下拉列表中
前言:周五10月20日的时候,经理让做一个插件,使用的thinkphp做这个demo 使用CURL抓取远程数据时如果出现乱码问题可以加入 header("content-type:text/ ...

随机推荐

class面向对象-1
一.基本定义 class cl(object): def __init(self,var) self.var=var def func(self,i) print('%s is in %s'%(i,s ...
jmeter元素
1 test plan functional test mode 选择项:如果勾选 jmeter 会记录从服务器返回的响应数据,如果监视器-选择了文件-则会保存到对应文件测试jmeter是否配置正确 ...
转载 -- CSS3 中关于 select 下拉列表的样式
截图效果:
提示“Web打印服务CLodop未安装启动”的各种原因和解决方法
旧版提示:"CLodop云打印服务(localhost本地)未安装启动!"新版提示:"Web打印服务CLodop未安装启动,点击这里下载执行安装(若此前已安装过,可点这里 ...
c++ 动态生成string类型的数组
定义一个字符串指针,将其初始化为空 char *a=NULL 然后输入输出 cin>>a cout<<a 编译无误,但执行会遇见错误当为*a动态分配存储空间时,程序执行正常 ...
hdu1875（最小生成树prime）
思路:一开始想用贪心来着,发现贪心有缺陷,然后就用了最小生成树来写,这里用了prime算法,首先,先建个图,两点之间的边的权值就是两个点的距离,然后直接prime模板代码 #include<i ...
把当前ubuntu系统做成镜像
把当前ubuntu系统做成镜像 2018年06月19日 15:24:51 还需要再学习一个阅读数:9720 原文地址: http://community.bwbot.org/topic/167/%E ...
Civil 3D 二次开发事务
事务,一般是指要做的或所做的事情.在计算机术语中是指访问并可能更新数据库中各种数据项的一个程序执行单元(unit). 对于初学者来说,从字面上难以理解什么是事务.下面我试着通过讲述事务的作用及特性来帮 ...
了解AutoCAD对象层次结构 —— 6 ——块表记录
块表记录是包裹实体对象的最后一层包装了,接下来让我们继续利用MgdDbg工具查看上一小节创建的块定义内的对象有哪些. 操作步骤如下:选择块表记录TestBlock,在右侧列表中找到“Entities ...
Eclipse环境配置与快捷命令
1.VS.Chrome.Eclipse调试命令对比: VS: F5: 继续运行 F10: 单步执行 F11: 进入函数内部 Shift + F11: 由函数内部返回调用处 Chrome: F8: 继续 ...

第一篇 - bsp抓取python中文开发者社区中的所有高级教程

第一篇 - bsp抓取python中文开发者社区中的所有高级教程的更多相关文章

随机推荐

热门专题