伯乐在线资讯URL

伯乐资讯URL

# encoding: utf-8

import requests

from bs4 import BeautifulSoup

import csv

import time

base_url = 'http://top.jobbole.com/page/'

session = requests.session()

inum=0

def zhuqu(page):

    url_list = []

    url = base_url+str(page)+"/"

    # print(url)

    res = session.get(url=url)

    soup = BeautifulSoup(res.text, 'html.parser')

    post_nodes = soup.select(".list-posts .media .media-body h3 a")

    for post_node in post_nodes:

        post_url = post_node.get("href")

        url_list.append([post_url])

        # i+=1

        # print(i,post_url)

    print(url_list)

    return url_list

# zhuqu(2)

with open("伯乐资讯", 'w', newline="", encoding='utf-8') as csv_out:

        writer = csv.writer(csv_out)

        for i in range(355):

            if i%10==0:

                time.sleep(1)

            row =zhuqu(i)

            if not row:

                print("有错误")

                continue

            else:

                writer.writerows(row)

                print(inum,"成功")

                inum+=1

代码如上

问题：把广告也抓进来了，不知道怎么用css选择来避免抓取这种情况，懂的朋友给提示下。

伯乐在线资讯URL的更多相关文章

伯乐在线文章URL
一段代码,可以跑出所有文章的url # encoding: utf-8 import requests from bs4 import BeautifulSoup base_url = 'http:/ ...
【伯乐在线】最值得阅读学习的 10 个 C 语言开源项目代码
原文出处: 平凡之路的博客欢迎分享原创到伯乐头条伯乐在线注:『阅读优秀代码是提高开发人员修为的一种捷径』http://t.cn/S4RGEz .之前@伯乐头条曾发过一条微博:『C 语言进阶有 ...
爬虫实战——Scrapy爬取伯乐在线所有文章
Scrapy简单介绍及爬取伯乐在线所有文章一.简说安装相关环境及依赖包 1.安装Python(2或3都行,我这里用的是3) 2.虚拟环境搭建: 依赖包:virtualenv,virtualenvwr ...
python爬虫scrapy框架——爬取伯乐在线网站文章
一.前言 1. scrapy依赖包: 二.创建工程 1. 创建scrapy工程: scrapy staratproject ArticleSpider 2. 开始(创建)新的爬虫: cd Artic ...
Scrapy分布式爬虫打造搜索引擎- (二)伯乐在线爬取所有文章
二.伯乐在线爬取所有文章 1. 初始化文件目录基础环境 python 3.6.5 JetBrains PyCharm 2018.1 mysql+navicat 为了便于日后的部署:我们开发使用了虚拟 ...
初识Scrapy——1—scrapy简单学习，伯乐在线实战、json数据保存
Scrapy——1 目录什么是Scrapy框架? Scrapy的安装 Scrapy的运行流程 Scrapy的使用实战:伯乐在线案例(json文件保存) 什么是Scrapy框架? Scrapy是用纯 ...
Scrapy爬取伯乐在线的所有文章
本篇文章将从搭建虚拟环境开始,爬取伯乐在线上的所有文章的数据. 搭建虚拟环境之前需要配置环境变量,该环境变量的变量值为虚拟环境的存放目录 1. 配置环境变量 2.创建虚拟环境用mkvirtualen ...
我常用的 Python 调试工具 - 博客 - 伯乐在线
.ckrating_highly_rated {background-color:#FFFFCC !important;} .ckrating_poorly_rated {opacity:0.6;fi ...
python爬虫实战（七）--------伯乐在线文章（模版）
相关代码已经修改调试成功----2017-4-21 一.说明 1.目标网址:伯乐在线 2.实现:如图字段的爬取 3.数据:存放在百度网盘,有需要的可以拿取链接:http://pan.baidu.co ...

随机推荐

20170411 F110初始界面-建议清单
功能块代码 F110 开发类 FIBP 事务说明自动付款参数程序 SAPF ...
shuit模块
shuit模块 #高级的文件.文件夹.压缩包处理模块 shutil.copyfileobj(fsrc, fdst[, length])将文件内容拷贝到另一个文件中,可以部分内容 def copyf ...
python之数据的序列化
参考博客:http://www.cnblogs.com/yyds/p/6563608.html 数据的序列化功能表 json.dumps() 将python数据类型转换为(json)字符串 json. ...
2015.7.8（千股跌停！做T不应当只做中色，中国软件）
2015.7.81.今天开盘所有的股票全部跌停,真是一大奇观! 今天中色股份和以往不同买卖盘为正! 但是中色的爬升比较慢,价位始终没有高过昨天的收盘价————这种情况下是否应该做T呢? 2.做T不应当 ...
try catch 事务不会滚
在spring机制中,在配置事务后,如果采用try catch 捕获异常后,因为异常已经被捕获,所以事务不会滚,从而产生许多脏数据.解决办法: 1.在catch中抛出异常,(throw new Run ...
防止基本的XSS攻击滤掉HTML标签
/** * 防止基本的XSS攻击滤掉HTML标签 * 将HTML的特殊字符转换为了HTML实体 htmlentities * 将#和%转换为他们对应的实体符号 * 加上了$length参数来限制提交 ...
计算机网络概述传输层 TCP流量控制
TCP流量控制所谓流量控制就是让发送发送速率不要过快,让接收方来得及接收.利用滑动窗口机制就可以实施流量控制.通过运用TCP报文段中的窗口大小字段来控制,发送方的发送窗口不可以大于接收方发回的窗口大 ...
【leetcode刷题笔记】Interleaving String
Given s1, s2, s3, find whether s3 is formed by the interleaving of s1 and s2. For example,Given:s1 = ...
Hearbeat 工作原理
Hearbeat 原理 heartbeat (Linux-HA)的工作原理:heartbeat最核心的包括两个部分,心跳监测部分和资源接管部分,心跳监测可以通过网络链路和串口进行,而且支持冗余链路, ...
使用bedtools的一个问题
问题:有两个平行测序样本,分别得到1.vcf和2.vcf两个文件,想知道这两个文件有多少个重合点. [wangjq@mgmt CHG029194]$ cat t1 chr1 10 10 chr1 11 ...

伯乐在线资讯URL

伯乐在线资讯URL的更多相关文章

随机推荐

热门专题