[原创]python+beautifulsoup爬取整个网站的仓库列表与仓库详情

from bs4 import BeautifulSoup

import requests

import os

def getdepotdetailcontent(title,url):#爬取每个仓库列表的详情

    r=requests.get("https://www.50yc.com"+url).content

    soup = BeautifulSoup(r,"html.parser")

    result = soup.find(name='div',attrs={"class":"sm-content"})#返回元素集

    content = result.find_all("li")#返回元素集

    with open(os.getcwd()+"\\depot\\"+title+"\\depotdetail.txt","w") as f :

        for i in content:

            b = i.find("span").text

            br = i.find("div").text

            f .write(b.replace(" ","").replace("\n","")+br.replace(" ","")+"\n"+"****************************"+"\n")

        f.close()

def getdepot(page):#爬取仓库列表信息

    depotlisthtml = requests.get("https://www.50yc.com/xan"+page).content

    content = BeautifulSoup(depotlisthtml,"html.parser")

    tags = content.find_all(name="div",attrs={"class":"bg-hover"})

    for i in tags:

        y = i.find_all(name="img")#返回tag标签

        for m in y:

            if m["src"].startswith("http"):

                imgurl = m["src"]

        print(imgurl)

        title = i.strong.text

        depotdetailurl = i.a['href']

        # print(depotdetailurl)

        os.mkdir(os.getcwd()+'\\depot\\'+title+'\\')

        with open(os.getcwd()+'\\depot\\'+title+'\\'+"depot.jpg","wb") as d :

            d.write(requests.get(imgurl).content)

        with open(os.getcwd()+'\\depot\\'+title+'\\'+"depot.txt","w") as m:

            m.write(i.text.replace(" ",""))

            m.close()

        getdepotdetailcontent(title,depotdetailurl)

for i in range(1,26):#爬取每页的仓库列表与仓库详情

    getdepot("/page"+str(i))

    print("/page"+str(i))

爬取内容为:

爬取结果如下:

[原创]python+beautifulsoup爬取整个网站的仓库列表与仓库详情的更多相关文章

python爬虫--爬取某网站电影信息并写入mysql数据库
书接上文,前文最后提到将爬取的电影信息写入数据库,以方便查看,今天就具体实现. 首先还是上代码: # -*- coding:utf-8 -*- import requests import re im ...
python爬虫--爬取某网站电影下载地址
前言:因为自己还是python世界的一名小学生,还有很多路要走,所以本文以目的为向导,达到目的即可,对于那些我自己都没弄懂的原理,不做去做过多解释,以免误人子弟,大家可以网上搜索. 友情提示:本代码用 ...
Python爬虫学习之使用beautifulsoup爬取招聘网站信息
菜鸟一只,也是在尝试并学习和摸索爬虫相关知识. 1.首先分析要爬取页面结构.可以看到一列搜索的结果,现在需要得到每一个链接,然后才能爬取对应页面. 关键代码思路如下: html = getHtml(& ...
Python多线程爬取某网站表情包
# 爬取网络图片import requestsfrom lxml import etreefrom urllib import requestfrom queue import Queue # 导入队 ...
python 爬虫爬取序列博客文章列表
python中写个爬虫真是太简单了 import urllib.request from pyquery import PyQuery as PQ # 根据URL获取内容并解码为UTF-8 def g ...
Python 利用 BeautifulSoup 爬取网站获取新闻流
0. 引言介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流: 图 1 项目介绍 1. 开发环境 Python: 3.6.3 BeautifulSoup: ...
利用python的requests和BeautifulSoup库爬取小说网站内容
1. 什么是Requests? Requests是用Python语言编写的,基于urllib3来改写的,采用Apache2 Licensed 来源协议的HTTP库. 它比urllib更加方便,可以节约 ...
python之简单爬取一个网站信息
requests库是一个简介且简单的处理HTTP请求的第三方库 get()是获取网页最常用的方式,其基本使用方式如下使用requests库获取HTML页面并将其转换成字符串后,需要进一步解析HTML ...
Python使用urllib,urllib3,requests库+beautifulsoup爬取网页
Python使用urllib/urllib3/requests库+beautifulsoup爬取网页 urllib urllib3 requests 笔者在爬取时遇到的问题 1.结果不全 2.'抓取失 ...

随机推荐

执行DOS命令并返回结果
public static String excuteCommand(String command){ Runtime runtime = Runtime.getRuntime(); try { Pr ...
剑指Offer-13.调整数组顺序使奇数位于偶数前面(C++/Java)
题目: 输入一个整数数组,实现一个函数来调整该数组中数字的顺序,使得所有的奇数位于数组的前半部分,所有的偶数位于数组的后半部分,并保证奇数和奇数,偶数和偶数之间的相对位置不变. 分析: 这道题做法有很 ...
luoguP4094 [HEOI2016/TJOI2016]字符串
题意考虑二分答案\(mid\),现在我们要判断\(s[c...c+mid-1]\)是否在\(s[a...b]\)出现过. 首先找到\(s[c...c+mid-1]\)所在的状态: 建出\(paren ...
Python 对象比较(is & ==)
Python 对象有 3 要素 id type value id 对象在内存中的地址可以通过 id() 获取比较只有同一个对象 id 才会相同 id 通过 is 比较示例: a = list( ...
解决VMware15 centos7 桥接模式ssh突然不能访问的问题
因为想让虚拟机拥有自己的局域网IP, 所以用了桥接, 这样方便测试. 问题来了: 1.ssh突然连接不上了,虚拟机上的项目也无法访问了. 2.虚拟机照常联网,与主机互ping什么的也都没问题,以前从来 ...
开源规则引擎 drools
java语言开发的开源业务规则引擎 DROOLS(JBOSS RULES )具有一个易于访问企业策略.易于调整以及易于管理的开源业务规则引擎,符合业内标准,速度快.效率高.业务分析师或审核人员可以利用 ...
guppy
1.下载 wget https://mirror.oxfordnanoportal.com/software/analysis/ont-guppy-cpu_3.4.1_linux64.tar.gz
[译][ABP vNext]ABP CLI,v0.18版本的新模板和其他功能
ABP CLI,v0.18版本的新模板和其他功能 ABP v0.18已发布, 包含解决的70+个issue,500+次提交网站更改 abp.io网站完全更新以突出ABP框架的目标和重要功能.文档和博 ...
PS快速去除水印方法
步骤第一步:打开PS软件,鼠标左键单击左上角"文件"-"打开",选择一张图片第二步:鼠标左键单击左边的工具栏"矩形选框工具" 第三步:鼠 ...
【LOJ#3144】[APIO2019]奇怪装置（数论）
[LOJ#3144][APIO2019]奇怪装置(数论) 题面 LOJ 题解突然发现\(LOJ\)上有\(APIO\)的题啦,赶快来做一做. 这题是窝考场上切了的题嗷.写完暴力之后再推了推就推出正解 ...

[原创]python+beautifulsoup爬取整个网站的仓库列表与仓库详情

[原创]python+beautifulsoup爬取整个网站的仓库列表与仓库详情的更多相关文章

随机推荐

热门专题