Python爬虫爬取ECVA论文标题、作者、链接

  1 import re

  2 import requests

  3 from bs4 import BeautifulSoup

  4 import lxml

  5 import traceback

  6 import time

  7 import json

  8 from lxml import etree

  9 def get_paper():

 10     #https://www.ecva.net/papers/eccv_2020/papers_ECCV/html/267_ECCV_2020_paper.php

 11     #https://www.ecva.net/papers/eccv_2020/papers_ECCV/html/283_ECCV_2020_paper.php

 12     #https://www.ecva.net/papers/eccv_2020/papers_ECCV/html/343_ECCV_2020_paper.php

 13     url='https://www.ecva.net/papers.php'

 14     headers = {

 15         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'

 16     }

 17     response=requests.get(url,headers)

 18     response.encoding='utf-8'

 19     page_text=response.text

 20     #输出页面html

 21     # print(page_text)

 22     soup = BeautifulSoup(page_text,'lxml')

 23     all_dt=soup.find_all('dt',class_='ptitle')

 24     #暂存信息

 25     temp_res=[]

 26     #最后结果集

 27     res=[]

 28     #链接

 29     link_res = []

 30     for dt in all_dt:

 31         single_dt=str(dt)

 32         single_soup=BeautifulSoup(single_dt,'lxml')

 33         title=single_soup.find('a').text

 34         #存标题

 35         temp_res.append(title)

 36         #存摘要

 37

 38         #存关键字

 39

 40         #存源链接

 41         sourcelink=single_soup.find('a')['href']

 42         sourcelink="https://www.ecva.net/"+sourcelink

 43         temp_res.append(sourcelink)

 44         res.append(temp_res)

 45         temp_res=[]

 46     #爬取作者和pdf文件链接

 47     all_dd=soup.find('div',id='content')

 48     all_dd=all_dd.find_all('dd')

 49     flag=0

 50     author=[]

 51     download=[]

 52     pdfinfo=[]

 53     for item in all_dd:

 54         if(flag%2==0):

 55             #保存作者

 56             author.append(item)

 57         else:

 58             linktext=str(item)

 59             linksoup=BeautifulSoup(linktext,'lxml')

 60             link_res.append(linksoup.find_all('div',class_='link2'))

 61             #解析download 和 pdfinfo

 62         flag = flag + 1

 63     """

 64     继续使用beautifulsoup

 65     download_text 和 pdfinfo_text

 66     存储author

 67     "https://www.ecva.net/"

 68     """

 69     linkflag=1

 70     print(len(link_res))

 71     for items in link_res:

 72         for item in items:

 73             if(linkflag%2==0):

 74                 pdfinfo_text = str(item)

 75             else:

 76                 download_text = str(item)

 77             linkflag=linkflag+1

 78         download_text_soup=BeautifulSoup(download_text,'lxml')

 79         pdfinfo_text_soup=BeautifulSoup(pdfinfo_text,'lxml')

 80         #解析两个链接

 81         download.append("https://www.ecva.net/"+download_text_soup.find('a')['href'])

 82         pdfinfo.append(pdfinfo_text_soup.find('a')['href'])

 83     print(len(download))

 84     print(len(pdfinfo))

 85     # for item in download :

 86     #     print(item)

 87     print("------------------------------")

 88

 89     #把作者和download pdfinfo 存到res

 90     for i in range(0,len(res)):

 91         #添加作者

 92         res[i].append(author[0])

 93         #添加download

 94         res[i].append(download[0])

 95         #添加pdfinfo

 96         res[i].append(pdfinfo[0])

 97     #遍历最终结果集

 98     print(res[0])

 99     # for item in res:

100     #     print(item)

101     return

102

103 if (__name__=='__main__'):

104     get_paper()

Python爬虫爬取ECVA论文标题、作者、链接的更多相关文章

Python爬虫爬取豆瓣电影名称和链接，分别存入txt，excel和数据库
前提条件是python操作excel和数据库的环境配置是完整的,这个需要在python中安装导入相关依赖包: 实现的具体代码如下: #!/usr/bin/python# -*- coding: utf ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...

随机推荐

junit多个测试方法共享变量
本文介绍利用类的静态属性实现junit多个测试方法间共享同一变量值. package com.laoxu.gamedog; import org.junit.Test; /** * @author x ...
.gitignore 无法工作
在开发一个新项目时,发现每次编译时都会产生一些 .obj 无用的文件,这些文件并不需要 push 到 github 上故使用 .gitignore 忽略这些文件首先,我们可以设置这些文件的输出目录 ...
树莓派开发笔记（十六）：树莓派4B+安装mariadb数据库(mysql开源分支)并测试基本操作
前言树莓派使用数据库时,优先选择sqlite数据库,但是sqlite是文件数据库同时仅针对于单用户的情况,考虑到多用户的情况,在树莓派上部署安装mariadb数据库服务(mysql的开源分支), ...
FFmpeg开发笔记（十一）：ffmpeg在移植到海思HI35xx平台之将ffmpeg库引入到sample的demo中
前言上一篇交叉编译了ffmpeg的海思版本,使用交叉编译的qt的ffmpeg播放器在海思上播放,本片是将ffmpeg的环境添加进海思的sample环境中. 在海思sample中引入ffmpe ...
文件的拓展及文件函数，定义函数及函数参数---day09
1.文件的拓展模式 utf-8 编码格式下,默认一个中文三个字节,一个英文或符号占用一个字节 read() 功能:读取字符的个数(里面的参数代表字符个数) seek() 功能:调整指针的位置(里面的参 ...
重点：递归函数，数学模块，随机模块---day14
1.递归函数自己调用自己的函数是递归函数递:去归:回一去一回叫作递归简单递归 def digui(n): print(n,'<==1==>') if n > 0: digu ...
命令行解析parse.parse_know_args()
简介在接受到多余的命令行参数时不报错,只把第一个参数作为当前使用的命令参数, 剩余部分留给其它程序使用,返回一个tuple类型的命名空间和一个保存着余下的命令行字符的list 示例 import a ...
django中的Case，When，then用法
# 参考文档 https://docs.djangoproject.com/en/2.2/ref/models/conditional-expressions/ # Case()接受任意数量的When ...
Python3中的“联动”现象
技术背景在python中定义一个列表时,我们一定要注意其中的可变对象的原理.虽然python的语法中没有指针,但是实际上定义一个列表变量时,是把变量名指到了一个可变对象上.如果此时我们定义另外一个变 ...
FROM_UNIXTIME函数格式化时间戳日期类型
select FROM_UNIXTIME(bce.daysec_time/1000,'%Y-%m-%d %h:%i:%s') ,bce.* from biz_cvent bce where bce.d ...

Python爬虫爬取ECVA论文标题、作者、链接

Python爬虫爬取ECVA论文标题、作者、链接的更多相关文章

随机推荐

热门专题