个人作业——CVPR顶会论文爬取

main.py

#保存单个界面数据

def getInfo(url):

     # url='https://openaccess.thecvf.com/WACV2021'

     header={

          'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Mobile Safari/537.36'

     }

     html=requests.get(url=url,headers=header).text

     soup=BeautifulSoup(html,'lxml')

     dl=soup.find('dl')

     print(dl.find('dt'))

     info=dl.find_all(class_='bibref pre-white-space')

     for i in info:

          print('----------------------------------------------------------------------------------------------------------')

          print(i.text)

          # info0=i.find(class_='bibref pre-white-space').get_text()

          # print(info0)

          #处理数据

          info1=i.text.strip('@InProceedings{,}')

          info2=info1.replace('=','')

          info2=info2.replace("'","''")

          info2=info2.replace('{','')

          info2=info2.replace('}',',')

          info2=info2.replace('author',',')

          info2=info2.replace('title','')

          info2=info2.replace('book','')

          info2=info2.replace('month','')

          info2=info2.replace('year','')

          info2=info2.replace('pages','')

          # info2=info2.replace(' ','')

          info2=info2.replace('\n','')

          info2=info2.replace('    ','')

          info2=",,"+info2+","

          print(info2)

          info3=info2.split(',,')

          print(info3)

          #保存数据

          list=[]

          for i in info3:

               list.append(i.strip(' '))

               print(i.strip(' '))

          print(str(list[1]))

          #链接数据库

          conn=pymysql.connect(host='39.106.103.180',port=3306,user='root',password='E6B3628525e4',database='user')

          cursor=conn.cursor()

          sql_select="select * from paper where title='"+str(list[3])+"'"

          if(cursor.execute(sql_select)!=1):

               sql="insert into paper(author,title,booktitle,month,year,pages) values('"+str(list[2])+"','"+str(list[3])+"','"+str(list[4])+"','"+str(list[5])+"','"+str(list[6])+"','"+str(list[7])+"')"

               a=cursor.execute(sql)

               re=cursor.fetchall()

               print(re)

          conn.commit()

          cursor.close()

          conn.close()

url='https://openaccess.thecvf.com/menu'

headers={

    'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Mobile Safari/537.36'

}

html=requests.get(url=url,headers=headers).text

print(html)

soup=BeautifulSoup(html,'lxml')

dds=soup.find_all('dd')

# print('________________________________________________________________________________________________________________')

# print(dds)

for dd in dds:

    print('----------------------------------------------------------------------------------------------------------------------')

    # print(dd.text) #标题

    for d in dd.find_all('a'):

        # print(d.text)  #会议性质

        # print(d['href'],'\n') #地址

        url_MainConference=url.strip('menu')+str(d['href']).strip('/')

        print(url_MainConference.strip('.py'))

        # menu=requests.get(url=url_MainConference,headers=headers).text

        getInfo(url_MainConference.strip('.py '))

注意数据库字段设置合适的长度

个人作业——CVPR顶会论文爬取的更多相关文章

CVPR顶会论文爬取存入MySQL数据库（标题、摘要、作者、PDF链接和原地址)
main.py import pymysql import re import requests # 连接数据库函数 from bs4 import BeautifulSoup def insertC ...
论文爬取 & 词频统计2.0
一.Github地址课程项目要求队友博客二.具体分工 031602225 林煌伟 :负责C++部分主要功能函数的编写,算法的设计以及改进优化 031602230 卢恺翔 : 爬虫 ...
个人作业2-6.4-Python爬取顶会信息
1.个人作业2 数据爬取阶段 import requestsfrom lxml import etreeimport pymysqldef getdata(url): # 请求CVPR主页 page_ ...
交作业啊，python爬取58的页面
第一次写博文,好紧张啊,写这么烂怎么给别人看啊先做下总结: 刚开始学习python,自我感觉python写起来确实很方便,各种库,各种语法糖,不过刚接触,一下子记不下来这么多东西,总感觉乱乱的,用的多 ...
爬取CVPR 2018过程中遇到的坑
爬取 CVPR 2018 过程中遇到的坑使用语言及模块语言: Python 3.6.6 模块: re requests lxml bs4 过程一开始都挺顺利的,先获取到所有文章的链接再逐个爬取获 ...
Python 爬取外文期刊论文信息（机械仪表工业）
NSTL国家科技图书文献中心 2017 机械仪表工业所有期刊论文信息代码比较随意,不要介意第一步,爬取所有期刊链接 #coding=utf-8 import time from se ...
python爬取中国知网部分论文信息
爬取指定主题的论文,并以相关度排序. #!/usr/bin/python3 # -*- coding: utf-8 -*- import requests import linecache impor ...
Python爬取CSDN博客文章
0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.win ...
将爬取的实习僧网站数据传入HDFS
一.引言: 作为一名大三的学生,找实习对于我们而言是迫在眉睫的.实习作为迈入工作的第一步,它的重要性不言而喻,一份好的实习很大程度上决定了我们以后的职业规划. 那么,一份好的实习应该考量哪些因素呢? ...

随机推荐

【Lua篇】静态代码扫描分析（四）规则检查
一.前言通过前面三篇文章已经初步实现了将Lua源代码文件读取解析成语法树,现在就可以通过得到的语法树进行指定规则的代码扫描检查.下图简单列举了一下单个Lua文件内部的语法关系情况(注意并非真正的类图 ...
Linux线程简单介绍
1.进程与线程 2.使用线程的理由 3.有关线程操作的函数 4.线程之间的互斥 5.线程之间的同步 6.试题最终代码 1.进程与线程进程是程序执行时的一个实例,即它是程序已经执行到何种程度的数据结构 ...
iOS-block循环引用详解和应用
Block循环引用什么情况下block会造成循环引用 ARC 情况下 block为了保证代码块内部对象不被提前释放,会对block中的对象进行强引用,就相当于持有了其中的对象,而如果此时block中 ...
pikachu RCE远程系统命令执行
远程系统命令执行一般出现这种漏洞,是因为应用系统从设计上需要给用户提供指定的远程命令操作的接口比如我们常见的路由器.防火墙.入侵检测等设备的web管理界面上一般会给用户提供一个ping操作的web界 ...
kali虚拟机安装VMTools、更新源、安装docker、配置sqli-labs
一.安装VMTools: 传送门:关于安装VMTools 跟其他版本的虚拟机安装VMTools没什么区别,也得连网(我是kali用dhcp开nat模式) 之后按照上面的链接根据博主的步骤一步一步来即可 ...
Sqli-Labs less25-25a
less-25 前置基础知识:后面的关卡涉及到WAF绕过: 主要有三种方式:白盒绕过.黑盒绕过.fuzz测试网上sql注入WAF绕过的教程有很多,可以自己查询,总之就是比谁思路猥琐根据第25关下面 ...
高性能 C++ HTTP 客户端原理与实现
一.什么是Http Client Http协议,是全互联网共同的语言,而Http Client,可以说是我们需要从互联网世界获取数据的最基本方法,它本质上是一个URL到一个网页的转换过程.而有了基本的 ...
一款优秀的国产性能测试工具kylinPET在麒麟操作系统上的能力表现
一直以来人们从事性能测试,使用最多的是Jmeter和LoadRuner .笔者在网上找了一下国产性能测试工具,从中筛选出一款优秀的国产的性能测试工具kylinPET.查找该款工具的历史,好像有十年历史 ...
window 右键菜单中添加在vs code 打开
原文链接: window 右键菜单中添加在vs code 打开 window 右键菜单中添加在vs code 打开吃码小妖:以前安装VS code可以的,后面不知道为什么不能右键在VS code中打 ...
编写一个简单的COM组件
参考网站:编写一个简单的COM组件_a ray of sunshine-CSDN博客 (1) 用MIDL编写.idl文件 //将以下代码保存成 IXIYIZ.idl 文件 //在命令行上进行编译,编译 ...

个人作业——CVPR顶会论文爬取

个人作业——CVPR顶会论文爬取的更多相关文章

随机推荐

热门专题