使用Selenium从IEEE与谷歌学术批量爬取BibTex文献引用

　　搞科研的小伙伴总是会被期刊严苛的引用文献格式搞的很头疼。虽然常用的文献软件可以一键导出BibTex，但由于很多论文在投稿之前都会先发上Arxiv占坑，软件就很可能会把文献引出为来自Arxiv。我用的是Zotero，就有这个毛病。

　　因此，如果是IEEE的期刊，最好是直接去IEEE官网搜索并导出引用，否则可以使用谷歌学术。为了减少重复性的动作，我使用selenium来帮我完成这些操作。Selenium是Python的一个爬虫包，具体可以看：Python Selenium库的使用。

　　在此之前，需要安装的有：

　　1、谷歌浏览器。也可以用别的浏览器，具体看上面的Selenium教程。

　　2、Selenium控制谷歌浏览器的驱动。网址

　　3、配置驱动的环境变量，就是把驱动解压的位置放到PATH里。感觉可有可无，因为代码中还是会用到驱动的位置。

　　下面是Python代码，具体操作就是先从IEEE官网找，如果找不到再去谷歌学术找。需要具体配置的地方已在代码中注释：

#%% 从IEEE与谷歌学术爬取论文引用

from selenium import webdriver

from urllib import parse

from time import sleep

class GetBibs():

  def __init__(self, driver_path, option_path, ie_search_url, gg_search_url) -> None:

    self.ie_search_url = ie_search_url

    self.gg_search_url = gg_search_url

    # 启用带插件的浏览器

    option = webdriver.ChromeOptions()

    option.add_argument("--user-data-dir="+option_path)

    self.browser = webdriver.Chrome(executable_path = driver_path, options = option)   # 打开chrome浏览器

    self.browser.set_window_size(800,800) #不要随意修改，太窄会导致按钮的隐藏，模拟点击失效

  def get_bib_from_IEEE(self, paper_title):

    strto_pn=parse.quote(paper_title)

    url = self.ie_search_url + strto_pn

    self.browser.get(url)

    compare_title = ''.join(list(filter(str.isalnum, paper_title))).lower()

    #等待词条加载

    for i in range(100):

      try:

        elements=self.browser.find_elements_by_css_selector("[class='List-results-items']")

        elements[0].get_attribute('id')

        break

      except:

        sleep(0.1)

    #扫描所有词条，是否存在所需文献

    paper_url = r'https://ieeexplore.ieee.org/document/'

    for i in elements:

      s_title = i.text.split('\n')[0]

      s_title = ''.join(list(filter(str.isalnum, s_title))).lower()

      if s_title == compare_title:

        paper_url += i.get_attribute('id')

        break

    if paper_url == r'https://ieeexplore.ieee.org/document/': #没找到

      return ''

    # 进入文献页面

    self.browser.get(paper_url)

    # 等待加载bib按钮

    for i in range(100):

      try:

        element=self.browser.find_element_by_css_selector("[class='layout-btn-white cite-this-btn']")

        element.click()

        break

      except:

        sleep(0.1)

    # 点击bibtex

    for i in range(100):

      try:

        element=self.browser.find_element_by_css_selector("[class='modal-dialog']")

        element=element.find_elements_by_css_selector("[class='document-tab-link']")[1]

        element.click()

        break

      except:

        sleep(0.1)

    for i in range(100):

      try:

        self.browser.find_element_by_css_selector("[class='text ris-text']")

        break

      except:

        sleep(0.1)

    sleep(2)

    bib = self.browser.find_element_by_css_selector("[class='text ris-text']").text

    return bib 

  def get_bib_from_google_scholar(self, paper_title):

    strto_pn=parse.quote(paper_title)

    url = self.gg_search_url + strto_pn

    self.browser.get(url)

    #等待词条加载

    for i in range(100):

      try:

        element=self.browser.find_element_by_css_selector("[class='gs_r gs_or gs_scl']")

        element=element.find_element_by_css_selector("[class='gs_fl']")

        element=element.find_element_by_css_selector("[class='gs_or_cit gs_nph']")

        element.click()

        break

      except:

        sleep(0.1)

    for i in range(100):

      try:

        element=self.browser.find_element_by_id("gs_citi")

        element=element.find_element_by_css_selector("[class='gs_citi']")

        element.click()

        break

      except:

        sleep(0.1)

    for i in range(100):

      try:

        bib = self.browser.find_element_by_tag_name('pre').text

        break

      except:

        sleep(0.1)

    return bib

  def get_bib(self, paper_title):

    bib = self.get_bib_from_IEEE(paper_title)

    if bib != '':

      return "IEEE", bib

    return "Google", self.get_bib_from_google_scholar(paper_title) 

driver_path = r'C:/chromedriver/chromedriver' # 浏览器驱动位置

option_path = r"C:/Users/Administrator/AppData/Local/Google/Chrome/User Data/" # 使浏览器能用你自定义的设置，否则Selenium创建的浏览器对象是默认设置，一些插件就不能用了

ie_search_url = r'https://ieeexplore.ieee.org/search/searchresult.jsp?newsearch=true&queryText=' # 在执行代码之前，先打开IEEE官网的搜索页面，把类似的网址复制到这里，等号=后面就是一会儿要搜索的内容

gg_search_url = r'https://scholar.google.com/scholar?hl=zh-CN&as_sdt=0%2C5&inst=1597255436240989024&q=' # 谷歌学术也是一样

get_bibs = GetBibs(driver_path, option_path, ie_search_url, gg_search_url)

#%% **********************以上定义爬虫对象，以下开始爬取*******************************

paper_titles = { # 要爬取的论文，key用于标记，value是论文题目。下面是一些样例

  "ESPCN":'Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network',

  "Sparse_Coding":'Image Super-Resolution Via Sparse Representation',

  "ESRGAN":'ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks',

  "EnhanceNet":'EnhanceNet: Single Image Super-Resolution Through Automated Texture Synthesis',

  'Meta-SR': 'Meta-SR: A Magnification-Arbitrary Network for Super-Resolution',

  'SAN': 'Second-Order Attention Network for Single Image Super-Resolution',

}

for k in paper_titles.keys():

  source, bib = get_bibs.get_bib(paper_titles[k])

  print(source+":",k)

  print(bib)

  print()

　　IEEE与谷歌学术可能需要VPN，在爬之前要先做好准备。另外IEEE还需要登录机构账号，在此之前也要先登录好。

使用Selenium从IEEE与谷歌学术批量爬取BibTex文献引用的更多相关文章

爬虫（4）- Selenium与PhantomJS（chromedriver）与爬取案例
Selenium文档 Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器 ...
爬虫新手学习2-爬虫进阶(urllib和urllib2 的区别、url转码、爬虫GET提交实例、批量爬取贴吧数据、fidder软件安装、有道翻译POST实例、豆瓣ajax数据获取)
1.urllib和urllib2区别实例 urllib和urllib2都是接受URL请求相关模块,但是提供了不同的功能,两个最显著的不同如下: urllib可以接受URL,不能创建设置headers的 ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
从0实现python批量爬取p站插画
一.本文编写缘由很久没有写过爬虫,已经忘得差不多了.以爬取p站图片为着手点,进行爬虫复习与实践. 欢迎学习Python的小伙伴可以加我扣群86七06七945,大家一起学习讨论二.获取网页源码爬取 ...
selenium+谷歌无头浏览器爬取网易新闻国内板块
网页分析首先来看下要爬取的网站的页面查看网页源代码:你会发现它是由js动态加载显示的所以采用selenium+谷歌无头浏览器来爬取它 1 加载网站,并拖动到底,发现其还有个加载更多 2 模拟点击 ...
Python批量爬取谷歌原图，2021年最新可用版
文章目录前言一.环境配置 1.安装selenium 2.使用正确的谷歌浏览器驱动二.使用步骤 1.加载chromedriver.exe 2.设置是否开启可视化界面 3.输入关键词.下载图片数.图 ...
python 批量爬取四级成绩单
使用本文爬取成绩大致有几个步骤:1.提取表格(或其他格式文件——含有姓名,身份证等信息)中的数据,为进行准考证爬取做准备.2.下载准考证文件并提取出准考证和姓名信息.3.根据得到信息进行数据分析和存储 ...
python动态网页爬取——四六级成绩批量爬取
需求: 四六级成绩查询网站我所知道的有两个:学信网(http://www.chsi.com.cn/cet/)和99宿舍(http://cet.99sushe.com/),这两个网站采用的都是动态网页. ...
网络爬虫——针对任意主题批量爬取PDF
|本文为博主原创,转载请说明出处任务需求:要求通过Google针对任意关键字爬取大量PDF文档,如K-means,KNN,SVM等. 环境:Anaconda3--Windows7-64位--Pyth ...

随机推荐

GO-05-数据类型
基本数据类型: 整型.浮点型 float32 float64.复数型(数学中的复数).布尔型.字符串.字符(byte.rune). 复合数据类型: 数组(array).切片(slice).映射(map ...
火狐兼容selenium版本解决
火狐和selenium不是很好兼容,下面提供一些我所知道的可以兼容的版本: 1. 火狐52+selenium 3.3 +geckodriver v0.15.0 2.火狐59+selenium 3.11 ...
一次死锁导致CPU异常飘高的整个故障排查过程
目录一.问题详情 top 命令截图联系腾讯云排查检查系统日志发现异常二. 问题解析三.问题原因最终结论四.扩展进程的几种状态马后炮如何快速清理僵尸进程(Z) 内核参数相关如何查看 ...
JAVAEE_Servlet_22_Cookie实现十天内免登录
Cookie实现十天内免登录代码: - CheckLogin 查看是否获取到了Cookie,如果获取到了连接数据库验证Cookie发过来的用户名和密码,如果没有获取到Cookie信息,那么就跳转到登 ...
WebGL之绘制三维地球
通过Three.js也许可以很方便的展示出3D模型,但是你知道它是怎么一步一步从构建网格到贴图到最终渲染出3D模型的吗?现在我们直接使用底层的webgl加上一点点的数学知识就可以实现它. 本节实现的效 ...
使用docker快速安装软件
安装mysql mkdir /opt/mysql /opt/mysql/etc /opt/mysql/data docker run -itd --name mariadb -e MYSQL_ROOT ...
Apache HTTP Server与Tomcat整合学习记录
Apache HTTP Server与Tomcat整合个人环境:Windows10,JDK8,Tomcat8.5,Apache2.4,JK模块1.2.4 前言其实网上有很多教程,但问题是得每次 ...
.Net之Docker部署详细流程
开篇语自己从头开始走一遍docker部署.net的流程,作为一种学习总结,以及后续会写一些在该基础之上的文章. 本次示例环境:vs2019.net5.docker.postman 创建项目本次事例 ...
hdu1247 字典树或者hash
题意: 给你一些串,问你哪些串是由其他两个串连接成的. 思路: 我用了两种方法,一个是hash,hash的时候用map实现的,第二种方法是字典树,字典树我们枚举每个一字符串,查 ...
从苏宁电器到卡巴斯基第16篇：我在苏宁电器当营业员 VIII
其实不想走,其实很想留我在之前的故事中说过,在大四的时候,我其实是想考研的,但是看了一段时间的书以后,发现自己实在不是那块料,主要是数学实在是学不明白,那么也就只能作罢了.而后来面试中石化的时候,尽 ...

使用Selenium从IEEE与谷歌学术批量爬取BibTex文献引用

使用Selenium从IEEE与谷歌学术批量爬取BibTex文献引用的更多相关文章

随机推荐

热门专题