Python获取会议部分的信息内容（不断完善中）

这是一个用于获取物理师会议报告的简单爬虫，数据库表结构正在不断完善中

爬虫信息：

 # -*- coding:utf-8 -*-

 import urllib.request

 import pymysql

 from bs4 import BeautifulSoup

 import requests

 import time

 import re

 import os

 # 数据库连接基础类

 class Conn_Mssql:

     #查询Mysql数据库

     def Select_mssql(strsql):

         #数据库连接信息

         conn = pymysql.connect("DESKTOP-V9MQNL6", "root", "password", "internetdaq", charset="utf8")

         cur = conn.cursor()

         cur.execute(strsql)

         return cur

     #插入与更新数据库

     def InsertOrUpdate_mssql(strsql):

         # 数据库连接信息

         conn = pymysql.connect("DESKTOP-V9MQNL6", "root", "password", "internetdaq", charset="utf8")

         cur = conn.cursor()

         cur.execute(strsql)

         conn.commit()

         conn.close()

         return cur

 #获取网络信息中的信息，并存储

 class Get_HttpMessage:

     # 下载文件

     def getFile(url):

         try:

             file_name = url.split('/')[-1]

             file_path = "StorePDF\\"+file_name

             u = urllib.request.urlopen(url)

         except :

             print(url, "url file not found")

             return

         block_sz = 90192

         with open(file_path, 'wb') as f:

             while True:

                 buffer = u.read(block_sz)

                 if buffer:

                     f.write(buffer)

                 else:

                     break

         print("Sucessful to download" + " " + file_name)

     #开始获取网络信息

     def startGet():

         print('start')

         #链接的APPM网络

         url = "https://www.aapm.org/pubs/reports/"

         request = urllib.request.Request(url)

         response = urllib.request.urlopen(request)

         data = response.read()

         soup = BeautifulSoup(data,"lxml")

         #href属性包含docid字符串

         for link in soup.find_all(href=re.compile("docid")):

             #地址值

             text_url = link['href']

             #地址名称

             text_Name = link.get_text()

             if len(text_url)>0 and len(text_Name)>10 :

                 strSQl = "insert into daqtest (SAVE_TIME,URL_Name,URL_Link) values (NOW(),'" + text_Name + "','" +url+ text_url + "')"

                 strSQl =strSQl.encode('utf8')

                 try:

                     #存储地址信息

                     Conn_Mssql.InsertOrUpdate_mssql(strSQl)

                 except:

                     print('母页面MySQL存储失败')
　　　　　　　　　　　　

                 time.sleep(1)

                 #含有论文的网页地址

                 urlSecond = url + text_url

                 request2 = urllib.request.Request(urlSecond)

                 response2 = urllib.request.urlopen(request2)

                 data2 = response2.read()

                 soup2 = BeautifulSoup(data2, "lxml")

                 #此变量用于消除重复的ＰＤＦ信息

                 pdfName = ""

                 #查询网页中的PDF信息

                 for link2 in soup2.find_all(href=re.compile("pdf")):

                     #PDF信息

                     text_url2 = link2['href']

                     #PDF的所在网页来源

                     text_Name2 = url + text_url

                     if len(text_url2) > 0 and pdfName != text_url2:

                         pdfName = text_url2

                         strSQl2 = "insert into daqtest (SAVE_TIME,URL_Name,URL_Link) values (NOW(),'" + text_Name2 + "','" + text_url2 + "')"

                         strSQl2 = strSQl2.encode('utf8')

                         try:

                             #存储PDF信息至数据库

                             Conn_Mssql.InsertOrUpdate_mssql(strSQl2)

                             #慢一点，减缓网站压力

                             time.sleep(1)

                             #下载论文中的PDF文件

                             Get_HttpMessage.getFile(text_url2)

                         except:

                             print('子页面MySQL存储失败')

 #程序入口

 Get_HttpMessage.startGet()

这是用于存储的数据库表结构

 /*

 Navicat MySQL Data Transfer

 Source Server         : dde

 Source Server Version : 50624

 Source Host           : DESKTOP-V9MQNL6:3306

 Source Database       : internetdaq

 Target Server Type    : MYSQL

 Target Server Version : 50624

 File Encoding         : 65001

 */

 SET FOREIGN_KEY_CHECKS=0;

 -- ----------------------------

 -- Table structure for daqtest

 -- ----------------------------

 DROP TABLE IF EXISTS `daqtest`;

 CREATE TABLE `daqtest` (

   `ID` bigint(20) NOT NULL AUTO_INCREMENT,

   `SAVE_TIME` datetime DEFAULT NULL ON UPDATE CURRENT_TIMESTAMP,

   `URL_Name` varchar(600) COLLATE utf8_unicode_ci DEFAULT NULL,

   `URL_Link` varchar(6000) COLLATE utf8_unicode_ci DEFAULT NULL,

   PRIMARY KEY (`ID`)

 ) ENGINE=InnoDB AUTO_INCREMENT=4634 DEFAULT CHARSET=utf8 COLLATE=utf8_unicode_ci;

Python获取会议部分的信息内容（不断完善中）的更多相关文章

Python 获取Facebook用户的Friends的爱好中的Top10
CODE; #!/usr/bin/python # -*- coding: utf-8 -*- ''' Created on 2014-8-12 @author: guaguastd @name: f ...
Python 获取Facebook用户Friends的爱好类别中的Top10
CODE: #!/usr/bin/python # -*- coding: utf-8 -*- ''' Created on 2014-8-12 @author: guaguastd @name: f ...
python获取系统内存占用信息的实例方法
psutil是一个跨平台库(http://code.google.com/p/psutil/),能够轻松实现获取系统运行的进程和系统利用率(包括CPU.内存.磁盘.网络等)信息.它主要应用于系统监控, ...
使用shell/python获取hostname/fqdn释疑
一直以来被Linux的hostname和fqdn(Fully Qualified Domain Name)困惑了好久,今天专门抽时间把它们的使用细节弄清了. 一.设置hostname/fqdn 在Li ...
使用 python 获取 httpd 程序所占用物理内存
#!/usr/bin/env python #encoding: utf-8 ''' 思路: /proc/xx_pid/status 文件中的关键字段 VmRSS 来获取某个进程占用的物理内存步骤: ...
python 获取日期
转载原文:python 获取日期作者:m4774411wang python 获取日期我们需要用到time模块,比如time.strftime方法 time.strftime('%Y-%m-% ...
python获取字母在字母表对应位置的几种方法及性能对比较
python获取字母在字母表对应位置的几种方法及性能对比较某些情况下要求我们查出字母在字母表中的顺序,A = 1,B = 2 , C = 3, 以此类推,比如这道题目 https://project ...
python获取文件大小
python获取文件大小 # !/usr/bin/python3.4 # -*- coding: utf-8 -*- import os # 字节bytes转化kb\m\g def formatSiz ...
python 获取一个列表有多少连续列表
python 获取一个列表有多少连续列表例如有列表 [1,2,3] 那么连续列表就是 [1,2],[2,3],[1,2,3] 程序实现如下: 运行结果:

随机推荐

[BZOJ 3813]奇数国
3813: 奇数国 Time Limit: 10 Sec Memory Limit: 256 MBSubmit: 736 Solved: 416[Submit][Status][Discuss] ...
Alpha集合
项目名称:城市安全风险管控系统小组成员: 张梨贤.林静.周静平.黄腾飞 Alpha冲刺随笔 Alpha冲刺Day1 Alpha冲刺Day2 Alpha冲刺Day3 Alpha冲刺Day4 Alpha ...
详谈C++虚函数表那回事（一般继承关系）
沿途总是会出现关于C++虚函数表的问题,今天做一总结: 1.什么是虚函数表: 虚函数(Virtual Function)是通过一张虚函数表(Virtual Table)来实现的.简称为V-Table. ...
MySQL 服务安装及命令使用
MySQL 服务安装及命令使用课程来源说明本节实验后续至第17节实验为本课程的进阶篇,都基于 MySQL 官方参考手册制作,并根据实验楼环境进行测试调整改编.在此感谢 MySQL 的开发者,官方文 ...
python的dir、help、str用法
当你给dir()提供一个模块名字时,它返回在那个模块中定义的名字的列表.当没有为其提供参数时, 它返回当前模块中定义的名字的列表.dir() 函数使用举例: 1 2 3 4 5 6 >>& ...
thinkphp中ajax技术
thinkphp可以直接返回json数据,json数据事可以跟前端的js通用的
thinkphp后台向前台传值没有传过去的小问题
if($listyyarr){ $this->assign('listyyarr',$listyyarr); //$this->assign('nowDated',$endDated); ...
Mac 中配置Apache
使用的mac版本是10.10.1,mac自带的Apache环境分为两部分: 1.启动Apache 2.设置虚拟主机启动Apache 打开终端, >>sudo apachectl -v, ...
apache修改最大连接数报错
报错的内容: AH00180: WARNING: MaxRequestWorkers of 2500 exceeds ServerLimit value of 256 servers, decreas ...
Python scrapy框架
Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设 ...

Python获取会议部分的信息内容（不断完善中）

Python获取会议部分的信息内容（不断完善中）的更多相关文章

随机推荐

热门专题