有关利用python获取网页，以及KDD近几年论文标题与摘要链接

最近一直在看KDD的论文，不过，由于老师并没有什么合理的方向性，所以考虑把kdd中的大部分内容都利用python将所有标题、摘要获取下来。

还有一个原因在于，看acm上的摘要，都只显示了两行，再看多点儿，就需要点击expand，觉得非常不爽，所以就用python脚本把html标签删掉。。

想到的方法自然是通过python利用正则表达式对ACM的KDD网页进行字符串匹配，获得相应的网页字符串，然后将所有html的标签删除（例如<div></div>等），将这些标签删除之后，就能够得到纯文本，从而得到人可读的内容。

但是，有一个问题在于python没有办法登陆账号，所以我最后直接把acm kdd 的网页html代码复制下来，扔在一个txt里面，然后打开txt进行读取。

其实整段python的代码函数非常简单，如下：

 import re

 file = open('kdd2013.txt','r')

 s1 = file.read()

 re_h = re.compile('</?\w+[^>]*>')

 s = re_h.sub('',s1)

 blankline = re.compile('\n+')

 s = blankline.sub('',s)

 expand = re.compile('expand')

 s = expand.sub('\n', s)

 blankline = re.compile('\n+')

 s = blankline.sub('\n',s)

 fp = open(r'kdd2013_pure.txt','w')

 fp.write(s)

 fp.close()

其实在这里，主要是记录一下python里面去除html标签正则表达式的编写，利用python有的re模块进行正则表达式的规则设置，compile为设定一个规则，可以看出，compile中的</?\w+[^>]*>,个人理解中，这段代表的就是说，匹配到开头中，如果是<开头，>结尾的语句，则直接删除，因为毕竟acm的页面写的还是相对非常工整的，所以能够很轻松的删除每一个html的标签，然后，再删除多余的空行，利用#2.通过#2可以实现对多个空行的删除，匹配的就是\n+，代表多个空行。

最后，利用上面的python程序，我将kdd中的字段全部拿下来了，得到的都是几个txt，是最近几年的kdd的文章title和摘要，这里也贴出来跟大家分享一下~

由于博客园似乎不能上传附件，我就扔在百度云里边儿了，链接如下：http://pan.baidu.com/s/1jGDUNqA

有关利用python获取网页，以及KDD近几年论文标题与摘要链接的更多相关文章

爬虫学习笔记（1）-- 利用Python从网页抓取数据
最近想从一个网站上下载资源,懒得一个个的点击下载了,想写一个爬虫把程序全部下载下来,在这里做一个简单的记录 Python的基础语法在这里就不多做叙述了,黑马程序员上有一个基础的视频教学,可以跟着学习一 ...
利用Python获取统计自己的qq群成员信息
利用python获取自己的qq群成员信息! 首先说明一下需要使用的工具以及技术:python3 + selenium selenium安装方法:pip install selenium 前提:获取自己 ...
利用python获取自己的qq群成员信息
利用python获取自己的qq群成员信息! 首先说明一下需要使用的工具以及技术:python3 + selenium selenium安装方法:pip install selenium 前提:获取自己 ...
c#利用HttpWebRequest获取网页源代码
c#利用HttpWebRequest获取网页源代码,搞了好几天终于解决了,直接获取网站编码进行数据读取,再也不用担心乱码了! 命名空间:Using System.Net private static ...
利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...
Python获取网页指定内容(BeautifulSoup工具的使用方法)
Python用做数据处理还是相当不错的,如果你想要做爬虫,Python是很好的选择,它有很多已经写好的类包,只要调用,即可完成很多复杂的功能,此文中所有的功能都是基于BeautifulSoup这个包. ...
利用python获取nginx服务的ip以及流量统计信息
#!/usr/bin/python #coding=utf8 log_file = "/usr/local/nginx/logs/access.log" with open(log ...
Python获取网页Html文本
Python爬虫基础 1.获取网页文本通过urllib2包,根据url获取网页的html文本内容并返回 #coding:utf-8 import requests, json, time, re, ...
python获取网页编码问题（encoding和apparent_encoding）
在requests获取网页的编码格式时,有两种方式,而结果也不同,通常用apparent_encoding更合适注:推荐一个大佬写的关于获取网页编码格式以及requests中text()和conte ...

随机推荐

30-React JSX IN DEPTH
JSX IN DEPTH JSX 从根本上说,JSX只是提供了语法糖React.createElement(component, props, ...children)的功能.以下JSX代码: < ...
hive1.2.1实战操作电影大数据！
我采用的是网上的电影大数据,共有3个文件,movies.dat.user.dat.ratings.dat.分别有3000/6000和1百万数据,正好做实验. 下面先介绍数据结构: RATINGS FI ...
读《编写可维护的JavaScript》第六章总结
第六章避免使用全局变量 JavaScript执行环境在很多方面都有其独特之处,全局变量就是其中之一.“全局变量”是一个神秘的对象,它表示了脚本的最外层上下文. 在浏览器中,windows对象往往重载 ...
c++初步实现的一个LRU
#include<iostream>#include<map> using namespace std; typedef struct Node{ int data; stru ...
TFS二次开发系列：八、TFS二次开发的数据统计以PBI、Bug、Sprint等为例(二)
上一篇文章我们编写了此例的DTO层,本文将数据访问层封装为逻辑层,提供给界面使用. 1.获取TFS Dto实例,并且可以获取项目集合,以及单独获取某个项目实体 public static TFSSer ...
treap 模版
struct Treap { struct node { node *son[]; int key,siz,wei,cnt; node(int _key,node *f) { son[]=son[]= ...
《C++ Primer》学习笔记【第一部分 C++基础】
第2章整型的赋值:当我们试着把一个超出其范围的值赋给一个指定类型的对象时,结果如何?答案取决于类型是signed还是unsigned的.对于unsigned,编译器会将该值对unsigned类型的 ...
UIStackView使用（堆视图）
一基本使用 1创建多个子控件 for (int i = 0; i < 3; i++) { UIButton *imgBtn = [UIButton buttonWithType:UIButton ...
html的a链接的href怎样才另起一个页面
在后面加上target ="_blank",就可以,正如: <ul class="nav navbar-nav navbar-right" style=& ...
浅谈python中得import xxx，from xxx import xxx， from xxx import *
在python中import跟from import都是用来导入的,但是导入的机制不同 1.import xxx:导入模块,或者文件夹,对于调用模块或者文件夹中子模块的变量或者函数,需要使用" ...

有关利用python获取网页， 以及KDD近几年论文标题与摘要链接

有关利用python获取网页， 以及KDD近几年论文标题与摘要链接的更多相关文章

随机推荐

热门专题

有关利用python获取网页，以及KDD近几年论文标题与摘要链接

有关利用python获取网页，以及KDD近几年论文标题与摘要链接的更多相关文章