抓取oschina上面的代码分享python块区下的标题和对应URL

# -*- coding=utf-8 -*-

import requests,re

from lxml import etree

import sys

reload(sys)

sys.setdefaultencoding( "utf-8" )

"""

目标：抓取oschina上面的代码分享python块区下的 标题和对应URL

"""

class spiders_oschina:

    def __init__(self):

        print u'开始运行'

    def get_html_obj(self,url = 'http://www.oschina.net/code/list?lang=python&catalog=&show=time&sort=&p=1'):    #传入地址，返回一个xpath对象

        tou = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36'}

        obj = etree.HTML(requests.get(url,headers = tou).content)    # 实例化可以被lxml操作的对像

        return obj

    def get_page(self):

        tmp = '//*[@id="OSC_Content"]/div[1]/ul/li[11]/a/text()'

        obj = self.get_html_obj()

        page = int(obj.xpath(tmp)[0])    #从第一页可取得一共有多少页

        urllist = []

        for i in range(1,page+1):

            urllist.append('http://www.oschina.net/code/list?lang=python&catalog=&show=time&sort=&p=' + str(i))

        return urllist

    def get_result(self,obj):    #需要传入一个xpath对像

        tmp = '//*[@id="OSC_Content"]/div[1]/div[3]/ul/li/h3/a/text()'   #a标签中的文本

        tmp2 = '//*[@id="OSC_Content"]/div[1]/div[3]/ul/li/h3/a/@href'  #a标签的href属性

        t = obj.xpath(tmp)              #[0].decode('utf-8')      #测试xpath方法

        t2 = obj.xpath(tmp2)

        f = open('res.txt','a')

        str = ''

        for i in t:

            n = 0

            str += i + ' ——>对应的URL是：' + t2[n] + '\n \n --------------------------\n'

            n += 1

        f.write(str)        #把结果最终写入txt文本

        f.close()

if __name__  ==  "__main__":

    oca = spiders_oschina()

    n = 1

    for i in oca.get_page():

        obj = oca.get_html_obj(i)

        oca.get_result(obj)

        print u'第%d页爬取完成' %n

        n += 1

貌似生成的url有问题，待优化。。。

抓取oschina上面的代码分享python块区下的标题和对应URL的更多相关文章

git clone 拉取github上面的代码报错：fatal: Authentication failed for xxx解决
1.打开git bash,输入密码:git config --system --unset credential.helper2.结果报错:error: could not lock config f ...
python爬虫构建代理ip池抓取数据库的示例代码
爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检 ...
Git拉取Gitlab上的代码时，报128的解决方法
今天拉取gitlab上的代码时出现错误,一直返回128 首先我们确定我们在存储库上有没有权限,然后我就去项目中的 Members上看是否有权限,然后发现也是有的. 然后克隆的时候发现输入一万遍密码都还 ...
使用Fiddler抓取手机上的数据包
在IIS中,如果网站已经绑定了域名在使用IP是不能访问的,需要添加一个空的主机名与IP的映射才能访问.如下图: Fiddler抓取手机包在PC上建一个WIFI热的勾选Fiddler中Tool-&g ...
Postman----设置代理抓取手机上的请求
一般为方便接口测试,我们都会设置代理,抓取手机上的请求来方便测试,具体的操作方法如下. 操作步骤: 一.手机和电脑连接同一网络,查看电脑连接网络的IP,配置手机的代理 1.查看电脑连接的网络与IP地址 ...
重新实践c++primer上面的代码
又重新敲了敲c++primer上面的代码,觉得很有意思,讲的很细,c++真牛逼啊 #include <iostream> #include <string> #include ...
Git同步更新操作GitHub和码云仓库上面的代码
一.前言问题: 小编在生活中,一般都是将代码保存到github上,但由于国内的码云仓库确实速度比github快很多,用起来也很方便,于是后来就慢慢转码云了,当然小编在github上的代码也不想放弃更 ...
Python爬取网站上面的数据很简单，但是如何爬取APP上面的数据呢
Python编写网页爬虫爬取oj上的代码信息
OJ升级,代码可能会丢失. 所以要事先备份. 一開始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启示和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 p ...

随机推荐

POJ 3026 ： Borg Maze（BFS + Prim）
http://poj.org/problem?id=3026 Borg Maze Time Limit: 1000MS Memory Limit: 65536K Total Submissions ...
CSS 学习质料
1.学习CSS布局 http://zh.learnlayout.com/display.html
oracle nvl和nvl2的区别
一直用oracle nvl函数,最近发现还有一个nvl2函数: nvl(a,b) 如果a不为null 则返回a,如果a为null则返回b; nvl2(a,b,c) ,如果a不为null 则返回b,如果 ...
cocos2dx win打包apk
1.配置环境(未完) 2. eclipse 导入项目之后配置 Builder新建两个.一个是ndk目录下的 ndk-build.cmd ,一个是自己写的build_native.bat 拷贝资源的 ...
1029 C语言文法定义与C程序的推导过程
1 阅读并理解提供给大家的C语言文法文件. 2 参考该文件写出一个自己好理解版的现实版的完整版的C语言文法. 3 给出一段C程序,写出用上述文法产生这段C程序的推导过程. program → exte ...
利用Selenium自动化web测试
简介: Selenium 是一个没有正式指导手册的开源项目,这让测试人员的问题调查很费时间.本文为基于 Selenium 1.0(发布于 2009 年 6 月)的测试期间的常见问题提供最佳实践. 简介 ...
Accepted Necklace
Accepted Necklace Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) T ...
sscanf 函数分类： POJ 2015-08-04 09:19 4人阅读评论(0) 收藏
sscanf 其实很强大分类: 纯C技术技术笔记 2010-03-05 16:00 12133人阅读评论(4) 收藏举报正则表达式stringbuffercurlgoogle 最近在做日志分 ...
JAVA基础知识之多线程——控制线程
join线程在某个线程中调用其他线程的join()方法,就会使当前线程进入阻塞状态,直到被join线程执行完为止.join方法类似于wait, 通常会在主线程中调用别的线程的join方法,这样可以保 ...
CSU 1325: A very hard problem 中南月赛的一道题。
1325: A very hard problem Time Limit: 3 Sec Memory Limit: 160 MBSubmit: 203 Solved: 53[Submit][Sta ...

抓取oschina上面的代码分享python块区下的 标题和对应URL

抓取oschina上面的代码分享python块区下的 标题和对应URL的更多相关文章

随机推荐

热门专题

抓取oschina上面的代码分享python块区下的标题和对应URL

抓取oschina上面的代码分享python块区下的标题和对应URL的更多相关文章