Python 学习(1) 简单的小爬虫】的更多相关文章

最近抽空学了两天的Python,基础知识都看完了,正好想申请个联通日租卡,就花了2小时写了个小爬虫,爬一下联通日租卡的申请页面,看有没有好记一点的手机号~   人工挑眼都挑花了. 用的IDE是PyCharm,首先下载一些需要用到的包和模块: requests 和 beautifulsoup4. 不过发现请求的url返回的是json数据,就没用beautifulsoup4而是直接用正则提取手机号了. 注释写的还是很详细的,打分的方法非常简陋,一般这种便宜的套餐也没啥好号,今天太晚了,就这样吧,哪天…
打开py的IDLE >>>import urllib.request >>>a=urllib.request.urlopen("http://www.baidu.com") >>>html=a.read().decode("utf-8") >>>print(html) 结果:…
这个爬虫的作用是,对于一个给定的url,查找页面里面所有的url连接并依次贪婪爬取 主要需要注意的地方: 1.lxml.html.iterlinks()  可以实现对页面所有url的查找 2.获取页面要设置超时,否则遇到没有响应的页面,代码容易卡死 3.对所有异常的捕获 4.广度优先搜索实现 具体代码如下: #!/usr/bin/env python #encoding:utf8 #这是一个爬虫代码,从初始url页面中查找所有的url并根据广度优先的顺序依次贪婪爬取 #爬取的页面以1.html,…
注: 此处的小评论涉及数据库操作 初级小评论代码 settings.py INSTALLED_APPS = [ ... 'app01', # 注册app ] STATICFILES_DIRS = (os.path.join(BASE_DIR, "statics"),) # 现添加的配置,这里是元组,注意逗号 TEMPLATES = [ ... 'DIRS': [os.path.join(BASE_DIR, 'templates')], ] urls.py from django.con…
Redis通常被认为是一种持久化的存储器关键字-值型存储,可以用于几台机子之间的数据共享平台. 连接数据库 注意:假设现有几台在同一局域网内的机器分别为Master和几个Slaver Master连接时host为localhost即本机的ip _db = redis.Reds(host='localhost', port=6379, db=0) Slaver连接时的host也为Master的ip,端口port和数据库db不写时为默认值6379.0 _db = redis.Redis(host='…
为了加快学习python3.x,查了许多资料后写了这个脚本,这个脚本主要是爬取百度图片'东方幻想乡'的图片,但还是有很多问题存在. 下面给出代码: # 更新了一下代码 from urllib import request import re class CrawlImg: # 定义一个爬取图片的类 def __init__(self): # 构造函数 print('Link start!') def __GetHtml(self, html): post = request.urlopen(ht…
在学习python过程中,没有项目做,就想到哪儿弄到哪儿. 头一发.让机器随机固定一个数字,然后让人去猜. 就这么简单.代码如下: #-*- encoding:utf8 -*- import random def main(): r_num = random.randint(1,100) ck = 1 while True: user_num = raw_input("\n请输入一个1-100的整数,如含有小数将被舍弃:\n\t") try: int_num = int(user_nu…
Nodejs将JavaScript语言带到了服务器端,作为js主力用户的前端们,因此获得了服务器端的开发能力,但除了用express搭建一个博客外,还有什么好玩的项目可以做呢?不如就做一个网络爬虫吧.据说互联网上的流量90%以上都是爬虫贡献的,不知道真假,但起码证明了,爬虫是一种用途广泛的东西,尤其在电商比价领域,整个就是爬虫的技术较量,当然我要做的是爬虫中的弱鸡,只实现基本功能,先上源码. 下面简述一下实现过程.首先挑选爬取对象,这里选择的也是门槛比较低的新闻站cnBeta.com,因为每天上…
每天的工作其实很无聊,早知道应该去IT公司闯荡的.最近的工作内容是每逢一个整点,从早7点到晚11点,去查一次客流数据,整理到表格中,上交给素未蒙面的上线,由他呈交领导查阅. 人的精力毕竟是有限的,所以不一定在每个整点都可以及时去做这项工作.灵机一动,这种一丝不苟的活儿应该让计算器来做,由它来在每个整点来告诉我该去工作了. 说干就干,平时只用c#写过小程序,由于办公电脑上是公用的,所以没有想自己电脑一样装有visual studio,索性心一横,用python试试吧.总是听说那句大名鼎鼎的“人生苦…
学习总是枯燥的,对于Python小白的我来讲,更是乏味的.为了提高学习的兴趣,今天我就来写一个小程序练练手. 数字猜谜游戏相信大家都不陌生,A给出最小值最大值,B写一个该范围内的数,A猜测写下的是多少,B通过大小给出提示,并计算猜了多少次才猜对. 使用Python做出这个程序,我们应是A. 第一步,便是输入最大最小值: 第二步,在这个范围内随机取值: 第三步,设置一个计数器及猜测的数: 第四步,判断猜测的数是否正确,并给出提示: 接下来输入自己猜测的数,并根据提示继续猜测: 最后,给出猜测的次数…