python爬取商品信息

老严要爬某网购网站的商品信息，正好我最近在学python，就一起写了一个简单的爬虫程序。

需求：某网的商品信息，包括商品名，市场价和售价

工具：python2.7.8，urllib2，re

#coding = utf-8

import urllib2

import re

path = "aaa.txt"

f = open(path, 'w+')

for i in range(4980, 4991):

    print i

    # get webpage content

    url = "http://*" + str(i) + "*"

    page = urllib2.urlopen(url).read()

    # Regular matching

    matchTitle = re.search(r'<dt>(.*?)</dt>', page)

    matchMarketPrice = re.search(r'<del.*?>(.*?)</del>', page)

    matchCurrentPrice = re.search(r'<b>(.*?)</b>', page)

    # save result

    if matchTitle and matchMarketPrice and matchCurrentPrice:

        f.write(matchTitle.group(1) + '\t' + matchMarketPrice.group(1) + '\t' + matchCurrentPrice.group(1) + '\n')

f.close()

　　部分结果显示：

欧莱雅奇焕光感粉嫩透亮修颜霜30ml ¥120.00 109.00

欧莱雅复颜洁面乳125ml	¥130.00	105.00

欧莱雅复颜抗皱紧致滋润眼霜15ml	¥210.00	179.00

欧莱雅复颜清漾柔肤水175ml	¥160.00	138.00

python爬取商品信息的更多相关文章

Python爬取招聘信息，并且存储到MySQL数据库中
前面一篇文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为前一天的,同时将爬取的内容保存到数据库中:这篇文章主要讲述如何将python文件压缩成exe可执行文件,供后面的操作. 这系列文章 ...
Python爬取网页信息
Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初 ...
python爬取酒店信息练习
爬取酒店信息,首先知道要用到那些库.本次使用request库区获取网页,使用bs4来解析网页,使用selenium来进行模拟浏览. 本次要爬取的美团网的蚌埠酒店信息及其评价.爬取的网址为“http:/ ...
(转)python爬取拉勾网信息
学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫. 第一步:分析网站的请求过程我们在查看拉勾网上的招聘信息的时候 ...
配置scrapy-splash+python爬取医院信息（利用了scrapy-splash）
北京艾丽斯妇科医院(http://fuke.fuke120.com/) 首先先说一下配置splash 1.利用pip安装scrapy-splash库 pip install scrapy-splash ...
python爬取微信信息--显示性别/地域/词云（附代码）
看到一篇有意思的博客利用微信开放的接口itchat 可以获取登录的微信好友信息并且利用图像工具显示分析结果非常的有意思记录下实现过程并提供可执行代码首先要 import itchat 库 ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...
常用正则表达式爬取网页信息及HTML分析总结
Python爬取网页信息时,经常使用的正则表达式及方法. 1.获取<tr></tr>标签之间内容 2.获取<a href..></a>超链接之间内容 3 ...
Python爬虫之selenium爬虫，模拟浏览器爬取天猫信息
由于工作需要,需要提取到天猫400个指定商品页面中指定的信息,于是有了这个爬虫.这是一个使用 selenium 爬取天猫商品信息的爬虫,虽然功能单一,但是也算是 selenium 爬虫的基本用法了. ...

随机推荐

mysql外键约束无法删除数据的情况解决办法
先删除子表的数据,然后再删除主表的数据.
Oracle中验证非空的函数NVL(),NVL2()总结
1.NVL()函数 NVL函数的格式如下: NVL(expr1,expr2) 含义是:如果oracle第一个参数为空那么显示第二个参数的值,如果第一个参数的值不为空,则显示第一个参数本来的值. 2 N ...
Redis学习笔记之Redis单机,伪集群,Sentinel主从复制的安装和配置
0x00 Redis简介 Redis是一款开源的.高性能的键-值存储(key-value store).它常被称作是一款数据结构服务器(data structure server). Redis的键值 ...
Session管理之超时设置和强制下线
关于Session,在Java Web开发中,为我们提供了很多方便,Session是由浏览器和服务器之间维护的.好吧,闲话不多说,下面让我们一步一步来实现它们. (一)首先来说下Session超时时间 ...
20145312 《Java程序设计》第四周学习总结
20145312 <Java程序设计>第四周学习总结学习笔记 Chapter 6 6.1何为继承 1.定义:面向对象中子类继承父类,避免重复的行为定义. 6.1.1 继承共同行为 1.以 ...
20145324 Java实验一
北京电子科技学院(BESTI) 实验报告课程:JAVA 班级:1453 姓名:王嘉澜学号:20145324 成绩: 指导教师:娄嘉鹏实验日期:2016.4.8 实验密级: 预习程度: 实验 ...
20145329 吉东云《Java程序设计》第二周学习总结
教材学习内容总结第三章基础语法基本类型 1.整数(short.int.long) 2.字节(byte),可表示-128~127的整数 3.浮点数(float/double),主要储存小数数值 4 ...
Xcode Missing file的解决方案
因为没在工程里面删除文件,导致Xcode报了一大堆警告,都是Missing file的警告,研究了一下,下面是我的解决方案: Missing file出现的原因原因就是你在文件里面删除了文件,但是在 ...
elasticsearch系列（六）备份
快照备份 1.创建文件仓库 1.1 在$ELASTICSEARCH_HOME/config/elasticsearch.yaml中增加配置 #这个路径elasticsearch必须有权限访问,这个路径 ...
【分类】AlexNet论文总结
目录 0. 论文链接 1. 概述 2. 对数据集的处理 3. 网络模型 3.1 ReLU Nonlinearity 3.2 Training on multiple GPUs 3.3 Local Re ...

python爬取商品信息

python爬取商品信息的更多相关文章

随机推荐

热门专题