数据抓取分析（python + mongodb）

分享点干货！！！

Python数据抓取分析

编程模块：requests,lxml，pymongo，time，BeautifulSoup

首先获取所有产品的分类网址：

 def step():

     try:

         headers = {

            。。。。。

             }

         r = requests.get(url,headers,timeout=30)

         html = r.content

         soup = BeautifulSoup(html,"lxml")

         url = soup.find_all(正则表达式)

         for i in url:

             url2 =  i.find_all('a')

             for j in url2:

                  step1url =url + j['href']

                  print step1url

                  step2(step1url)

     except Exception,e:

         print e

我们在产品分类的同时需要确定我们所访问的地址是产品还是又一个分类的产品地址（所以需要判断我们访问的地址是否含有if判断标志）：

 def step2(step1url):

     try:

         headers = {

            。。。。

             }

         r = requests.get(step1url,headers,timeout=30)

         html = r.content

         soup = BeautifulSoup(html,"lxml")

         a = soup.find('div',id='divTbl')

         if a:

             url = soup.find_all('td',class_='S-ITabs')

             for i in url:

                 classifyurl =  i.find_all('a')

                 for j in classifyurl:

                      step2url = url + j['href']

                      #print step2url

                      step3(step2url)

         else:

             postdata(step1url)

当我们if判断后为真则将第二页的分类网址获取到（第一个步骤），否则执行postdata函数，将网页产品地址抓取！

 def producturl(url):

     try:

         p1url = doc.xpath(正则表达式)

         for i in xrange(1,len(p1url) + 1):

             p2url = doc.xpath(正则表达式)

             if len(p2url) > 0:

                 producturl = url + p2url[0].get('href')

                 count = db[table].find({'url':producturl}).count()

                 if count <= 0:

                         sn = getNewsn()

                         db[table].insert({"sn":sn,"url":producturl})

                         print str(sn) + 'inserted successfully'

                 else:

                         'url exist'

     except Exception,e:

         print e

其中为我们所获取到的产品地址并存入mongodb中，sn作为地址的新id。

下面我们需要在mongodb中通过新id索引来获取我们的网址并进行访问，对产品进行数据分析并抓取，将数据更新进数据库内！

其中用到最多的BeautifulSoup这个模块，但是对于存在于js的价值数据使用BeautifulSoup就用起来很吃力，所以对于js中的数据我推荐使用xpath，但是解析网页就需要用到HTML.document_fromstring(url)方法来解析网页。

对于xpath抓取价值数据的同时一定要细心！如果想了解xpath就在下面留言，我会尽快回答！

 def parser(sn,url):

     try:

         headers = {

             。。。。。。

             }

         r = requests.get(url, headers=headers,timeout=30)

         html = r.content

         soup = BeautifulSoup(html,"lxml")

         dt = {}

         #partno

         a = soup.find("meta",itemprop="mpn")

         if a:

             dt['partno'] = a['content']

         #manufacturer

         b = soup.find("meta",itemprop="manufacturer")

         if b:

             dt['manufacturer'] = b['content']

         #description

         c = soup.find("span",itemprop="description")

         if c:

             dt['description'] = c.get_text().strip()

         #price

         price = soup.find("table",class_="table table-condensed occalc_pa_table")

         if price:

             cost = {}

             for i in price.find_all('tr'):

                 if len(i) > 1:

                     td = i.find_all('td')

                     key=td[0].get_text().strip().replace(',','')

                     val=td[1].get_text().replace(u'\u20ac','').strip()

                     if key and val:

                         cost[key] = val

             if cost:

                 dt['cost'] = cost

                 dt['currency'] = 'EUR'

         #quantity

         d = soup.find("input",id="ItemQuantity")

         if d:

            dt['quantity'] = d['value']

         #specs

         e = soup.find("div",class_="row parameter-container")

         if e:

             key1 = []

             val1= []

             for k in e.find_all('dt'):

                 key =  k.get_text().strip().strip('.')

                 if key:

                     key1.append(key)

             for i in e.find_all('dd'):

                 val =  i.get_text().strip()

                 if val:

                     val1.append(val)

             specs = dict(zip(key1,val1))

         if specs:

             dt['specs'] = specs

             print dt

         if dt:

             db[table].update({'sn':sn},{'$set':dt})

             print str(sn) +  ' insert successfully'

             time.sleep(3)

         else:

             error(str(sn) + '\t' + url)

     except Exception,e:

         error(str(sn) + '\t' + url)

         print "Don't data!"

最后全部程序运行，将价值数据分析处理并存入数据库中！

数据抓取分析（python + mongodb）的更多相关文章

python数据抓取分析（python + mongodb）
分享点干货!!! Python数据抓取分析编程模块:requests,lxml,pymongo,time,BeautifulSoup 首先获取所有产品的分类网址: def step(): try: ...
吴裕雄--天生自然python学习笔记：WEB数据抓取与分析
Web 数据抓取技术具有非常巨大的应用需求及价值, 用 Python 在网页上收集数据,不仅抓取数据的操作简单, 而且其数据分析功能也十分强大. 通过 Python 的时lib 组件中的 urlpar ...
Python爬虫工程师必学——App数据抓取实战 ✌✌
Python爬虫工程师必学——App数据抓取实战 (一个人学习或许会很枯燥,但是寻找更多志同道合的朋友一起,学习将会变得更加有意义✌✌) 爬虫分为几大方向,WEB网页数据抓取.APP数据抓取.软件系统 ...
python爬虫(一)_爬虫原理和数据抓取
本篇将开始介绍Python原理,更多内容请参考:Python学习指南为什么要做爬虫著名的革命家.思想家.政治家.战略家.社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT ...
Python数据抓取_BeautifulSoup模块的使用
在数据抓取的过程中,我们往往都需要对数据进行处理本篇文章我们主要来介绍python的HTML和XML的分析库 BeautifulSoup 的官方文档网站如下 https://www.crummy.c ...
【Python入门只需20分钟】从安装到数据抓取、存储原来这么简单
基于大众对Python的大肆吹捧和赞赏,作为一名Java从业人员,我本着批判与好奇的心态买了本python方面的书<毫无障碍学Python>.仅仅看了书前面一小部分的我......决定做一 ...
Python数据抓取（1） —数据处理前的准备
(一)数据抓取概要为什么要学会抓取网络数据? 对公司或对自己有价值的数据,80%都不在本地的数据库,它们都散落在广大的网络数据,这些数据通常都伴随着网页的形式呈现,这样的数据我们称为非结构化数据如 ...
python爬虫数据抓取方法汇总
概要:利用python进行web数据抓取方法和实现. 1.python进行网页数据抓取有两种方式:一种是直接依据url链接来拼接使用get方法得到内容,一种是构建post请求改变对应参数来获得web返 ...
Python数据抓取技术与实战 pdf
Python数据抓取技术与实战目录 D11章Python基础1.1Python安装1.2安装pip1.3如何查看帮助1.4D1一个实例1.5文件操作1.6循环1.7异常1.8元组1.9列表1.10字 ...

随机推荐

201521123088《java程序与设计》第9周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结异常相关内容. 2. 书面作业 1. 常用异常题目5-1 1.1 截图你的提交结果(出现学号) 1.2 自己以前编写的代码中经常出 ...
201521123074 《Java程序设计》第10周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结异常与多线程相关内容. 2. 书面作业本次PTA作业题集异常.多线程 Q1.finally 题目4-2 1.1 截图你的提交结果( ...
JPA常用注解（转载）
转自:http://blog.csdn.net/wanghuan203/article/details/8698102 JPA全称Java Persistence API.JPA通过JDK 5.0注解 ...
tomcat管理界面登录无法进入
问题: 在打开tomcat界面之后,点击Manger App准备进入管理界面,路径:http://localhost:8080/manager/html. 输入正确的用户名和密码,但是出现401界面. ...
unity3D写一个hello world
unity3D写一个hello world 打开unity并且在assets建立一个新的文件,新的文件命名为hello world.unity.接着创建一个新的C#Sript脚本文件,命名为hello ...
详解AngularJS中的依赖注入
点击查看AngularJS系列目录依赖注入一般来说,一个对象只能通过三种方法来得到它的依赖项目: 我们可以在对象内部创建依赖项目我们可以将依赖作为一个全局变量来进行查找或引用我们可以将依赖传递 ...
“一切都是消息”--MSF（消息服务框架）入门简介
“一切都是消息”--这是MSF(消息服务框架)的设计哲学. MSF的名字是 Message Service Framework 的简称,中文名称:消息服务框架,它是PDF.NET框架的一部分. 1,M ...
Redis学习——Redis事务
Redis和传统的关系型数据库一样,因为具有持久化的功能,所以也有事务的功能! 有关事务相关的概念和介绍,这里就不做介绍. 在学习Redis的事务之前,首先抛出一个面试的问题. 面试官:请问Redis ...
剑指offer（纪念版）读书笔记【实时更新】
C++ 1.STL的vector每次扩充容量,新容量是前一次的两倍. 2.32位机指针大小为4个字节,64位机指针大小为8个字节. 3.当数组作为函数参数传递时,数组会自动退化成同类型指针. 4. & ...
hdu4705 Y 2013 Multi-University Training Contest 10
Y Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Others) Total Submis ...

数据抓取分析（python + mongodb）

数据抓取分析（python + mongodb）的更多相关文章

随机推荐

热门专题