selenium+BeautifulSoup+phantomjs爬取新浪新闻

一下载phantomjs，把phantomjs.exe的文件路径加到环境变量中，也可以phantomjs.exe拷贝到一个已存在的环境变量路径中，比如我用的anaconda，我把phantomjs.exe文件加入到了Anaconda3这个文件夹中（Anaconda3已加入环境变量）

二 pip安装selenium+BeautifulSoup+phantomjs 命令pip install selenium，anaconda中已有BeautifulSoup，不用管

三爬取数据，目标是爬取新浪新闻下的公司下面的所有的新闻文本。如图是新闻文章的列表，我们首先要抓取文章对用的链接，然后进入链接抓取文本

由于采用的是js加载的，如果直接用beautifulsoup是解析不出的，这里采用selenium+phantomjs抓取。抓取的思路是首先模拟点击公司新闻按钮，进入公司新闻栏目下，抓取该页所有新闻文章对应的链接，然后点击模拟点击下一页进入下一页循环抓取

下面是粗糙的代码实现：

from selenium import webdriver

from selenium.webdriver.common.by import By

from bs4 import BeautifulSoup

from urllib.request import urlopen

import re

import time

def get_links(driver):

    '''

    爬取链接并写入txt中

    '''

    t1 = time.time()

    try:

        driver.find_element(By.LINK_TEXT, "下一页").click()#每爬取完一页点击下一页

    except NoSuchElementException:

        time.sleep(1)

        driver.find_element(By.LINK_TEXT, "下5页").click()#有可能遇到没有下一页，尝试点击下5页

    time.sleep(1)

    bs = BeautifulSoup(driver.page_source)#不知道怎么用selenium直接解析出href。把selenium的webdriver调用page_source函数在传入BeautifulSoup中，就可以用BeautifulSoup解析网页了

    links = []

    for i in bs.findAll('a',href=re.compile("http://finance.sina.com.cn/chanjing/gsnews/.")):#用正则表达式找出所有需要的链接

        link = i.get('href')

        if link not in links:#去掉重复链接

            links.append(link)

            f.write(link+'\n')

    t2 = time.time()

    page_num = bs.find('span',{'class','pagebox_num_nonce'}).text#找出当前页数

    page_num = int(page_num)

    if page_num>4:

        return

    print('爬取完第%d页,用时%d秒'%(page_num,t2-t1))

    get_links(driver)

def get_text(links,path):

    '''

    解析出所需文本，第一个参数为链接列表，第二个为保存路径

    '''

    n=0

    for link in links:

        html = urlopen(link)

        bsObj = BeautifulSoup(html)

        temp = ''

        try:

            for link in bsObj.find("div",{'id':re.compile('artibody')}).findAll('p'):

                temp = temp+link.text.strip()#把每一段都拼接在一起

            print(temp[:31])

            path.write(temp+'\n')

            n+=1

            print('爬取完第%d篇'%n)

            print('\n')

        except (AttributeError,UnicodeEncodeError,UnicodeEncodeError):#这里的处理可能有点暴力

            continue

if True:#我把爬取的链接保存了下，所分成了两部，第一次爬取链接，第二次爬取文本

    f = open('E:\hei.txt','w')

    driver = webdriver.PhantomJS()#如果phantomjs.exe所在路径没有加入环境变量，这里也可以直接把其路径作为参数传给PhantomJS()

    driver.get("http://finance.sina.com.cn/chanjing/")

    driver.find_element(By.LINK_TEXT, "公司新闻").click()

    time.sleep(2)

    get_links(driver)

    f.close()

    driver.close()

if True:#爬取文本

    xl = open('E:\heiii.txt','w')

    with open('E:\heii.txt') as f:

        links = [link.strip() for link in f]

    get_text(links,xl)

selenium+BeautifulSoup+phantomjs爬取新浪新闻的更多相关文章

python3爬虫-爬取新浪新闻首页所有新闻标题
准备工作:安装requests和BeautifulSoup4.打开cmd,输入如下命令 pip install requests pip install BeautifulSoup4 打开我们要爬取的 ...
Python3：爬取新浪、网易、今日头条、UC四大网站新闻标题及内容
Python3:爬取新浪.网易.今日头条.UC四大网站新闻标题及内容以爬取相应网站的社会新闻内容为例: 一.新浪: 新浪网的新闻比较好爬取,我是用BeautifulSoup直接解析的,它并没有使用J ...
Python 爬虫实例（7）—— 爬取新浪军事新闻
我们打开新浪新闻,看到页面如下,首先去爬取一级 url,图片中蓝色圆圈部分第二zh张图片,显示需要分页, 源代码: # coding:utf-8 import json import redis i ...
【转】Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...
Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...
php使用pthreads v3多线程的抓取新浪新闻信息
我们使用pthreads,来写一个多线程的抓取页面小程序,把结果存到数据库里. 数据表结构如下: CREATE TABLE `tb_sina` ( `id` int(11) unsigned NOT ...
python2.7 爬虫初体验爬取新浪国内新闻_20161130
python2.7 爬虫初学习模块:BeautifulSoup requests 1.获取新浪国内新闻标题 2.获取新闻url 3.还没想好,想法是把第2步的url 获取到下载网页源代码再去分析源 ...
python爬取新浪股票数据—绘图【原创分享】
目标:不做蜡烛图,只用折线图绘图,绘出四条线之间的关系. 注:未使用接口,仅爬虫学习,不做任何违法操作. """ 新浪财经,爬取历史股票数据 ""&q ...
python3使用requests爬取新浪热门微博
微博登录的实现代码来源:https://gist.github.com/mrluanma/3621775 相关环境使用的python3.4,发现配置好环境后可以直接使用pip easy_instal ...

随机推荐

解决magento保存产品时耗时很长的问题
以前我在更新产品属性值(拿price为例)的时候,通常会这样做: foreach($product_ids as $id){ $product = Mage::getModel('catalog/pr ...
javascrip cookie
首先要明白一下cookie的概念.由于HTTP协议是一种无状态协议,也就是说一旦server和client的数据交换完成后,他们之间的连接就会被断开.再次交换数据的时候就须要再次建立连接.这就意味着s ...
Android乐学成语之自定义Adapter
一.首先对Adapter概念深刻的了解首先看看他的继承图
MFC下DLL编程（图解）
DLL(Dynamic Link Library,动态链接库)是微软公司为Windows和OS/2操作系统设计一种供应用程序在运行时调用的共享函数库.DLL是应用程序的一种扩展,也是软件共享和重用的传 ...
Linux字符界面和图形界面
Ubuntu图形界面和字符界面的切换 Ubuntu和其他的Linux系统一样,有图形界面和字符界面,同时能够设置默认的启动界面. linux的显示界面分为命令行的字符界面和图形界面,我们可以设置lin ...
jquery的extend()函数
extend()是在写插件的过程中常用的方法,该方法有一些重载原型. 1.该方法的原型是: extend(dest,src1,src2,src3...); 它的含义是将src1,src2,src3.. ...
JAVA中把ResultSet转换成LIST
项目中老是遇到数据库异常关闭的情况,真烦, 想用hibernate呢,那个玩意儿又太笨重,感慨C#和PHP的舒适方便性,模拟TP写了个数据处理层,将就用着先代码里有很多项目中的东西,不要直接COPY了 ...
poj 3243 Clever Y 高次方程
1 Accepted 8508K 579MS C++ 2237B/** hash的强大,,还是高次方程,不过要求n不一定是素数 **/ #include <iostream> #inclu ...
selenium 学习笔记 ---新手学习记录（3）问题总结（java）
1.验证码简单处理 /** * 验证码等待输入函数 * */ private void ZcYzm(WebDriver driver){ boolean flag=false; while(flag= ...
JavaWEB开发中的/到底代表什么

selenium+BeautifulSoup+phantomjs爬取新浪新闻

selenium+BeautifulSoup+phantomjs爬取新浪新闻的更多相关文章

随机推荐

热门专题