Python爬取ithome的一所有新闻标题评论数及其他一些信息并存入Excel中。

 # coding=utf-8

 import numpy as np

 import pandas as pd

 import sys

 from selenium import webdriver

 import time

 import requests

 import re

 from openpyxl.workbook import Workbook

 import matplotlib.pyplot as plt

 import matplotlib

 urls = []

 urls_new = []

 titles = []

 titles_new = []

 days = []

 comments = []

 authors = []

 sources = []

 comment = []

 ty = []

 def save_to_file(file_name, contents):

     fh = open(file_name, 'w')

     fh.write(contents)

     fh.close()

 url="https://www.ithome.com/"

 # headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36'

 #                          '(KHTML,like Gecko) Chrome/50.0.2661.102 Safari/537.36 QIHU 360EE'}

 headers={'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0"}

 rep = requests.get(url,headers=headers)

 rep.encoding="utf-8"

 strw=rep.text

 save_to_file('ithome.html', strw)

 p = re.compile(r'<div class="lst lst-1 new-list">(.*?)</div>\s*?</div>')

 m = p.findall(strw)

 print(len(m[0]))

 p = re.compile(r'<div class=\"block \d{4} new-list-\d{1}\"(?: style=\".*?\")?><ul>(.*?)</ul></div>')

 m2 = p.findall(m[0])

 print(len(m2))

 broswer = webdriver.Chrome('D:\谷歌\Google\Chrome\Application\chromedriver.exe')

 for i in m2:

     m2 = re.findall(r'</span><span class=\"title\">.*?href=\"(.*?)\">(?:<.*?>)?(.*?)(?:</font>)?</a></span></li>', i)

     for j in m2:

         urls.append(j[0])

         titles.append(j[1])

 print(len(urls))

 for i in range(len(urls)):

     print(u'读取中' + urls[i])

     broswer.get(urls[i])

     time.sleep(1)

     strw2 = broswer.page_source

     # print(strw2)

     p2 = re.compile(r'https://\w+?.ithome.com/(?:html/)?(.*?)/.*?')

     m2 = p2.findall(urls[i])

     print(m2)

     p = re.compile(u'<span id="pubtime_baidu">(\d*-\d*-\d*).*?</span><span id="source_baidu">'

                    u'来源：<a href=".*?" .*?>(.*?)</a></span><span id="author_baidu">'

                    u'作者：(?:<strong>)?(.*?)(?:</strong>)?</span>.*?<span id="commentcount">(.*?)</span>')

     m = p.findall(strw2)

     print(m)

     if len(m) > 0:

         days.append(m[0][0])

         sources.append(m[0][1])

         authors.append(m[0][2])

         urls_new.append(urls[i])

         comments.append(m[0][3])

         titles_new.append(titles[i])

         ty.append(m2[0])

 print("读取结束")

 data={'日期':days,'作者':authors,'来源':sources,'标题':titles_new,'链接':urls_new,'评论数量':comments,'新闻类型':ty}

 df = pd.DataFrame(data, columns=['日期', '作者', '来源','标题','链接','评论数量','新闻类型'])

 # print(df)

 df.to_excel(r'ShuJuPa.xlsx',sheet_name='数据爬取结果',encoding='gb2312')

Python爬取ithome的一所有新闻标题评论数及其他一些信息并存入Excel中。的更多相关文章

Python爬取腾讯新闻首页所有新闻及评论
前言这篇博客写的是实现的一个爬取腾讯新闻首页所有的新闻及其所有评论的爬虫.选用Python的Scrapy框架.这篇文章主要讨论使用Chrome浏览器的开发者工具获取新闻及评论的来源地址. Chrom ...
Python 爬取热词并进行分类数据分析-[数据修复]
日期:2020.02.01 博客期:140 星期六 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...
Python 爬取热词并进行分类数据分析-[解释修复+热词引用]
日期:2020.02.02 博客期:141 星期日 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...
Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
Python:爬取乌云厂商列表，使用BeautifulSoup解析
在SSS论坛看到有人写的Python爬取乌云厂商,想练一下手,就照着重新写了一遍原帖:http://bbs.sssie.com/thread-965-1-1.html #coding:utf- im ...
使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...
Python 爬取美团酒店信息
事由:近期和朋友聊天,聊到黄山酒店事情,需要了解一下黄山的酒店情况,然后就想着用python 爬一些数据出来,做个参考主要思路:通过查找,基本思路清晰,目标明确,仅仅爬取美团莫一地区的酒店信息,不过 ...

随机推荐

CSS标题线（删除线贯穿线效果）实现之一二
缘起其实看到这个问题,心里已经默默把代码已经码好了~,不就想下面这样嘛:JSBIN代码示例嗯,是的,我们日常确实基本上就是用的这种方式,也没啥问题呀~,来个背景色定下位就欧拉欧拉的了. 不过,因为 ...
【database】oracle触发器基础
一.oracle触发器基本语法 CREATE [OR REPLACE] TRIGGER trigger_name {BEFORE | AFTER } {INSERT | DELETE | UPDATE ...
关于f(x)
有时 z = x + y 有时 0 = x + y 有时单独用f(x) 有时 z = f(x) 很容易分不清. 从集合角度,将f(x)看成映射即从A集合到B集合的对应关系这样f(x)可以单独使用, ...
Java中的实体类--Serializable接口、transient 关键字
在java中,实体类是一个非常重要的概念,我们可以在实体类中封装对象.设置其属性和方法等.关于实体类,也经常涉及到适配器模式.装饰者模式等设计模式.那么在实际代码开发中,关于实体类的注意事项有哪些呢? ...
《NVM-Express-1_4-2019.06.10-Ratified》学习笔记（6.5-加-8.2-加-8.3）End-to-end_Data_Protection
6.5 End-to-end Protection Information 端到端保护信息包含数据转存的命令可以使用端到端数据保护.在这些命令内部[位于Command Dword 12 的 [29: ...
defender 月考总结
今天是2019年5月28日,昨天月考了,也是C**生日.昨天考完之后,还是那种考完试的释然感.目前,已经批出来了数学.英语.物理三门学科的成绩,语文还没有批出来.应该明天就能够批出来吧.现在趁着休息, ...
python3练习100题——039
原题链接:http://www.runoob.com/python/python-exercise-example39.html 题目:有一个已经排好序的数组.现输入一个数,要求按原来的规律将它插入数 ...
《Python学习手册第五版》 -第14章迭代和推导
承接上一章for循环的讲解,迭代和推导,是对for循环的一种深入的探索和扩展本章重点内容 1.迭代 1)什么是迭代?都有哪些分类 2)常规的使用方法 3)多遍迭代器VS单遍迭代器 2.列表推导 1) ...
[转]TCP/IP 协议基础（一）
参考书籍为<图解tcp/ip>-第五版.这篇随笔,主要内容还是TCP/IP所必备的基础知识,包括计算机与网络发展的历史及标准化过程(简述).OSI参考模型.网络概念的本质.网络构建的设备等 ...
day03_1spring3
事务管理的几种方式.spring整合Junit.spring整合web.ssh整合一.事务管理的几种方式: 1.介绍前提我们需要导入:spring-tx-3.2.0.RELEASE.jar的包里面含 ...

Python爬取ithome的一所有新闻标题评论数及其他一些信息并存入Excel中。

Python爬取ithome的一所有新闻标题评论数及其他一些信息并存入Excel中。的更多相关文章

随机推荐

热门专题