今天对爬取程序进行了优化,修正了错误. 遇到了两个问题与错误: 1.忘记了对文件的读写设置格式,导致导入Hive数据库无法正常显示以及写入. 2.文件的读写操作有误导致数据量仅有应该有的1/2 不完整的爬取经过Hive数据库处理后得到的数据如下: 总数:15031 20061298 20072104 2008658 2009409 2010770 2011318 2012289 2013480 20142031 20151884 20161738 20171075 2018853 2019100…
时间:2020.2.6 今天把昨天做到一半的首都之窗百姓信件爬取完成了. 源码如下: import requests import io from bs4 import BeautifulSoup #信1705-1 赵路仓 kv = {'user-agent': 'Mozilla/5.0'} id='AH20010700179' def read(): f=open('E://list.txt','r') for line in f: id=f.readline().rstrip('\n') p…
今天主要对昨天爬取的数据进行处理,处理后用Echart图表展示, 效果如下:…
经人提醒忘记发网址id的爬取过程了, http://www.beijing.gov.cn/hudong/hdjl/com.web.consult.consultDetail.flow?originalId=AH20021300174 AH20021300174为要爬取的内容 现代码如下: import json import requests import io url="http://www.beijing.gov.cn/hudong/hdjl/com.web.search.mailList.…
日期:2020.01.22 博客期:130 星期三 [代码说明,如果要使用此页代码,必须在本博客页面评论区给予说明] //博客总体说明 1.准备工作(本期博客) 2.爬取工作 3.数据处理 4.信息展示 今天来说一说爬取的工作进展,我们的要求是爬取首都之窗的信件类型,那么我们就开始吧! 首先,先找到网页:http://www.beijing.gov.cn/hudong/hdjl/com.web.search.mailList.flow 然后找到网页的结构,发现是简单的HTML结构,那我们就可以启…
C语言假期学习笔记--6 数组 主要学习了一位数组和二维数组. 数组是一组具有相同类型的变量的集合.C语言程序通过元素的下标来访问数组中的元素.(下标从0开始) 一位数组 类型 数组名[元素个数] 二维数组 类型 数组名[第一维长度][第二维长度] 第一维长度在某些时刻可以省略(当形参被声明为二维数组时),第二维长度永远不可以省略 存储的元素总量=第一维长度*第二维长度 向函数传递数组 先对数组的容量进行限制例如下面限定数组最多存储40个元素. #define N 40 void PassArr…
日期:2020.01.25 博客期:133 星期六 [代码说明,如果要使用此页代码,必须在本博客页面评论区给予说明] //博客总体说明 1.准备工作 2.爬取工作 3.数据处理 4.信息展示(本期博客) 大年初一,先给大家说声“过年好”!嗯~说说今天写的部分,因为今天过大年嘛,也没有写什么特别难的东西!就是把上一回博客的内容进行整理,然后根据ECharts的接口进行数据可视化的展示! 下面是项目的目录结构: 嗯!老师说基本的页面是按照我的那个老模板来做的,这样比较省力气! Java部分: com…
日期:2020.01.24 博客期:132 星期五 [代码说明,如果要使用此页代码,必须在本博客页面评论区给予说明] //博客总体说明 1.准备工作 2.爬取工作 3.数据处理(本期博客) 4.信息展示 好了今天是除夕,先给大家说句吉利话,“祝大家打代码代代顺利,码码成功”!我因为回家了,今天没做太多东西... ...呼~ 登录虚拟机,启动hadoop和hive,准备做数据处理部分! //建数据库的语句 create table govdata( kind string, asker strin…
日期:2020.01.23 博客期:131 星期四 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] //博客总体说明 1.准备工作 2.爬取工作(本期博客) 3.数据处理 4.信息展示 我试着改写了一下爬虫脚本,试着运行了一下,第一次卡在了第27页,因为第27页有那个“投诉”类型是我没有料到的!出于对这个问题的解决,我重新写了代码,新的类和上一个总体类的区别有以下几点: 1.因为要使用js调取下一页的数据,所以就去网站上下载了FireFox的驱动 安装参考博客:htt…
layout: post title: 侯捷STL学习(九) date: 2017-07-21 tag: 侯捷STL --- 第十九节 容器rb_tree Red-Black tree是自平衡二叉搜索树. rb_tree的封装 清楚传入模板的参数列表:然后构建了一个虚空结点header KeyOfValue表示怎么从value中取出key identity函数(Gnu C独有)就是表示同一个数的意思 handle-body,采用OOP的思想,构建G4.9 一个红黑树的大小为4个字节 test R…