Python 爬取北京市政府首都之窗信件列表-[数据处理]

日期：2020.01.24

博客期：132

星期五

　　【代码说明，如果要使用此页代码，必须在本博客页面评论区给予说明】

　　//博客总体说明

　　1、准备工作

　　2、爬取工作

　　3、数据处理（本期博客）

　　4、信息展示

　　好了今天是除夕，先给大家说句吉利话，“祝大家打代码代代顺利，码码成功”！我因为回家了，今天没做太多东西... ...呼~

　　登录虚拟机，启动hadoop和hive，准备做数据处理部分！

//建数据库的语句

create table govdata(

   kind string,

   asker string,

   responser string,

   asktime string,

   responsetime string,

   title string,

   questionSupport int,

   responseSupport string,

   responseUnsupport string,

   questiontext string,

   responsetext string

)  row format delimited

fields terminated by '\t';

　　处理如下：

　　之后通过文件导入数据（以"\t"为分隔符进行数据导入）：

//从路径为"/data/edu3/govdata"的文件导入数据

load data local inpath '/data/edu3/govdata' into table govdata;

　　处理如下：

　　之后对应需求部分的处理正在进行

　　下面是对数据库的测试：

　　之后使用文件导入方式导入到mysql （因为是以\t为分隔符所以对应以下代码）

LOAD DATA INFILE

'E:\\课件\\3-2\\大数据\\大三寒假作业\\2020-01-23\\datas.txt'

 INTO TABLE govdata

FIELDS TERMINATED BY '\t'

LINES TERMINATED BY '\n'

　　导入以后分别使用sql语句去建立三个需求的表：

CREATE table kinddata

As

(

select

 kind as kind,

 count(1) as num

from govdata

group by kind

order by num desc

);

CREATE table yeardata

AS

(

select

SUBSTRING(asktime,1,4) as dt,

 count(*) as num

from govdata

group by dt

)

;

CREATE table responserdata

AS

(

select

  gd.responser as responser,

  count(*) as num

from govdata gd

group by responser

order by num desc

);

　　得到数据表（可以提供制作网页的数据）：

　　这分别对应的是每年的信件量，回答方对应的信件数，和不同类型的信件数

Python 爬取北京市政府首都之窗信件列表-[数据处理]的更多相关文章

Python 爬取北京市政府首都之窗信件列表-[Scrapy框架](2020年寒假小目标04)
日期:2020.01.22 博客期:130 星期三 [代码说明,如果要使用此页代码,必须在本博客页面评论区给予说明] //博客总体说明 1.准备工作(本期博客) 2.爬取工作 3.数据处理 4.信息展 ...
Python 爬取北京市政府首都之窗信件列表-[后续补充]
日期:2020.01.23 博客期:131 星期四 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] //博客总体说明 1.准备工作 2.爬取工作(本期博客) 3.数据处理 ...
Python 爬取北京市政府首都之窗信件列表-[信息展示]
日期:2020.01.25 博客期:133 星期六 [代码说明,如果要使用此页代码,必须在本博客页面评论区给予说明] //博客总体说明 1.准备工作 2.爬取工作 3.数据处理 4.信息展示(本期博客 ...
python爬取北京政府信件信息01
python爬取,找到目标地址,开始研究网页代码格式,于是就开始根据之前学的知识进行爬取,出师不利啊,一开始爬取就出现了个问题,这是之前是没有遇到过的,明明地址没问题,就是显示网页不存在,于是就在百度 ...
Python爬取招聘信息，并且存储到MySQL数据库中
前面一篇文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为前一天的,同时将爬取的内容保存到数据库中:这篇文章主要讲述如何将python文件压缩成exe可执行文件,供后面的操作. 这系列文章 ...
Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
Python:爬取乌云厂商列表，使用BeautifulSoup解析
在SSS论坛看到有人写的Python爬取乌云厂商,想练一下手,就照着重新写了一遍原帖:http://bbs.sssie.com/thread-965-1-1.html #coding:utf- im ...

随机推荐

如何切换虚拟机（centos6）和windows
通过设置热键,选择Ctrl+Alt+Fx即可.重启linux之后按Ctrl+Alt+Fx切换不同的终端的就可以了图一. 图二.
对 Element UI table中数据进行二次处理
(1)<el-table-column>标签加上 :formatter="dateFormat" <el-table-column prop="Star ...
Jenkins+Maven+Github+Springboot实现可持续自动部署(非常详细)
目前公司开发的项目已经部署到服务器上,部署项目的测试环境和生产环境,加上每个项目n个服务,于是我就 , 骚就是骚,但是就是太累了,于是花点时间研究了一下Jenkins. Jenkins的作用和它的lo ...
ASP.NET Core搭建多层网站架构【8.1-使用ViewModel注解验证】
2020/01/29, ASP.NET Core 3.1, VS2019 摘要:基于ASP.NET Core 3.1 WebApi搭建后端多层网站架构[8.1-使用ViewModel注解验证] 使用V ...
「题解」「2014 NOI模拟赛 Day7」冒泡排序
目录题目考场思考正解题目勾起了我对我蒟蒻时代的回忆,虽然我现在也蒟蒻题目点这里可能链接会挂,在网上搜题目就有. 毕竟 $BZOJ$ 有点老了... 考场思考本来以为十分友善的一道题 ...
WinForm开发(4)——使用Visual-Studio-2010-打包安装程序
打包程序: 1,解决方案—右键菜单“添加”—新建项目—其他项目类型—安装和部署—Visual Studio Installer—安装项目,输入名称Setup1,点“确定” 2,添加开始程序中的文件夹: ...
Vue 使用MD5 加密
第一步: npm安装: npm install --save js-md5 第二步: 全局引用 import md5 from 'js-md5'; Vue.prototype.$md5 = md5; ...
Meaven搭建springboot项目
1.创建一个简单的maven project项目 2.项目目录结构 **注意启动类的位置: 3.pom.xml 配置jar包 <parent> <groupId>org.spr ...
mysqld: [ERROR] Found option without preceding group in config file D:\TONG\mysql-5.7.19-winx64\my.ini at line 1!
my.ini文件编码不对,改为ANSI 貌似大意是说,配置不全改编码为ANSI解决
图书商城（基于Jsp+Servlet）
这个项目主要是加深一下对于servlet和jsp知识相关的了解以及简单业务逻辑的处理. 用户更新的逻辑: 1.点击修改用户的那一行可以获取到用户的id 2.跳转到一个servlet,去查询该用户的基本 ...

Python 爬取 北京市政府首都之窗信件列表-[数据处理]

Python 爬取 北京市政府首都之窗信件列表-[数据处理]的更多相关文章

随机推荐

热门专题

Python 爬取北京市政府首都之窗信件列表-[数据处理]

Python 爬取北京市政府首都之窗信件列表-[数据处理]的更多相关文章