这次的数据分析与决策课程,我做的是通过爬取拉勾网上的招聘信息,并用爬取到的数据整体分析互联网行业数据,
项目做得差不多了,先总结下吧,后边有时间了再完善。

主要工具:  Echarts, SQL, java poi包,八爪鱼数据爬取工具

1.数据清洗

八爪鱼爬取到的数据如下:

数据清洗的要求:没空格,没回车,没有与要分析的数据无关的字符,格式统一,无歧义,将空值填充。

数据清洗之后的结果如下:

数据清洗之后,就需要把爬取到的数据存入数据库了。因为爬取到的数据是存在excel文件中的,尝试了很多方法,

将excel文件存到数据库中,总结如下:

(1)用SQL语言,简单,方便。前提是在数据库中已经建表完成了,并且需要把excel文件转换为csv格式;

LOAD DATA LOCAL INFILE 'C:\\Users\\boyuan\\Desktop\\houduan.csv' INTO TABLE job_inf

CHARACTER SET utf8 FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' (Job_Name, Low_Salary, High_Salary, Work_Experience,

Edu_Requirement, Job_Key_Word, Company_Develop_Stage, Work_Address);

(2)Navicat,百度出来的,我电脑上正好也装着navicat呢,就试了下,没成功,应该是数据清洗的不好。

(3)Java的poi(Poor Obfuscation Implementation)工具包,利用poi接口,可以通过java操作office套件工具的读写功能。

官网:http://poi.apache.org

这种方法看起来麻烦一点,但是非常实用,并且如果数据量大的话,效果比前两者好很多,

容错性很好,excel里面的一些空格什么的,自动忽略了。代码主要是参考博客,感谢博主提供的代码;

http://www.cnblogs.com/hongten/p/java_poi_excel.html

这是存储job信息的建表语句


CREATE TABLE `job_info` (
  `job_Id` ) NOT NULL AUTO_INCREMENT,
  `Com_Name` ) NOT NULL,
  `Job_Name` ) NOT NULL,
  `Low_Salary` ) NOT NULL,
  `High_Salary` ) NOT NULL,
  `Work_Experience` ) NOT NULL,
  `Edu_Requirement` ) NOT NULL,
  `Job_Key_Word` ) NOT NULL,
  `Company_Develop_Stage` ) NOT NULL,
  `Work_Address` ) NOT NULL,
  PRIMARY KEY (`job_Id`)
) ENGINE DEFAULT CHARSET=utf8 COMMENT='Detailed information of jobs' 

CREATE TABLE `job_dif` (
  `Job_Id` ) NOT NULL AUTO_INCREMENT,
  `Com_Name` ) NOT NULL,
  `Company_Develop_Stage` ) NOT NULL,
  `Work_Address` ) DEFAULT NULL,
  PRIMARY KEY (`Job_Id`)
) ENGINE DEFAULT CHARSET=utf8 COMMENT='All companys Com_Name Company_Develop_Stage Work_Address' 

job_dif表在插入数据的时候,从job_info数据库中选取,并对公司名称进行去重处理,主要对公司信息进行些处理;

2.数据展示

利用百度的Echarts工具,对SQL查询到的数据进行展示。不得不说Echarts真的是挺好用的。

例图如下:

总得来说,如果数据库里面有足够多的数据了,那么需要进行什么样的统计分析,就需要自己用SQL从数据库里

把需要的数据取出来,可以在后台将数据转换为json数据格式,Echarts在前台页面动态展示数据库中的数据。

拉勾网招聘数据分析(Echarts, SQL, java)的更多相关文章

  1. 使用Spark分析拉勾网招聘信息(一):准备工作

    本系列专属github地址:https://github.com/ios122/spark_lagou 前言 我觉得如果动笔,就应该努力地把要说的东西表达清楚.今后一段时间,尝试下系列博客文章.简单说 ...

  2. 爬取拉勾网招聘信息并使用xlwt存入Excel

    xlwt 1.3.0 xlwt 文档 xlrd 1.1.0 python操作excel之xlrd 1.Python模块介绍 - xlwt ,什么是xlwt? Python语言中,写入Excel文件的扩 ...

  3. .NET/ASP.NET/C#/WCF/SQL Server/My SQL/Java/JSP/JDBC/Spring/Spring MVC/PHP/Python/Ruby/Shell/Agile/CSS/HTML/HTTP/Unix/Linux大量PDF书籍/电子书籍下载, Effective Java 下载

    223本电子书籍,囊括了.NET/ASP.NET/C#/WCF/SQL Server/My SQL/Java/JSP/JDBC/Spring/Spring MVC/PHP/Python/Shell/A ...

  4. Echarts 的 Java 封装类库 转自 https://my.oschina.net/flags/blog/316920

    转自: https://my.oschina.net/flags/blog/316920 Echarts 的 Java 封装类库:http://www.oschina.net/p/echarts-ja ...

  5. python 招聘数据分析

    导入包 import pandas as pd import numpy as np import matplotlib.pyplot as plt 读文件 df=pd.read_csv(r'C:\U ...

  6. 使用Spark分析拉勾网招聘信息(二): 获取数据

    要获取什么样的数据? 我们要获取的数据,是指那些公开的,可以轻易地获取地数据.如果你有完整的数据集,肯定是极好的,但一般都很难通过还算正当的方式轻易获取.单就本系列文章要研究的实时招聘信息来讲,能获取 ...

  7. 使用Spark分析拉勾网招聘信息(四): 几个常用的脚本与图片分析结果

    概述 前一篇文章,已经介绍了BMR的基础用法,再结合Spark和Scala的文档,我想应该是可以开始你的数据分析之路的.这一篇文章,着重进行一些简单的思路上的引导和分析.如果你分析招聘数据时,卡在了某 ...

  8. Echarts在java中使用

    index.jsp <%@ page language="java" import="java.util.*" pageEncoding="UT ...

  9. 优酷土豆2014校园招聘笔试题目之Java开发类

    先总体说下题型,共有20道选择题,4道简答题,3道编程题和1道扩展题,题目都比较简单,限时一小时完成. 一.选择题 选择题非常简单,都是基础题,什么死锁发生的条件.HashMap和HashSet查找插 ...

随机推荐

  1. Visual Studio 2013 IIS Express使用域名调试mvc程序

    1.编辑applicationhost.config文件 启动vs2013,在右下角IIS Express图标中右击,显示如图,点击框中菜单. 找到你的启动项,点击1,然后点击2,这是应该会有编辑器打 ...

  2. git学习笔记之一

    Git是比较优秀的分布式版本管理工具,这次学习了git的基本命令,现在作一些归纳总结,已备复习之用. Git 认识 Git 直接用hash值记录提交的修改文件的快照,本地操作无需联网 Git 有三种状 ...

  3. 【wannacry病毒之暗网】-如何访问"暗网"(慎入)

    心里能力不强的人,请别看. 有些事情还是不要接触比较好, 社会最恶一面不是随随便便就能接触到的, 也不是你能理解的 你想要用暗网做什么是你考虑的一个问题 什么是暗网? 所谓的"暗网" ...

  4. yii2 resetful 授权验证

    什么是restful风格的api呢?我们之前有写过大篇的文章来介绍其概念以及基本操作. 既然写过了,那今天是要说点什么吗? 这篇文章主要针对实际场景中api的部署来写. 我们今天就来大大的侃侃那些年a ...

  5. OAuth及第三方登录

    现在的生活中运用互联网的有好多地方,我们既要申请微博,申请博客,申请邮箱等等:哪怕登录一个小网址看点东西都要注册登录,不过现在好多了:有了第三方登录,再也不用担心这不够用的脑子整天记忆账号和密码了,只 ...

  6. .Net程序员学用Oracle系列(7):视图、函数、存储过程、包

    1.视图 1.1.创建.删除及调用普通视图 1.2.高级视图介绍 2.函数 2.1.系统函数介绍 2.2.创建.删除及调用自定义函数 3.存储过程 3.1.创建.修改及删除存储过程 3.2.调用存储过 ...

  7. cassandra.yaml 配置 (非原创,侵删)

    Copy from: http://blog.csdn.net/y_h_t/article/details/11917531 Cassandra中所有的运行配置都是在配置文件cassandra.yam ...

  8. 9.Java 加解密技术系列之 RSA

    Java 加解密技术系列之 RSA 序 概念 工作流程 RSA 代码实现 加解密结果 结束语 序 距 离上一次写博客感觉已经很长时间了,先吐槽一下,这个月以来,公司一直在加班,又是发版.上线,又是新项 ...

  9. javaWeb学习总结(10)- Filter(过滤器)学习

    一.Filter简介 Filter也称之为过滤器,它是Servlet技术中最激动人心的技术,WEB开发人员通过Filter技术,对web服务器管理的所有 web资源:例如Jsp, Servlet, 静 ...

  10. Linux 库文件详解

    转自: http://www.cppblog.com/deane/articles/165216.html http://blog.sciencenet.cn/blog-1225851-904348. ...