关注微信公众号:FocusBI 查看更多文章;加QQ群:808774277 获取学习资料和一起探讨问题。

  

  《商业智能教程》pdf下载地址

  链接:https://pan.baidu.com/s/1f9VdZUXztwylkOdFLbcmWw 密码:2r4v

  这张照片确实很帅,我承认我不是因为这张照片而入行BI的,而是没有别的选择了才入行BI的。

大家不要看他拖动图表那么爽、那么自然,你可不知道背后的数据团队要付出多少心血才能让他做分析报表那么轻松自然。在商业智能项目实施的过程中数据清洗整理占用了整个项目的百分七十的时间,如果一个项目预计四个月完成,那至少有三个月是在做数据清洗整理的事情,这还不考虑数据质量很差的情况,如果乙方在入场甲方之前没有去了解甲方的数据质量情况,这可能是个无底洞乙方将被迫为甲方填不必要填的坑,而且这些坑是乙方无法主导填的,最后会导致项目尸骨无存、露宿街头本来三四个月搞定的项目最后做一年,项目成本成倍的增长导致项目亏损;多么疼的领悟。

数据清洗是脏活累活,也在老板面前体现不出价值。这导致一些BI厂商推出不要依赖IT让业务人员自己使用工具做分析的自助式BI概念,这概念有点瞎扯最后还是得IT提供SQL语句、噗。

在《使用Python爬虫为BI准备数据源》这篇博客中讲到使用爬虫爬取网页数据补充数据来源种类,这里我没有使用一亩田数据,使用爬虫爬取的租房数据、点评数据、外卖数据、小区数据做一个简单的ETL过程,在爬虫阶段我已经考虑到数据清洗和数据结构问题,所以这些数据进入数据库后通过简单的处理就行了;另外这些数据涉及到地址经纬度也是使用爬虫自动化完成,后面也会讲方法。

这些数据仅用于个人使用而非商业用途。

租房数据

数据需求

来源于某个房产网站,爬取广州市:黄埔、萝岗、增城、荔湾、白云、番禺、广州周边、

南沙、从化、越秀、天河、海珠、花都 13个区域的租房数据;抓取的内容分别是:情况简写、具体位置、位置区域、位置道路、房东、月租;需要转换的有:经度、维度。租房数据表和经纬度表一共26个需要把这26个表通过SSIS数据清洗合并成一个表。

内容如下:

  

  

  

  合并数据

一共26个表合并成一个表,这里采用硬编码的方式处理在表列表中可以看到城市表

  

这个表一共13条记录用来构造表名,合并数据的方法采用游标遍历每一个的数据并保存到同一个表中。这种硬编码的方式不推荐大家使用,这里完全可以采用系统来获取某类型表名在使用游标循环动态遍历;为了方便大家理解采用硬编码的方式来构造表名。

  SQl存储过程

 USE [51ZXW_案例库_ODS]
GO
/****** Object: StoredProcedure [dbo].[ZF_DataAll] Script Date: 2018/8/16 16:17:56 ******/
SET ANSI_NULLS ON
GO
SET QUOTED_IDENTIFIER ON
GO
-- =============================================
-- Author: FocusBI
-- Create date: 20180816
-- Description: 汇总租房数据
-- =============================================
CREATE PROCEDURE [dbo].[ZF_DataAll]
AS
BEGIN truncate table [dbo].[ODS_ZF_gz_DataAll] declare ZF_DataTable Cursor scroll for
select distinct
case when 城市名称 = '广州周边' then '[51ZXW_案例库_YW].dbo.ZF_广州周边$'
else '[51ZXW_案例库_YW].dbo.ZF_' + 城市名称 + '区$' end as ZF_Table,
case when 城市名称 = '广州周边' then '[51ZXW_案例库_YW].dbo.ZF_广州周边_JW$'
else '[51ZXW_案例库_YW].dbo.ZF_' + 城市名称 + '区_JW$' end as ZF_Table_JW
from [51ZXW_案例库_YW].[dbo].[ZF_城市$] open ZF_DataTable
Declare @ZF_Table nvarchar(50)
Declare @ZF_Table_JW nvarchar(50)
fetch next from ZF_DataTable into @ZF_Table,@ZF_Table_JW
while(@@fetch_status=0)
begin declare @sql0 nvarchar(200)
set @sql0 = 'update ' + @ZF_Table + ' set [月租] = 0 from ' + @ZF_Table + ' where [月租] = ''NULL'' '
exec(@sql0) declare @sql1 nvarchar(2000)
set @sql1 = '
insert into [dbo].[ODS_ZF_gz_DataAll](ZFID, 情况简写, 具体位置, 位置区域, 位置道路, 房东, 月租, 纬度, 经度)
select
a.ZFID,
cast(情况简写 as nvarchar(100)) as 情况简写,
cast(a.具体位置 as nvarchar(150)) as 具体位置,
cast(位置区域 as nvarchar(150)) as 位置区域,
cast(位置道路 as nvarchar(150)) as 位置道路,
cast(房东 as nvarchar(20)) as 房东,
cast(月租 as nvarchar(20)) as 月租,
latb as 纬度,
lngb as 经度
from ' + @ZF_Table + ' as a
left join ' + @ZF_Table_JW + ' as b on a.ZFID = b.ZFID
' exec(@sql1) fetch next from ZF_DataTable into @ZF_Table,@ZF_Table_JW
end close ZF_DataTable
deallocate ZF_DataTable END

SSIS方案

1.创建项目

  

  2.配置数据源

右击连接管理器,看到窗口选择需要创建的数据源类型。这里选择连接SQL Server的连接管理器类型 OLE DB 或 ADO.NET。选择OLE DB 后再选择新建,输入服务器、用户名、密码,选择测试连接 ,确定后修改 连接管理名称。这里要建立两个连接管理器 ,一个是源一个是目标。

  

  

  

  

 3.新建包

右击SSIS包,选择新建SSIS包,右击package1选择重命名输入ODS_ZF_DataAll。

4.选择控制流

  从右侧的SSIS工具箱拖入两个 Execute SQL Task控件。用箭头连接起来

  

5.处理数据流

双击第一个Execute SQL Task 控件,选择Connection选项的下拉框 选择目标数据源,单击SQLStatement输入SQL语句,修改Name,单击OK;第二个Execute SQL Task都差不多。完成后 右击 包 选择执行包。

  

  

  

  

  6.项目部署

右击方案名称,选择部署,单击下一步,输入服务器地址选择路劲 开始部署。

  

  

  

  

  

 

  7.执行计划

进入SQL Server Management Studio 选择SQL Server 代理,新建作业、新建作业步骤、填充各个参数、配置计划。

  

  

  

8.邮件监控

配置邮件监控需要一台邮件服务器配置SMTP,推荐大家使用126邮箱注册SMTP。

  

点评数据

点评数据跟租房数据处理方式一样,这里就不在重复讲解;点评数据同样也包含26个表,字段分别是店名、星级、人均、大类、分类、城市、县市、区域、地址、点评量、ID、经度、纬度

  

外卖数据

外卖数据字段包含:DT_ID、DM_ID、店名、等级、月销售、起送费、配送费、送到时间、DM_addr、DM_Latb、DM_Lngb、区域、地铁站、DT_Latb、DT_Lngn

  

小区数据

小区数据字段包含:XQID、城市、县市、区域、小区名称、建成年份、路况、单价、纬度、经度

  

地址经纬度

不管是租房、点评、外卖、小区数据都少不了地址的出现,如果想在地图上展现他们那必须要拿到这个地址的经度和纬度,这个经纬度的转换一些地图厂商已经给了接口,只需要获取接口传入地址参数就能自动的返回经度和纬度,这里我提供一种方法:这个是百度提供的接口,使用python调用百度接口,这里得先注册认证为百度开发者一般审核时间是一个星期会以邮件通知你是否审核成功,你将获取到一个开发者的Key,这个Key的权限是一天只能转换6000个地址。

历史文章:

FocusBI: SQL Server内核

FocusBI: 总线矩阵(原创)

FocusBI: 数据仓库 (原创)

FocusBI: 商业智能场景(原创)

FocusBI: SSIS体系结构(原创)

FocusBI: 使用Python爬虫为BI准备数据源(原创)

FocusBI: SSIS 开发案例(原创)

FocusBI关注者
FocusBI:SSAS体系结构(原创)
FocusBI:租房分析&星型模型
FocusBI:地产分析&雪花模型
FocusBI:MDX检索多维模型
FocusBI:租房分析可视化(网址体验)

FocusBI: 《DW/BI项目管理》之数据库表结构 (原创)

FocusBI:《DW/BI项目管理》之SSIS执行情况

FocusBI: SSIS 开发案例(原创)的更多相关文章

  1. FocusBI: SSIS体系结构(原创)

    关注微信公众号:FocusBI 查看更多文章:加QQ群:808774277 获取学习资料和一起探讨问题. <商业智能教程>pdf下载地址 链接:https://pan.baidu.com/ ...

  2. 使用Jquery+EasyUI 进行框架项目开发案例讲解之五 模块(菜单)管理源码分享

    http://www.cnblogs.com/huyong/p/3454012.html 使用Jquery+EasyUI 进行框架项目开发案例讲解之五  模块(菜单)管理源码分享    在上四篇文章 ...

  3. 使用Jquery+EasyUI 进行框架项目开发案例讲解之四 组织机构管理源码分享

    http://www.cnblogs.com/huyong/p/3404647.html 在上三篇文章  <使用Jquery+EasyUI进行框架项目开发案例讲解之一---员工管理源码分享> ...

  4. 使用Jquery+EasyUI 进行框架项目开发案例讲解之三---角色管理源码分享

    使用Jquery+EasyUI 进行框架项目开发案例讲解之三 角色管理源码分享    在上两篇文章  <使用Jquery+EasyUI进行框架项目开发案例讲解之一---员工管理源码分享> ...

  5. 使用Jquery+EasyUI 进行框架项目开发案例讲解之二---用户管理源码分享

    使用Jquery+EasyUI 进行框架项目开发案例讲解之二 用户管理源码分享   在上一篇文章<使用Jquery+EasyUI进行框架项目开发案例讲解之一---员工管理源码分享>我们分享 ...

  6. 【推荐】使用Jquery+EasyUI进行框架项目开发案例讲解之一---员工管理源码分享

    使用Jquery+EasyUI 进行框架项目开发案例讲解之一 员工管理源码分享   在开始讲解之前,我们先来看一下什么是Jquery EasyUI?jQuery EasyUI是一组基于jQuery的U ...

  7. 使用Jquery+EasyUI进行框架项目开发案例解说之中的一个---员工管理源代码分享

    使用Jquery+EasyUI 进行框架项目开发案例解说之中的一个 员工管理源代码分享 在開始解说之前,我们先来看一下什么是Jquery EasyUI?jQuery EasyUI是一组基于jQuery ...

  8. cocos2d-x游戏开发实战原创视频讲座系列1之2048游戏开发

     cocos2d-x游戏开发实战原创视频讲座系列1之2048游戏开发 的产生 视持续更新中.... 视频存放地址例如以下:http://ipd.pps.tv/user/1058663622     ...

  9. 百度UEditor开发案例(JSP)

    本案例的开发环境:MyEclipse+tomcat+jdk     本案例的开发内容: 用百度编辑器发布新闻(UEditor的初始化开发部署) 编辑已发过的新闻(UEditor的应用——编辑旧文章) ...

随机推荐

  1. android AlertDialog.Builder(Context context)换行

    今天无意中发现AlertDialog的 setMessage(String)的换行问题,很多人都说\n可以,不过的却原来就在java里面写好的是可以换行 ,但是如果这个string是在网页或者是其地方 ...

  2. virtualbox上硬盘安装coreos

    网址: http://www.serfdom.cn/index.php/archives/4/ http://www.360doc.com/content/14/1118/10/15077656_42 ...

  3. wpf(怎么跨线程访问wpf控件)

    在编写代码时,我们经常会碰到一些子线程中处理完的信息,需要通知另一个线程(我这边处理完了,该你了). 但是当我们通知WPF的UI线程时需要用到Dispatcher. 首先我们需要想好在UI控件上需要显 ...

  4. c语言第一次作业--顺序、分支结构

    1.1思维导图 1.2.1本周学习体会以及代码量学习体会 1.2.2学习体会     因为在暑假时候没有对c语言进行学习,没太关注一些学习资料,一些教学视频也没看,感觉对c语言是陌生的,刚开课的时候自 ...

  5. openstack 的 lbaas 疑问

    1 为什么lbaas的haproxy实现没有将其放到vrouter中,而vpnaas/fwaas都放到vrouter中呢? 放在vrouter上,可以减少vrouter到haproxy的流量路径,是怕 ...

  6. 【12c OCP】最新CUUG OCP-071考试题库(52题)

    52.(12-11) choose the best answer: Examine the structure and data in the PRICE_LIST table: You plan ...

  7. junit启动tomcat来进行单元测试

    1.pom.xml配置下载需要的jar.   <dependency>            <groupId>junit</groupId>            ...

  8. Python 用队列实现多线程并发

    # Python queue队列,实现并发,在网站多线程推荐最后也一个例子,比这货简单,但是不够规范 # encoding: utf-8 __author__ = 'yeayee.com' # 由本站 ...

  9. html中文字溢出处理(text-overflow)

    文字溢出处理有两种方式: 一.css overflow:hidden;            white-space: nowrap;            text-overflow: ellips ...

  10. javascript事件的类型整理

    mouseenter:只能进入目标元素才会触发: mouseleave:只能离开目标元素才会触发: mouseover:进入目标元素或者其子元素的时候触发: mouseout:离开目标元素或者其子元素 ...