从MySQL大量数据清洗到TiBD说起】的更多相关文章

从MySQL大量数据清洗到TiBD说起 一.业务场景: 公司主要做的业务是类似贝壳的二手房租售,公司数据库存了上亿级别的房源数据,之前的数据库使用的是 mysql,后面需要将mysql数据库切换成了 Tidb,在切换的过程中,需要将老库的数据经过数据清洗后再存入新库(因为有一些表的设计变了),其中我处理的一个逻辑就是将房间下业主信息从老库清洗到新库,那么我们需要查询新库所有的房间,然后拿着新老库的房间对应关系,然后到老库中的对应房间,然后再找到每个房间对应业主信息,然后将业主的不同维度信息清洗到…
全文的步骤可以大概分为几步: 一:数据获取,利用selenium+多进程(linux上selenium 多进程可能会有问题)+kafka写数据(linux首选必选耦合)windows直接采用的是写mysql 二:数据存储(kafka+hive 或者mysql)+数据清洗shell +python3 三: 数据可视化,词云  pyecharts jieba分词 snownlp (情绪化分析) step 1  selenium 模拟登陆豆瓣,爬去武林外传的短评: 在最开始写爬虫的时候,抓取豆瓣评论,…
Mysql字符串截取函数SUBSTRING的用法说明 函数: 1.从左开始截取字符串 left(str, length) 说明:left(被截取字段,截取长度) 例:select left(content,200) as abstract from my_content_t 2.从右开始截取字符串 right(str, length) 说明:right(被截取字段,截取长度) 例:select right(content,200) as abstract from my_content_t 3.…
本博文使用的数据库是MySQL和MongoDB数据库.安装MySQL可以参照我的这篇博文:https://www.cnblogs.com/tszr/p/12112777.html 其中操作Mysql使用到的python模块是pymysql,下面是有关这个模块的使用说明: 创建一个数据库test create DATABASE taobao; 下面将要安装一个navicat for mysql这样的软件,下载链接:https://www.pcsoft.com.cn/soft/20832.html?…
推荐大家一个BI工具:talend open studio.我也是刚接触,懂得不多,感觉比较神奇就想大家推荐一下... 由于公司项目,接触了一下BI工具talend,感觉功能很强大, 可以同步多种数据库,同时可以清洗.筛选.java代码处理数据.数据导入导出. 甚至可以内联查询多种数据库,感觉比较神奇.当然我们可以借助sql语句和程序也可以实现,不过对于百万条的数据,安全性和可靠性...? 这个作业涉及到:excel数据导入.数据清洗.java代码数据处理.MySql同步.Mysql和Oracl…
Pyhton爬虫实战 - 抓取BOSS直聘职位描述 和 数据清洗 零.致谢 感谢BOSS直聘相对权威的招聘信息,使本人有了这次比较有意思的研究之旅. 由于爬虫持续爬取 www.zhipin.com 网站,以致产生的服务器压力,本人深感歉意,并没有 DDoS 和危害贵网站的意思. 2017-12-14 更新 在跑了一夜之后,服务器 IP 还是被封了,搞得本人现在家里.公司.云服务器三线作战啊 一.抓取详细的职位描述信息 1.1 前提数据 这里需要知道页面的 id 才能生成详细的链接,在 Pytho…
ETL实践--Spark做数据清洗 上篇博客,说的是用hive代替kettle的表关联.是为了提高效率. 本文要说的spark就不光是为了效率的问题. 1.用spark的原因 (如果是一个sql能搞定的关联操作,可以之间用kettle导原始数据到hive,用hive视图做关联直接给kylin提供数据) (1).场景一之前用kettle需要多个转换.关联才能实现数据清洗的操作. 用hive不知道如何进行,就算能进行也感觉繁琐,同时多个步骤必然降低数据时效性.用mr的话也是同样道理太多步骤繁琐不堪.…
首先,先了解一下数据库的基本概念要点: 数据库是数据存储的集合,表示数据结构化的信息 列存储表中的信息 行存储表的明细 主键是表中的唯一标识 主键不具备业务意义 在实际操作中,对表的主键不做强制性要求,但是建议设立 主键必须唯一 每行必须有一个主键,不可为空 主键的值不可被修改 主键值被删除后不可重用 表A的主键,可以作为表B的字段,此时不受约束 数据库的基本类型(最基础的):char--文本 int--整数 float--小数点 date--到日的日期 timestamp--精确到秒或者毫秒…
ETL项目2:大数据清洗,处理:使用MapReduce进行离线数据分析并报表显示完整项目 思路同我之前的博客的思路 https://www.cnblogs.com/symkmk123/p/10197467.html 但是数据是从web访问的数据 avro第一次过滤 观察数据的格式,我们主要分析第四个字段的数据.发现有.css , .jpg .png等等等无效的数据. 通过观察数据发现有效数据都不带 . , 所以第一次过滤写入avro总表里的数据一次过滤后的有效数据,不包含 .css , .jpg…
一. 什么是存储过程: 存储过程是一组可编程的函数,是为了完成特定功能的SQL语句集,经过第一次编译后再次调用不需要再次编译,创建并保存在数据库中,用户可通过指定存储过程的名字并给定参数(需要时)来调用执行. ps:存储过程跟触发器有点类似,都是一组SQL集,但是存储过程是主动调用的,且功能比触发器更加强大,触发器是某件事触发后自动调用: 二. 存储过程优点: 执行速度更快.只有首次执行需经过数据库服务器解析,后续被调用可以直接,提高执行速度,因为预先编译了. sql注入完全屏蔽非常安全(防止s…