上周写了个简短的新闻<MongoDB裸奔,2亿国人求职简历泄漏!>: 根据安全站点HackenProof的报告,由于MongoDB数据库没有采取任何安全保护措施,导致共计202,730,434份国人求职简历泄漏. 然后很多人评论说MongoDB躺枪了. MongoDB确实躺枪了,因为这事的责任当然不在数据库,而在于使用数据库的人没有做必要的安全配置. 那么我们应该如何保证MongoDB的安全性?下面我将介绍保护MongoDB的3个简单的方法: 绑定局域网IP,杜绝互联网访问 配置防火墙,保护2…
摘要:   在前篇博客里已经讲述了通过一个自定义 HBase Filter来获取数据的办法,在末尾指出此办法的性能是不能满足应用要求的,很显然对于如此成熟的HBase来说,高性能获取数据应该不是问题.下面首先简单介绍了搜索引擎的性能,然后详细说明了HBase与MySQL的性能对比,这里的数据都是经过实际的测试获得的.最后,给出了采用多线程批量从HBase中取数据的方案,此方案经过测试要比通过自定义Filter的方式性能高出很多. 关键词: HBase, 高性能, 获取数据, 性能对比, 多线程…
摘要:如何从HBase中的海量数据中,以很快的速度的获取大批量数据,这一议题已经在<HBase 高性能获取数据>(http://www.cnblogs.com/wgp13x/p/4245182.html)一文中给出了解决办法.那么,如何向HBase中高性能的插入数据呢?经研究表明,光是批量写入也还是不行.网上没有现成的方法.本文针对这一问题,给出了一个解决方案.它采用了多线程按批“多粮仓”的方式,经过验证,能较好的达到高速度的效果. 关键词:hbase, 高性能, 多线​程, 算法 解决问题:…
某客户大数据测试场景为:Solr类似画像的数据查出用户标签--通过这些标签在HBase查询详细信息.以上测试功能以及性能. 其中HBase的数据量为500G,Solr约5T.数据均需要从对方的集群人工迁移到我们自己搭建的集群.由于Solr没有在我们集群中集成,优先开始做HBase的数据迁移,以下总结了HBase使用以及数据迁移遇到的各种问题以及解决方法. 一.迁移过程遇到问题以及解决 客户HBase版本:Version 0.94.15腾讯大数据套件HBase版本:Version 1.2.1客户私…
有时需要从hbase中一次读取大量的数据,同时对实时性有较高的要求.可以从两方面进行考虑:1.hbase提供的get方法提供了批量获取数据方法,通过组装一个list<Get> gets即可实现:2.java多线程的Future方法实现了如何从多线程中获取返回数据.以上两种方法结合后,获取数据将会更加的高效.阅读到一篇文章,对这两个方法的结合使用给出了实例,并有详细的性能分析.特意转载过来,供以后的参考学习: HBase 高性能获取数据 - 多线程批量式解决办法 如何保证在十亿.百亿数据上面的查…
1. 起因 由于历史原因,公司的数据是持久化在HBase中,查询是通过Solr来实现,这这样的设计必然涉及到要把Hbase中的数据实时同步到Solr,但所有的服务都在一个同一个集群及每台机子都安装了很多不同的服务,导致数据经常丢失,Solr分片也经常在Recovering.Down 状态中游离,因此决定把Solr剥离出来,形成单独的集群,给其它服务减压. 2. 要求 保证数据不能丢失 切换期间业务能正常使用 切换失败,可以回归到旧的集群 3. 整体流程设计 HBase Indexer 要同时往新…
目录 如何保证数据写入过程中不丢 直接落盘的 translog 为什么不怕降低写入吞吐量? 如何保证已写数据在集群中不丢 in-memory buffer 总结 LSM Tree的详细介绍 参考资料 如何保证数据写入过程中不丢 数据写入请求达到时,以需要的数据格式组织并写入磁盘的过程叫做数据提交,对应es就是创建倒排索引,维护segment文件 如果我们同步的方式,来处理上述过程,那么系统的吞吐量将很低 如果我们以异步的方式,先写入内存,然后再异步提交到磁盘,则有可能因为机器故障而而丢失还未写入…
CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,footer,header,hgroup,nav,section{display:block}audio,canvas,video{display:inline-block;*display:inline;*zoom:1}audio:not([controls]){display:none}html{…
md5只是用来签名,签名的作用是保证数据完整不会被破坏而已,多一个sign标签,sign的值就是md5生成的字符串.签名和加密是两回事…
import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.TableName; import org.apache.hadoop.hbase.client.Connection; import org.apache.hadoop.hbase.client.ConnectionFactory; impor…