数据在千万级别上进行全文检索有哪些技术？强大的大数据全文索引解决方案-ClouderaSearch

数据在千万级别上进行全文检索有哪些技术？强大的大数据全文索引解决方案-ClouderaSearch
1.lucene (solr, elasticsearch 都是基于它）
2.sphinx
3.elasticsearch 简单易用。天生分布式。
4.HBasene（注意HBase后面加了ne就是 HBase+lucene）。

solr的请求基本都封装为了http，如果是http服务效率不好呢绕过它，直接透过lucene的API进行查询。
但是solr云的方式部署进行了负载均衡，效率不会太差。
应用查询条件最多20个左右，10个solr节点，每个节点的数据1亿左右。
但是索引不是写在本地磁盘，是写在hdfs上的。

================================
强大的大数据全文索引解决方案-ClouderaSearch
ClouderaSearch带来了全文索引，实时查询和针对CDH和你的企业级数据中心的扩展、灵活性的索引服务。
由Apache Hadoop和Apache Solr提供，是企业级的开源搜索。
Cloudera Search带来了扩展性和可靠性的新一代集成，多个工作任务的搜索。
通过它与CDH独特的整合，Cloudera Search获得了同样的容错性，扩展性，可见性，安全性，以及灵活性的提供其他企业级数据中心的工作。

关键特征:
1.全文索引和小面（faceted，与solr一样）导航，基于Hadoop和HBase中的内容
2.可以基于MapReduce实现批量索引。
3.通过GO-LIVE对动态索（Dynamic index）引进行更新
4.针对实时查询，集成了Flume和Lily HBase indexer。
5.无模式（Schema-less）和动态字段的支持，使schema管理更简单
6.针对hadoop优化的字段格式做了“开箱即可用”（Out-of-the-box）字段的提取
7.多文件（Multi-file）格式的支持和集成能力
8.通过HDFS，实现扩展性和容错性索引存储和访问
9.与Apache Sentry的集成，实现了基于角色，细粒度的权限控制
10.通过使用Morphlines重用了数据配置通过工作量
11.与其他hadoop服务共用了基础设施，资源和数据
12.通过使用Index Aliasing 和 Oozie workflows，使用数据迁移和服务更简单
13.在Hue中有简单，可配置的，基于面（faceted）和全文搜索的UI可以使用
14.所有标准的搜索特征在Solr和SolrCloud中有的
15.跨平台的监控，可见性，资源控制，通过ClouderaManager实现

Cloudera Search是一个整合了Lily，solr（solr cloud），HBase，Hadoop，Flume等，以及使用ClouderaManager来进行管理的全文索引解决方案。
任何人使用这个框架都可以轻松搭建一个与google和百度类似的搜索服务。由此可以看出这个框架的强大之处。

参考官网： http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/search.html

数据在千万级别上进行全文检索有哪些技术？强大的大数据全文索引解决方案-ClouderaSearch的更多相关文章

MySQL 快速删除大量数据（千万级别）的几种实践方案
笔者最近工作中遇见一个性能瓶颈问题,MySQL表,每天大概新增776万条记录,存储周期为7天,超过7天的数据需要在新增记录前老化.连续运行9天以后,删除一天的数据大概需要3个半小时(环境:128G, ...
python财经数据接口包Tushare pro的入门及简单使用方式（大数据，股票数据接口）
最近在做一个项目,需要用到股票的数据,我在网上查了很久,最终发现在股票数据上面还是tushare比较专业,而且对于将来做金融行业的大数据这一块的,tushare绝对是你的一个好帮手,所以下面我就简单介 ...
中国大数据企业排行榜V6.0- 5 年后再去看看中几个大数据公司的发展状况
2019年5月27日,首席数据官联盟在贵阳举办的2019中国国际大数据产业博览会上正式发布了<中国大数据企业排行榜V6.0> 本次排行榜新增8个垂直行业和领域.上榜企业是从全国五千多家 ...
python网络编程-socket上传下载文件(包括md5验证，大数据发送，粘包处理)
ftp server 1) 读取文件名 2)检查文件是否存在 3)打开文件 4)检查文件大小 5)发送文件大小给客户端 6)等客户端确认 7)开始边读边(md5计算)发数据 8)给客户端发md5 ft ...
大数据学习系列之Hadoop、Spark学习线路（想入门大数据的童鞋，强烈推荐！）
申明:本文出自:http://www.cnblogs.com/zlslch/p/5448857.html(该博客干货较多) 1 Java基础: 视频方面: 推荐<毕向东JAVA ...
Spark大型项目实战：电商用户行为分析大数据平台
本项目主要讲解了一套应用于互联网电商企业中,使用Java.Spark等技术开发的大数据统计分析平台,对电商网站的各种用户行为(访问行为.页面跳转行为.购物行为.广告点击行为等)进行复杂的分析.用统计分 ...
从0到N建立高性价比的大数据平台（转载）
2016-07-29 14:13:23 钱曙光阅读数 794 原文链接:https://blog.csdn.net/qiansg123/article/details/80124521 声明:本文为 ...
读<大数据日知录:架构与算法>有感
前一段时间, 一个老师建议我能够学学 '大数据' 和 '机器学习', 他说这必定是今后的热点, 学会了, 你就是香饽饽.在此之前, 我对大数据, 机器学习并没有非常深的认识, 总觉得它们是那么的缥缈, ...
MaxCompute在高德大数据上的应用
2019年1月18日,由阿里巴巴 MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学,本次技术沙龙上,高德数据技术专家苗翌辰为大家分享了高德如何 ...

随机推荐

【转】单片机中volatile定义的作用详解
传送门:http://www.eeworld.com.cn/mcu/2011/0411/article_3928.html 一个定义为volatile的变量是说这变量可能会被意想不到地改变,这样,编译 ...
pandas将DataFrame的列变成行索引
pandas提供了set_index方法可以将DataFrame的列(多列)变成行索引,通过reset_index方法可以将层次化索引的级别会被转移到列里面. 1.DataFrame的set_inde ...
【转】.NET 应用程序是怎么运行的
原文:http://www.cnblogs.com/xishuai/p/mono-dotnetcore.html .NET应用程序运行过程 C#程序运行过程 CLR结构
Unity事件处理机制与NGUI事件机制
1 Unity原生 1.1 GUI void OnGUI(){ if(GUI.Button(Rect position, string text)){ //点击后立即执行 } 1.1 Input 每个 ...
导入音乐到iPhone
如果出现iCloud音乐资料库已打开则需要在手机端设置:打开设置,找到音乐一栏,关闭icloud音乐资料库 http://baijiahao.baidu.com/s?id=1572411750316 ...
自己封装framworks上传到应用商店报错
参考链接: http://www.jianshu.com/p/60ac3ded34a0 http://ikennd.ac/blog/2015/02/stripping-unwanted-archite ...
图论——topsort
今天学习topsort,明天强联通分量.topsort是一种在DAG(有向无环图)中来制定顺序的方法,从入度为0开始一个一个编排顺序直至所有的边都有了顺序(或者形成了环)最后如果图中还剩下元素那一定是 ...
windows7系统下让所有文件夹都使用同一种视图的方法
Windows7系统可以对每个文件夹进行个性化视图设置,可以根据自己的个人喜好和实际需要更改文件或文件夹图标的大小,或者让文件或文件夹以列表.平铺等方式显示.但是,如果你对N个文件夹视图进行了风格各 ...
POJ3468 a simple problem with integers 分块
题解:分块解题报告: 是个板子题呢qwq 没什么可说的,加深了对分块的理解趴还是毕竟这么简单的板子题我居然死去活来WA了半天才调出来,,,哭了QAQ 还是说下我错在了哪几个地方(...是的,有好几 ...
RESTful URL设计指南（转）
add by zhj: <RESTful Web Services Cookbook>这本书详细介绍了RESTFUL API的设计. 一般来说,一个好的URL,简单明了.这里有一个问题,对 ...

数据在千万级别上进行全文检索有哪些技术？强大的大数据全文索引解决方案-ClouderaSearch

数据在千万级别上进行全文检索有哪些技术？强大的大数据全文索引解决方案-ClouderaSearch的更多相关文章

随机推荐

热门专题