数据在千万级别上进行全文检索有哪些技术?强大的大数据全文索引解决方案-ClouderaSearch
1.lucene (solr, elasticsearch 都是基于它)
2.sphinx
3.elasticsearch 简单易用。天生分布式。
4.HBasene(注意HBase后面加了ne就是 HBase+lucene)。

solr的请求基本都封装为了http,如果是http服务效率不好呢绕过它,直接透过lucene的API进行查询。
但是solr云的方式部署进行了负载均衡,效率不会太差。
应用查询条件最多20个左右,10个solr节点,每个节点的数据1亿左右。
但是索引不是写在本地磁盘,是写在hdfs上的。

================================
强大的大数据全文索引解决方案-ClouderaSearch
ClouderaSearch带来了全文索引,实时查询和针对CDH和你的企业级数据中心的扩展、灵活性的索引服务。
由Apache Hadoop和Apache Solr提供,是企业级的开源搜索。
Cloudera Search带来了扩展性和可靠性的新一代集成,多个工作任务的搜索。
通过它与CDH独特的整合,Cloudera Search获得了同样的容错性,扩展性,可见性,安全性,以及灵活性的提供其他企业级数据中心的工作。

关键特征:
1.全文索引和小面(faceted,与solr一样)导航,基于Hadoop和HBase中的内容
2.可以基于MapReduce实现批量索引。
3.通过GO-LIVE对动态索(Dynamic index)引进行更新
4.针对实时查询,集成了Flume和Lily HBase indexer。
5.无模式(Schema-less)和动态字段的支持,使schema管理更简单
6.针对hadoop优化的字段格式做了“开箱即可用”(Out-of-the-box)字段的提取
7.多文件(Multi-file)格式的支持和集成能力
8.通过HDFS,实现扩展性和容错性索引存储和访问
9.与Apache Sentry的集成,实现了基于角色,细粒度的权限控制
10.通过使用Morphlines重用了数据配置通过工作量
11.与其他hadoop服务共用了基础设施,资源和数据
12.通过使用Index Aliasing 和 Oozie workflows,使用数据迁移和服务更简单
13.在Hue中有简单,可配置的,基于面(faceted)和全文搜索的UI可以使用
14.所有标准的搜索特征在Solr和SolrCloud中有的
15.跨平台的监控,可见性,资源控制,通过ClouderaManager实现

Cloudera Search是一个整合了Lily,solr(solr cloud),HBase,Hadoop,Flume等,以及使用ClouderaManager来进行管理的全文索引解决方案。
任何人使用这个框架都可以轻松搭建一个与google和百度类似的搜索服务。由此可以看出这个框架的强大之处。

参考官网: http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/search.html

数据在千万级别上进行全文检索有哪些技术?强大的大数据全文索引解决方案-ClouderaSearch的更多相关文章

  1. MySQL 快速删除大量数据(千万级别)的几种实践方案

    笔者最近工作中遇见一个性能瓶颈问题,MySQL表,每天大概新增776万条记录,存储周期为7天,超过7天的数据需要在新增记录前老化.连续运行9天以后,删除一天的数据大概需要3个半小时(环境:128G, ...

  2. python财经数据接口包Tushare pro的入门及简单使用方式(大数据,股票数据接口)

    最近在做一个项目,需要用到股票的数据,我在网上查了很久,最终发现在股票数据上面还是tushare比较专业,而且对于将来做金融行业的大数据这一块的,tushare绝对是你的一个好帮手,所以下面我就简单介 ...

  3. 中国大数据企业排行榜V6.0- 5 年后再去看看中几个大数据公司的发展状况

    2019年5月27日,首席数据官联盟在贵阳举办的2019中国国际大数据产业博览会上正式发布了<中国大数据企业排行榜V6.0>   本次排行榜新增8个垂直行业和领域.上榜企业是从全国五千多家 ...

  4. python网络编程-socket上传下载文件(包括md5验证,大数据发送,粘包处理)

    ftp server 1) 读取文件名 2)检查文件是否存在 3)打开文件 4)检查文件大小 5)发送文件大小给客户端 6)等客户端确认 7)开始边读边(md5计算)发数据 8)给客户端发md5 ft ...

  5. 大数据学习系列之Hadoop、Spark学习线路(想入门大数据的童鞋,强烈推荐!)

    申明:本文出自:http://www.cnblogs.com/zlslch/p/5448857.html(该博客干货较多) 1 Java基础: 视频方面:          推荐<毕向东JAVA ...

  6. Spark大型项目实战:电商用户行为分析大数据平台

    本项目主要讲解了一套应用于互联网电商企业中,使用Java.Spark等技术开发的大数据统计分析平台,对电商网站的各种用户行为(访问行为.页面跳转行为.购物行为.广告点击行为等)进行复杂的分析.用统计分 ...

  7. 从0到N建立高性价比的大数据平台(转载)

    2016-07-29 14:13:23 钱曙光 阅读数 794 原文链接:https://blog.csdn.net/qiansg123/article/details/80124521 声明:本文为 ...

  8. 读&lt;大数据日知录:架构与算法&gt;有感

    前一段时间, 一个老师建议我能够学学 '大数据' 和 '机器学习', 他说这必定是今后的热点, 学会了, 你就是香饽饽.在此之前, 我对大数据, 机器学习并没有非常深的认识, 总觉得它们是那么的缥缈, ...

  9. MaxCompute在高德大数据上的应用

    2019年1月18日,由阿里巴巴 MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学,本次技术沙龙上,高德数据技术专家苗翌辰为大家分享了高德如何 ...

随机推荐

  1. 推荐一款不错的TP5开源是CMS

    这是最近在使用的一套CMS,拟进行二次开发作为企业CMS来使用. http://www.cltphp.com/index.html git地址: https://gitee.com/chichu/cl ...

  2. vue之计算属性和侦听器

    一.计算属性 模板内的表达式非常便利,但是设计它们的初衷是用于简单运算的.在模板中放入太多的逻辑会让模板过重且难以维护.例如: <div> {{ message.split('').rev ...

  3. poj1696 Space Ant【计算几何】

    含极角序排序模板.   Space Ant Time Limit: 1000MS   Memory Limit: 10000K Total Submissions: 5334   Accepted:  ...

  4. 把本地项目文件上传到github远程仓库的教程

    参考廖雪峰的git教程:https://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000  非常详 ...

  5. .NET程序运行过程

    ASP.NET http请求 - IIS - isapi.dll - CLR(com服务通信初始化CLR - AppDomain - 加载程序集 - JIT译 - 本地机器码 - 内存 - CPU 执 ...

  6. Docker基本命令与使用 —— Docker镜像与仓库(二)

    一.查看和删除镜像 1.Docker Image 镜像 容器的基石 层叠的只读文件系统 联合加载(union mount) (存储位置 /var/lib/docker) docker info 2.列 ...

  7. HTML 标签大全及属性

    基本结构标签: <HTML>,表示该文件为HTML文件 <HEAD>,包含文件的标题,使用的脚本,样式定义等 <TITLE>---</TITLE>,包含 ...

  8. Roadblocks--poj3255(次短路)

    题目链接 求次短路的问题: dist[i][0]和dist[i][1]表示从起点1到i的距离和从起点n到i的距离: 次短路要比最短路大但小于其他路: 每条路1--n的距离都可以用dist[i][0] ...

  9. paas平台

    paas平台 定义:PaaS是云计算中重要的一类服务,为用户提供应用的全生命周期管理和相关的资源服务.通过PaaS,用户可以完成应用的构建.部署.运维管理,而不需要自己去搭建计算环境,如安装服务器.操 ...

  10. 洛谷P2322 最短母串问题 [HNOI2006] AC自动机

    正解:AC自动机+最短路 解题报告: 传送门! 这题之前考试考到辣,,,我连题目都没看懂这种傻逼事儿就不要说了QAQ 然后就港正解辣 首先这题可以用dp做?等下写 但是一般来说看到这种,第一反应就,先 ...