FusionInsight大数据开发---sorl应用开发

sorl应用开发

要求：

了解Solr应用开发适用场景
熟悉Solr应用开发流程
熟悉并使用Solr常用API
理解Collection设计基本原则
应用开发实践

Solr简介

Solr是一个高性能，基于Lucene的全文检索服务，也可以作为NoSQL数据库使用。
Solr对Lucene进行了扩展，提供了比Lucene更为丰富的查询语句，同时实现了可配置、可扩展，并对查询性能进行了优化，还提供了一个完善的功能管理界面。
SolrCloud是从Solr 4.0 版本开始发出的具有开创意义的分布式索引和索引方案，基于Sorl和Zookeeper进行开发的。

Solr概念体系-总述
常见术语：

Config Set:Solr Core提供一组配置文件 ,
Core:即Solr Core ，
Shard：Collection的逻辑分片
Replice：Shard下的实际存储索引的一个副本，与Core对应
Leader：赢得选举的Shard Peplicas
Zookeeper:它在Solr Core是必须的，提供分布式锁、处理Leader选举、管理配置等功能

Solr的常用应用场景

待检索数据类型复杂
检索条件多样化（如涉及字段太多），常规查询无法满足
读取远多于写入数据

Solr应用开发流程-制定业务目标
业务数据规模及数据模型

涉及Collection的Shard划分及Schema的定义

实时索引、查询性能要求

涉及Collection的Shard划分、索引存储位置

查询场景

涉及Collection的Schema定义

Solr应用开发流程-初始化及安全认证

初始化并获取配置
安全认证
获取CloudSolrClient
调用Solr APL

Solr应用开发流程-设计Collection

根据业务数据的关系设计schema.xml
根据写入和查询场景设计uniqueKey字段
根据写入和查询性能要求设计solrconfig.xml
根据业务数据规模和Solr集群规模确定Shard数目
根据可靠性能要求设定Shard副本数

Collection设计-索引存储位置
索引存储在HDFS

缺点:

与存储在本地磁盘相比，性能下降30%-50%
实时单节点写入速度<=2MB/s
数据膨胀略高于存储在本地

优点：

Sorl设置Replica即可，利用HDFS副本机制保障数据可靠性
数据管理由HDFS完成，包括各节点数据balance、方便迁移

配置集Schema设计-Field
dynamicField

动态的字段设置，用于后期自定义字段，”*“号通配符。

copyField

将多个字段集中到一个字段

FusionInsight大数据开发---sorl应用开发的更多相关文章

FusionInsight大数据开发学习总结（1）
FusionInsight大数据开发 FusionInsight HD是一个大数据全栈商用平台,支持各种通用大数据应用场景. 技能需求扎实的编程基础 Java/Scala/python/SQL/sh ...
大数据全栈式开发语言 – Python
前段时间,ThoughtWorks在深圳举办一次社区活动上,有一个演讲主题叫做“Fullstack JavaScript”,是关于用JavaScript进行前端.服务器端,甚至数据库(MongoDB) ...
为什么说Python 是大数据全栈式开发语言
欢迎大家访问我的个人网站<刘江的博客和教程>:www.liujiangblog.com 主要分享Python 及Django教程以及相关的博客交流QQ群:453131687 原文链接 h ...
FusionInsight大数据开发---Hive应用开发
Hive应用开发了解Hive的基本架构原理掌握JDBC客户端开发流程了解ODBC客户端的开发流程了解python客户端的开发流程了解Hcatalog/webHcat开发接口掌握Hive开发 ...
FusionInsight大数据开发---MapReduce与YARN应用开发
MapReduce MapReduce的基本定义及过程搭建开发环境代码实例及运行程序 MapReduce开发接口介绍 1. MapReduce的基本定义及过程 MapReduce是面向大数据并行处 ...
FusionInsight大数据开发---HDFS应用开发
HDFS应用开发 HDFS(Dadoop Distributed File System) HDFS概述高容错性高吞吐量大文件存储 HDFS架构包含三部分 Name Node DataNode ...
FusionInsight大数据开发---Redis应用开发
Redis应用开发要求: 了解Redis应用场景掌握Redis二次开发环境搭建掌握Redis业务开发 Redis简介 Redis是一个基于网络的,高性能key-value内存数据库 Redis根 ...
一文总结高并发大数据量下MySQL开发规范【军规】
在互联网公司中,MySQL是使用最多的数据库,那么在并发量大.数据量大的互联网业务中,如果高效的使用MySQL才能保证服务的稳定呢?根据本人多年运维管理经验的总结,梳理了一些核心的开发规范,希望能给大 ...
FusionInsight大数据开发--HBase应用开发
HBase应用开发 HBase的定义 HBase是一个高可靠.高性能.面向列.可伸缩的分布式存储系统. 适合于存储大表数据,可以达到实时级别. 利用Hadoop HDFS 作为其文件存储系统,提供实时 ...

随机推荐

MySQL单表最大记录数不能超过多少？
MySQL单表最大记录数不能超过多少? 很多人困惑这个问题.其实,MySQL本身并没有对单表最大记录数进行限制,这个数值取决于你的操作系统对单个文件的限制本身. 从性能角度来讲,MySQL单表数据不要 ...
Java中的equals与==
package demo; public class Test { public static void main(String[] args) { String str1 = new String( ...
yaml格式配置文件
YAML 是一种可读性非常高,与程序语言数据结构非常接近.同时具备丰富的表达能力和可扩展性,并且易于使用的数据标记语言. python中处理 Yaml 格式的数据需要先下载pyyaml: pip in ...
Mysql高性能优化规范
数据库命令规范所有数据库对象名称必须使用小写字母并用下划线分割所有数据库对象名称禁止使用mysql保留关键字(如果表名中包含关键字查询时,需要将其用单引号括起来) 数据库对象的命名要能做到见名识意 ...
分布式异步框架celery
Celery 1.什么是Clelery Celery是一个简单.灵活且可靠的,处理大量消息的分布式系统专注于实时处理的异步任务队列同时也支持任务调度 Celery架构 Celery的架构由三部分组 ...
axios用法全解
[前言] 本文介绍下axios用法,希望对大家有所帮助这里声明一句:请求数据一般放置到哪里?详见下篇文章 [主体] (1)下载 npm i axios --save (2)引入axios模块方式1 ...
云数据库 Redis 版，知识点
资料网址什么是云数据库Redis版 https://help.aliyun.com/document_detail/26342.html?spm=a2c4g.11174283.6.542.6b11 ...
wordpress调用指定类型post_type的文章
wordpress很强大,可以添加多种post_type文章类型,假如我们要调用product产品模型的文章要如何操作呢?随ytkah一起来看看吧.我们用'post_type' => 'prod ...
Java String语法
String类代表字符串. Java程序中的所有字符串文字(例如"abc" )都被实现为此类的实例. 字符串不变; 它们的值在创建后不能被更改. 字符串缓冲区支持可变字符串. 因为 ...
SPA项目开发之登录注册
CMD安装所需要的pom依赖 npm install element-ui -S npm install axios -S npm install qs -S npm install vue-axio ...

FusionInsight大数据开发---sorl应用开发

sorl应用开发

FusionInsight大数据开发---sorl应用开发的更多相关文章

随机推荐

热门专题