杂谈之不同行业的Solr】的更多相关文章

杂谈之不同行业的Solr 前几天去一家互联网创业公司面试搜索引擎开发工程师,结果被pass了,仍不住想来吐槽下.尽管当时面试没啥准备,也没表现好,但是也学到了不少东西.现在就随便吐槽一下吧. 本人是在安防公司做大数据搜索引擎,搞Solr也一年多点了,自认为对Solr了解的也不少了,但是为什么在面试中碰壁呢,回想一下面试的情节,主要觉得跟行业不同造成对Solr的使用方式不同. 首先,我们公司使用的Solr是对应交通行业的大数据,交通行业的数据有个显著的特点就是: 1. 域多,存在几十个域: 2.…
阮一峰:全文搜索引擎 Elasticsearch 入门教程 作者:阮一峰 本系列文章将整理到我在GitHub上的<Java面试指南>仓库,更多精彩内容请到我的仓库里查看 https://github.com/h2pl/Java-Tutorial 喜欢的话麻烦点下Star哈 本系列文章将整理于我的个人博客: www.how2playlife.com 该系列博文会介绍常见的后端技术,这对后端工程师来说是一种综合能力,我们会逐步了解搜索技术,云计算相关技术.大数据研发等常见的技术喜提,以便让你更完整…
公司最近在研究多条件组合查询方案,Google的一位技术专家Sam和我们讨论了几个备选方案. Sam的信: 我做了进一步研究,目前有这么几种做法: 1) 最直接粗暴,只做一个主index,比如按行业+地区做一个index,这样来说的话,无论多少个标签的查询,直接先用主index做一个筛选,这样下来可能只有少于10w个row,然后对这10w个一个个filtering,这种做法可能能够满足大部分需求.当然,这种做法需要用到cache来优化,否则每次都去DB load会影响数据库的performanc…
这次一反常态,没有场景设计,我想借此文普及一下PMP是什么? 但我不知道这样枯燥的话题能否能引起你的兴趣,我不得不套用“标题党”<爱情必胜术>来博你眼球. 我真没有说谎,此文是献给那些孤身奋斗在爱情第一线的朋友们. PMP是什么? 问得好. 它是一种人士资格认证.它是由美国项目管理协Project Management Institute(PMI)发起的,严格评估项目管理人员知识技能是否具有高品质的资格认证考试.其目的是为了给项目管理人员提供统一的行业标准. 我不是拽自己如何如何,只是行业需要…
 solr与.net系列课程(五)solrnet的使用 最近因项目比较忙,所以这篇文章出的比较晚,离上一篇文章已经有半个月的时间了,这节课我们来学下一下solr的.net客户端solrnet 出处  https://github.com/mausch/SolrNet 上一篇文章讲述了C#是如何请求和接受solr的数据的,请求链接是自己拼接的,接受数据是使用数据契约,solrnet就是把这些步骤封装起来,大家直接调用方法就可以请求和接受数据 首先要下载solrnet所要使用的DLL Microso…
一般的,对所谓大型.通信行业.OSS支撑软件系统,我们可宏观定义以下几点: 以年计的研发周期 以几十人计的研发团队 以百计的业务菜单功能点 以千计的数据库表 以万计的业务术语指标 以亿计的数据表记录 以T计的存储刀片机硬盘 …… 其产出产品,属于可让用户日常生产的系统,故称为支撑系统,或者说行业工具吧. 针对系统抽象设计,如简化后的最小系统包含:数据采集,数据分析,报表查询,系统管理4个子系统. 其涉及的面很广,技术上从脚本语言到面向对象语言,业务上从2G到3G无线网,术语都可背一箩筐.而作为该…
杂谈之SolrCloud这个坑货 看<Solr In Action>时候看到对Solr不足的介绍有这么一段话:“One final limitation of Solr worth mentioning is its elastic scalability: the ability to automatically add and remove servers and redistribute content to handle load. While Solr scales well acr…
  iOS APP安全杂谈 高小厨 · 2015/06/30 10:16 0x00 序 以前总是在这里看到各位大牛分享其安全渗透经验,而今我也很荣幸的收到了乌云的约稿,兴奋之情难以言表.由于IOS是一种闭源的操作系统,源码恐怕也只有几个人见过,其安全性究竟如何我们不得而知,突然想起一段话:恐惧来源于我们的无知.好在国内早有大牛团队—盘古团队总是走在世界的前沿给我们带来最新鲜的IOS安全详解,感谢沙梓社和吴航的<IOS应用逆向工程>让我对IOS逆向充满兴趣,感谢念茜的博客将我领入了IOS安全之门…
这俩年多来笔者一直在从事关于WPF的开发.虽然不能说是专家级别的.但是对于WPF的应用还是有一定的了解.论他的灵活性决对不在WinForm之下.WPF的出现更是引发一段热议.他的何去何从更是让很多人感到迷茫.因为那个时候可以说只有Winow 7才能跟WPF完美的接合.可惜他出不逢时,XP占了大部分的市场.所以WPF的出生动静很大,可惜后力不足,渐渐的淡淡化他的光芒.于至于网络上更是有对WPF的死亡产生了很大的争议.但是这并没有让他沉默下去,这几年来window 8和window 10的推广更是让…
最近项目组安排了一个任务,项目中用到了全文搜索,基于全文搜索 Solr,但是该 Solr 搜索云项目不稳定,经常查询不出来数据,需要手动全量同步,而且是其他团队在维护,依赖性太强,导致 Solr 服务一出问题,我们的项目也基本瘫痪,因为所有的依赖查询都无结果数据了.所以考虑开发一个适配层,如果 Solr 搜索出问题,自动切换到新的搜索--ES. 其实可以通过 Solr 集群或者服务容错等设计来解决该问题.但是先不考虑本身设计的合理性,领导需要开发,所以我开始踏上了搭建 ES 服务的道路,从零开始…
一 搜索引擎是什么一套可对大量结构化.半结构化数据.非结构化文本类数据进行实时搜索的专门软件最早应用于信息检索领域,经谷歌.百度等公司推出网页搜索而为大众广知.后又被各大电商网站采用来做网站的商品搜索.现广泛应用于各行业.互联网应用.是大型系统.网站架构师必备技能. 搜索引擎是用来解决什么问题的 专门解决大量结构化.半结构化数据.非结构化文本类数据的实时检索问题. 这种实时搜索数据库做不了. 搜索引擎适合什么场景使用? 大量结构化.半结构化.非结构化文本类数据的实时搜索 信息检索(如电子图书馆.…
Windows操作系统,毫无疑问是操作系统市场上的霸主,也正因为Windows操作系统的诞生让电脑的操作性能变得更加平民化,深的用户的喜爱.至今身边的人也是选择windows操作系统的居多,这篇文章也是在windows8的操作系统下诞生的! 首先,简单地介绍几代私以为经典的windows操作系统(非全部). 1985年11月20日,Windows1.0诞生.它是微软第一次对个人电脑操作系统进行用户图形界面的尝试,其中自带了包括日历.记事本.计算器等简单的应用程序,它有着允许用户同时执行多个程序.…
这俩年多来笔者一直在从事关于WPF的开发.虽然不能说是专家级别的.但是对于WPF的应用还是有一定的了解.论他的灵活性决对不在WinForm之下.WPF的出现更是引发一段热议.他的何去何从更是让很多人感到迷茫.因为那个时候可以说只有Winow 7才能跟WPF完美的接合.可惜他出不逢时,XP占了大部分的市场.所以WPF的出生动静很大,可惜后力不足,渐渐的淡淡化他的光芒.于至于网络上更是有对WPF的死亡产生了很大的争议.但是这并没有让他沉默下去,这几年来window 8和window 10的推广更是让…
1. 学习计划 第一天: 1.电商行业的背景. 2.宜立方商城的系统架构 a) 功能介绍 b) 架构讲解 3.工程搭建-后台工程 a) 使用maven搭建工程 b) 使用maven的tomcat插件启动工程 4.SSM框架整合 5.svn的使用. 第二天: 1.服务中间件dubbo 2.项目改造为基于SOA架构 3.商品列表查询功能实现. 第三天: 1.商品类目选择 2.图片上传功能分析 3.nginx的安装 4.Nginx配置虚拟机 5.Nginx实现反向代理 6.Nginx实现负载均衡 第四…
1. 学习计划 1.电商行业的背景. 2.电商行业的技术特点 3.商城的介绍 a) 常用的名词介绍 b) 系统功能介绍 4.淘淘商城的系统架构 a) 传统架构 b) 分布式架构 c) 基于服务的架构 d) 淘淘商城的架构 5.技术的选型 6.工程搭建-后台工程 a) 使用maven搭建工程 b) 使用maven的tomcat插件启动工程 7.SVN的使用 2. 电商行业背景介绍 近年来,中国的电子商务快速发展,交易额连创新高,电子商务在各领域的应用不断拓展和深化.相关服务业蓬勃发展.支撑体系不断…
因为我所在的公司为政府做的项目[风险管理系统],其中涉及大量的统计展示,多数以整个市的区划,行业部门等方式返回,在昨天,我发现听过填报单位的方式返回时,始终只有100个数据.通过对比发现,在前辈的代码中统计的存在一个巧合,就是全市的区划.行业部门钻取的方式都没有超过100,刚好我写的这个接口的填报单位有接近3w个单位. 在solr中不管是FacetPivotField还是FacetField.在统计中,最好加入 query.setFacetLimit(-1); 会显示全部,不然只会默认的展示10…
描述: 在Linux环境下实现高速的全文检索 一.当前环境: CentOS (Linux) 6.3 64 bit 二.所需软件 1.Java的JDK Java jdk 1.7.0[注意:solr5.x版本必须安装java 1.7及以上版本] 2.Solr最新稳定版Solr-5.1.0 3.Tomcat最新稳定版Tomcat-7.0.72[也可以进入到solr的安装目录下,执行bin/solr start命令即可启动solr自带的服务器jetty] 4.IK Analyzer最新稳定版分词器IKA…
1.solr原理: 我本人的理解:solr是为解决高性能的全文索引而出现的,它将用户输入的关键字进行智能分解,分解成一个个词,过滤掉一些多余的停词及空格等,比如,“在”.“里面”.“也”.“的”.“它”.“为”这些词都是停止词.这些词因为使用频率过高,几乎 每个网页上都存在,所以搜索引擎开发人员都将这一类词语全部忽略掉.如果我们的网站上存在大量这样的词语,那么相当于浪费了很多资源.然后将分解之后的词去建好的solr索引的字段中根据词的比重逐一进行匹配,最后将符合条件的数据返回给用户. 2.分词原…
简单介绍一下solr? Solr是一个独立的企业级搜索应用服务器,它对外提供类似于web-service的API接口.用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引:也可以通过http Get操作提出查找请求,并得到XML格式的返回结果. 特点:Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器.同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置.可扩展并对查询性能进行了优化,并且提供了一个完善的 功能管理界面,是一…
最近项目组安排了一个任务,项目中用到了全文搜索,基于全文搜索 Solr,但是该 Solr 搜索云项目不稳定,经常查询不出来数据,需要手动全量同步,而且是其他团队在维护,依赖性太强,导致 Solr 服务一出问题,我们的项目也基本瘫痪,因为所有的依赖查询都无结果数据了.所以考虑开发一个适配层,如果 Solr 搜索出问题,自动切换到新的搜索--ES. 其实可以通过 Solr 集群或者服务容错等设计来解决该问题.但是先不考虑本身设计的合理性,领导需要开发,所以我开始踏上了搭建 ES 服务的道路,从零开始…
一般来说,一线成熟企业技术岗位的典型招聘流程分为以下几个步骤: 初筛:一般由直接领导的技术经理或HR进行,重点考察教育和工作经历 一面:一般由可能直接与之共事的工程师进行,重点考察基础和工作能力 二面:一般由直接领导的技术经理进行,重点考察技术深度.广度和发展潜力 HR面:由人力资源部门进行,重点考察入职时间.职业规划.薪资要求等 当然,各个公司情况是不同的,有的公司可能会在面试前设置笔试或电话面试,有的公司会有两轮以上的技术面,有的公司会有由兄弟部门再把关的交叉面,有的创业公司甚至可能只有CE…
上一篇讲述了solr的安装启动过程,这一篇讲述如何导入数据到solr里. 一.准备数据 1.1 学生相关表 创建学生表.学生专业关联表.专业表.学生行业关联表.行业表.基础信息表,并创建一条小白的信息.由于navicat收费,所以这里利用HeidiSQL连接本地的MySql建立表. 1.2查询数据 查询出要导入solr的数据 二.添加jar包 2.1 添加mysql数据库驱动包 下载jar包,并放入到../solr-7.7.2/server/solr-webapp/webapp/WEB-INF/…
上一篇文章已经讲解了如何部署Solr,部署是部署完了,可是总觉得心里空空的,没底,里面有N多配置文件,比如schema.xml.solrConfig.xml.solr.xml and so on……都不知道他们是来干嘛的,所以要先了解下整体的项目架构.基本原理,才能在后续的工作中,更加熟练,须知挨踢行业,必须求甚解.以前不管是上学,还是做其他事情,都是在没有了解其原理的基础上就开工,导致了似懂非懂的一种状态,这种情况就是在现有的范围.环境下可以应付得来,但是如果环境一变,那就束手无策了.正所谓磨…
NoSQL数据库作为数据库市场最重要的组成之一,它的一举一动都影响着成千上万的企业.本专场邀请了行业顶级的NoSQL核心成员与大家共同展望NoSQL数据库的未来,阿里巴巴.MongoDB.Redisson.斗鱼等公司的技术大咖与大家共同分享了阿里云NoSQL数据库的企业级特性及行业解决方案. Redis & MongoDB云数据库技术剖析 阿里云智能事业群数据库产品事业部技术总监,MongoDB中国用户组杭州用户会主席杨成虎(叶翔)为大家深度剖析了Redis和MongoDB云数据库的技术. Re…
|0什么是全文搜索 什么是全文搜索引擎? 百度百科中的定义:全文搜索引擎是目前广泛应用的主流搜索引擎.它的工作原理是计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式.这个过程类似于通过字典中的检索字表查字的过程. 从定义中我们已经可以大致了解全文检索的思路了,为了更详细的说明,我们先从生活中的数据说起. 我们生活中的数据总体分为两种:结构化数据 和 非结构化数据…
昨天已经在Tomcat容器中成功的部署了solr全文检索引擎系统的服务:今天来分享一下solr服务在海量数据的网站中是如何实现数据的检索. 在solr服务中集成IKAnalyzer中文分词器的步骤: 1.下载IKAnalyzer分词器的压缩包并解压: 2.将IKAnalyzer压缩包中的jar包复制到Tomcat容器中已经部署的solr项目中的WEB-INF/lib目录下: 3.在Tomcat容器的solr项目中的WEB-INF/目录创建一个classes目录(默认该目录是不存在的,需手动创建)…
文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/ 1.前言 我相信大家对百度地图,谷歌地图等相关应用已经是非常熟悉了.通过这些应用,我们可以浏览地图.定位我们自己的位置.查找我们想知道的兴趣点.搜索交通路线等等.而其实,这些功能便是WebGIS的一些最基本的功能. 那么什么是WebGIS呢,说到这里,我还是首先给大家讲讲什么是GIS. 2.GIS简介 2.1 GIS的名词解释 GIS的全名是Geographic Inf…
前言 solr排除查询也就是我们在数据库和程序中经常处理的不等于,solr的语法是在定语前加[-].. StringBuilder sbHtml=new StringBuilder(); shBhtml.Append("); 注意CityId前的-号就是不等于 从Solr控制台 从solr控制台看下排除查询的url, 也可以在构建url查询时自己添加筛选条件…
一.什么是facet solr种以导航为目的的查询结果成为facet,在用户查询的结果上根据分类增加了count信息,然后用户根据count信息做进一步搜索. facet主要用于导航实现渐进式精确搜索,从两张图来看看Facet用途. (图1)当进入重庆二手车列表时搜索条件会列出所有品牌.车系.价格区间.车系年贷款等等. (图2)当你点击大众时页面刷新车系会列出大众所属的所有车系.价格区间.顾名思义我虽solr facet的理解也就是:  当然,你从京东导航.淘宝导航也能看到如此效果,这样的场景下…
一. 概述 大量的数据存储在MongoDB上,需要快速搜索出目标内容,于是搭建Solr服务. 另外一点,用Solr索引数据后,可以把数据用在不同的项目当中,直接向Solr服务发送请求,返回xml.json等形式的内容,使得对数据的使用更灵活. 对于MongoDB与Solr的描述不在这里阐释了,本文旨在给大家提供整个Solr与MongoDB接合的方法,实现实时的增量索引. MongoDB的官网:http://www.mongodb.org/ Solr项目的主页:http://lucene.apac…