1. 创建本地目录

  1. $ mkdir /usr/local/contentplatform/solr/solr/core1/file1
  2. $ ls -lh
  3. total 88M
  4. -rw-r--r-- tnuser appuser 14M May : apache_hbase_reference_guide.pdf
  5. -rw-r--r-- tnuser appuser 7.4M Apr : Architecting_HBase_Applications.pdf
  6. -rw-r--r-- tnuser appuser 14M Jan Cloudera_Hadoop_Test_Cases.docx
  7. -rw-r--r-- tnuser appuser 6.6M Apr : HBase_Administration_Cookbook.pdf
  8. -rw-r--r-- tnuser appuser 2.1M Apr : HBase_Essentials.pdf
  9. -rw-r--r-- tnuser appuser 25M Apr : Hbase-HBase实战.pdf
  10. -rw-r--r-- tnuser appuser 7.9M Nov HBase.in.Action.pdf
  11. -rw-r--r-- tnuser appuser 13M Apr : HBaseThe_Definitive_Guide.pdf

2. 在core的conf目录修改配置文件solrconfig.xml配置dataimport请求处理器

  1. <requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
  2. <lst name="defaults">
  3. <str name="config">data-config.xml</str>
  4. </lst>
  5. </requestHandler>

3. 在conf目录新建data-config.xml文件并添加数据源的引用

  1. <dataConfig>
  2. <dataSource name="fileDataSource" type="fileDataSource" />
  3. <dataSource name="binFileDataSource" type="BinFileDataSource" />
  4. <document>
  5. <entity
  6. name="file1"
  7. datasource="fileDataSource"
  8. processor="FileListEntityProcessor"
  9. baseDir="/usr/local/contentplatform/solr/solr/core1/file1"
  10. fileName=".*\.(pdf)|(doc)|(docx)|(ppt)|(pptx)|(xls)|(xlsx)|(odf)|(txt)|(rtf)|(html)|(htm)|(jpg)|(csv)"
  11. onError="skip"
  12. recursive="true"
  13. rootEntity="false">
  14. <field column="file" name="id" />
  15. <field column="fileSize" name="size" />
  16. <field column="fileAbsolutePath" name="filepath" />
  17. <field column="fileLastModified" name="lastModified" />
  18.  
  19. <entity
  20. name="documentImport1"
  21. processor="TikaEntityProcessor"
  22. url="${file1.fileAbsolutePath}"
  23. format="text"
  24. datasource="binFileDataSource"
  25. onError="skip"
  26. recursive="true">
  27. <field column="Author" name="author" meta="true"/>
  28. <field column="title" name="title" meta="true"/>
  29. <field column="text" name="text"/>
  30. </entity>
  31. </entity>
  32. </document>
  33. </dataConfig>

4.修改conf目录下的schema.xml文件,添加以下内容

  1. <field name="fileLastModified" type="date" indexed="true" stored="true"/>
  2. <field name="fileAbsolutePath" type="string" indexed="true" stored="true"/>

5. 重新加载配置文件

6. 通过DIH导入本地的文件

6. 查看导入的文档

  1. {
  2. "responseHeader": {
  3. "status": ,
  4. "QTime": ,
  5. "params": {
  6. "indent": "true",
  7. "q": "*:*",
  8. "_": "",
  9. "wt": "json"
  10. }
  11. },
  12. "response": {
  13. "numFound": ,
  14. "start": ,
  15. "docs": [
  16. {
  17. "id": "Hbase-HBase实战.pdf",
  18. "title": [
  19. "HBASE 实战=HBASE IN ACTION"
  20. ],
  21. "author": "(美)NICK DIMIDUK著;谢磊译",
  22. "author_s": "(美)NICK DIMIDUK著;谢磊译",
  23. "_version_":
  24. },
  25. {
  26. "id": "apache_hbase_reference_guide.pdf",
  27. "title": [
  28. "Apache HBase ™ Reference Guide"
  29. ],
  30. "author": "Apache HBase Team",
  31. "author_s": "Apache HBase Team",
  32. "_version_":
  33. },
  34. {
  35. "id": "Architecting_HBase_Applications.pdf",
  36. "title": [
  37. "Architecting HBase Applications"
  38. ],
  39. "author": "Jean-Marc Spaggiari & Kevin O'Dell",
  40. "author_s": "Jean-Marc Spaggiari & Kevin O'Dell",
  41. "_version_":
  42. },
  43. {
  44. "id": "HBase_Administration_Cookbook.pdf",
  45. "_version_":
  46. },
  47. {
  48. "id": "HBase_Essentials.pdf",
  49. "title": [
  50. ""
  51. ],
  52. "author": "",
  53. "author_s": "",
  54. "_version_":
  55. },
  56. {
  57. "id": "HBase.in.Action.pdf",
  58. "title": [
  59. "HBase in Action"
  60. ],
  61. "author": "Nick Dimiduk, Amandeep Khurana",
  62. "author_s": "Nick Dimiduk, Amandeep Khurana",
  63. "_version_":
  64. },
  65. {
  66. "id": "HBase:The_Definitive_Guide.pdf",
  67. "title": [
  68. "HBase: The Definitive Guide"
  69. ],
  70. "author": "Lars George",
  71. "author_s": "Lars George",
  72. "_version_":
  73. },
  74. {
  75. "id": "Cloudera_Hadoop_Test_Cases.docx",
  76. "author": "FeiLong, Li [DBA]",
  77. "author_s": "FeiLong, Li [DBA]",
  78. "_version_":
  79. }
  80. ]
  81. }
  82. }

Solr 4.4.0利用dataimporthandler导入本地pdf、word等文档的更多相关文章

  1. Solr 4.4.0利用dataimporthandler导入postgresql数据库表

    将数据库edbstore的edbtore schema下的customers表导入到solr 1. 首先查看customers表字段信息 edbstore=> \d customers Tabl ...

  2. 【工具篇】利用DBExportDoc V1.0 For MySQL自动生成数据库表结构文档

    对于DBA或开发来说,如何规范化你的数据库表结构文档是灰常之重要的一件事情.但是当你的库,你的表排山倒海滴多的时候,你就会很头疼了. 推荐一款工具DBExportDoc V1.0 For MySQL( ...

  3. 利用DBExportDoc V1.0 For MySQL自动生成数据库表结构文档

    对于DBA或开发来说,如何规范化你的数据库表结构文档是灰常之重要的一件事情.但是当你的库,你的表排山倒海滴多的时候,你就会很头疼了. 推荐一款工具DBExportDoc V1.0 For MySQL( ...

  4. idea导入项目报错:文档中根元素前面的标记必须格式正确

    今天从git上面导入项目之后,由于是上周刚刚提交过的,本地也没有什么修改,于是就从gitlab上面直接下载下来了.可是项目启动时候,报错了... 文档中根元素前面的标记必须格式正确 想想 原来是上次提 ...

  5. 利用sphinx为python项目生成API文档

    sphinx可以根据python的注释生成可以查找的api文档,简单记录了下步骤 1:安装 pip install -U Sphinx 2:在需要生成文档的.py文件目录下执行sphinx-apido ...

  6. 利用Swagger2自动生成对外接口的文档

    一直以来做对外的接口文档都比较原始,基本上都是手写的文档传来传去,最近发现了一个新玩具,可以在接口上省去不少麻烦. swagger是一款方便展示的API文档框架.它可以将接口的类型最全面的展示给对方开 ...

  7. 利用node 剥取其他网站的文档数据结构 ---

    1.如何利用nodejs获取其他网站的文档结构呢 以下是代码演示------! //首先需要引入一些核心模块 var http = require('http'); var fs = require( ...

  8. Asp.Net Core2.0 WebAPI 使用Swagger生成漂亮的接口文档

    1.引用NuGet: Swashbuckle.AspNetCore.Swagger Swashbuckle.AspNetCore.SwaggerGen 或 <PackageReference I ...

  9. Confluence-6.10.0+Jira-7.13+Crowd-3.2.1最全破解文档,附下载包

    =========================================2019.4.19更改================================================ ...

随机推荐

  1. Git 删除本地保存的账号和密码

    使用git在本地拉过一次代码时候git会自动将用户名密码保存到本地. 导致想用别的用户名和密码拉代码时没有权限,这时需要删除或者修改git在本地保存的账户名和密码. 具体办法如下: 1.控制面板--& ...

  2. datetime模块的常用总结

    datetime模块 datetime模块提供了一些处理日期和时间的标准库.常用的有 datetime timedelta timezone 构造一个datetime对象 datetime() dat ...

  3. Acwing:137. 雪花雪花雪花(Hash表)

    有N片雪花,每片雪花由六个角组成,每个角都有长度. 第i片雪花六个角的长度从某个角开始顺时针依次记为ai,1,ai,2,…,ai,6ai,1,ai,2,…,ai,6. 因为雪花的形状是封闭的环形,所以 ...

  4. C++入门经典-例2.13-左移运算

    1:代码如下: // 2.13.cpp : 定义控制台应用程序的入口点. // #include "stdafx.h" #include<iostream> using ...

  5. .tcc文件

    今天看源码时碰到一个MemoryPool.h文件和MemoryPool.tcc文件,毫不犹豫在vs工程下把.tcc加到了源文件文件夹下, 把.h文件放到了头文件文件夹下.结果闹了笑话: 以下是解释, ...

  6. LeetCode 3. 无重复字符的最长子串(Longest Substring Without Repeating Characters)

    题目描述 给定一个字符串,找出不含有重复字符的最长子串的长度. 示例: 给定 "abcabcbb" ,没有重复字符的最长子串是 "abc" ,那么长度就是3. ...

  7. 二、Smarty中的三种主要变量

    1.从PHP中分配的变量 $smarty -> assign(); 从PHP分配给模板使用的变量:动态变量 2.从配置文件中读取的变量 $smarty配置文件中的内容不是PHP读取,而是就在sm ...

  8. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

    1. 摘要 作者提出了一系列应用于移动和嵌入式视觉的称之为 MobileNets 的高效模型,这些模型采用深度可分离卷积来构建轻量级网络. 作者还引入了两个简单的全局超参数来有效地权衡时延和准确率,以 ...

  9. Android ConstraintLayout 约束布局属性

    常用方法总结 layout_constraintTop_toTopOf // 将所需视图的顶部与另一个视图的顶部对齐. layout_constraintTop_toBottomOf // 将所需视图 ...

  10. GO自定义类型与指针

    指针 定义:将地址形象化的称为“指针”.将地址形象化的称为“指针”.意思是通过它能找到以它为地址的内存单元.一个指针变量指向了一个值的内存地址.意思是通过它能找到以它为地址的内存单元.一个指针变量指向 ...