开始之前,可以参考上篇博文全量索引-数据导入并索引:
http://josh-persistence.iteye.com/admin/blogs/2017059
Solr增量索引配置
一、开始增量索引前的准备工作。
1、认识data-config.xml中相关属性
<!-- transformer 格式转化:HTMLStripTransforme表示 索引中将忽略HTML标签 --->
<!-- query: 查询数据库表符合记录数据 --->
<!-- deltaQuery:增量索引 查询主键ID ---> 注意这个query只返回ID字段
<!-- deltaImportQuery:增量索引 查询导入的数据 --->
<!-- deletedPkQuery:增量索引 删除主键ID查询 ---> 注意这个只返回ID字段
最主要的是我们要知道这样一个事实:
1) last_index_time是DataImportHandler的一个默认字段,(可查看conf目录下的dataimporter.properties文件)
2) 我们可以在任何SQL中引用,该字段用于表明上次做full import或者是delta import(增量导入)的最后一次时间。
2、数据库配置注意事项
1)、如果只涉及添加与修改业务,那么数据库里只需添加一个类型为timpstamp,默认值为当前系统时间的字段 :CURRENT_TIMESTAMP(mysql)
2)、如果还涉及删除业务,那么数据里就需额外再多添加一个字段isdelete,int类型的用0,1来标识,此条记录是否被删除,当然也可以用其他字段标识,ture或false都可以
3、dataimporter.properties / {corename}_dataimporter.properties
在C:\solr-tomcat\solr\item\conf中查看是否存在文件dataimporter.properties,如果没有,则新建该文件。
这个配置文件很重要,它是用来记录索引的最新一次修改时间的,通过该配置文件可以找出新增的、修改的或者删除的记录。相关实例:
在data-config中添加如下配置信息。
<dataConfig> <!--- 此段话配置的是一个MySQL的数据源,(数据源也可以配置在solrconfig.xml中) ---> <dataSource name="activityDB" type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost/test" user="swang6" password="swang6"/> <document> <entity pk="ID" dataSource="activityDB" name="myentity" query="select * from myentity WHERE isdelete=0" deltaQuery="select ID from myentity where my_date >'${dih.last_index_time}'" deletedPkQuery="select ID from myentity where isdelete=1" deltaImportQuery="select * from myentity where ID='${dih.delta.id}"> <!-- ID指定大写的,与上面语句中的对应起来----> <field column="ID" name="id"/> <field column="name" name="name"/> <field column="address" name="address"/> <field column="age" name="age"/> <field column="my_date" name="my_date"/> <field column="isdelete" name="isdelete"/> </entity> </document> </dataConfig>
说明:
<!-- pk="ID" 必须,因为其中的增量索引查询主键ID时需要 --> <!-- dataSource="acitvityDB" 这个引用名字是引用上面数据源的名字 --> <!-- name="myentity" 存在多个实体时,这个名字必须唯一 --> <!-- query:用于全量导入而非增量导入 query="select * from myentity WHERE isdelete=0 query查询是指查询出表里所有的符合条件的数据,因为我测试的有删除业务,所以 where后面有一个限定条件isdelete=0,意思为查询未被删除的数据 --> <!-- deltaQuery : 用于增量导入且只返回ID deltaQuery="select ID from myentity where my_date > '${dih.last_index_time}'" deltaQuery的意思是,查询出所有经过修改的记录的ID 可能是修改操作,添加操作,删除操作产生的 --> <!-- deletedPkQuery : 用于增量导入且只返回ID deletedPkQuery="select ID from myentity where isdelete=1" 此操作只查询那些数据库里伪删除的数据的ID(即isdelete标识为1的数据) solr通过它来删除索引里面对应的数据 --> <!-- deltaImportQuery: 增量导入起作用,可以返回多个字段的值,一般情况下,都是返回所有字段的列 deltaImportQuery="select * from myentity where ID='${dih.delta.ID}'" deltaImportQuery查询是获取以上两步的ID,然后把其全部数据获取,根据获取的数据 对索引库进行更新操作,可能是删除,添加,修改 -->
注:如果有必要,则可以在schema.xml中添加一个timestamp的field
<field name="timestamp" type="date" indexed="true" stored="true" default="NOW" />
做了以上配置后,可以设置linux的cron job或者Spring 的TaskSchuduler或者Cron Job后,可以定时发url:
http://localhost:8983/solr/dataimport?command=delta-import 去做增量索引。
更多关于Solr做增量索引的说明文档:http://wiki.apache.org/solr/DataImportHandler
当然也可以用Solr自带的Scheduler来做增量索引:
http://wiki.apache.org/solr/DataImportHandler#Scheduling
相关推荐
solr定时增量更新索引所需jar包包括:solr-dataimporthandler-4.0.0.jar、solr-dataimportscheduler.jar(6.x适用)、solr-dataimporthandler-extras-4.0.0.jar。
基于solr4.x定时任务重新打的jar包
(solr系列:五) solr定时实时重建索引和增量更新-附件资源
slor定时增量更新索引dataimport.properties
完全配置好的solr容器,直接修改web.xml设置一下solr core路劲即可
【修改的版本】solr定时实时重建索引和增量更新-附件资源
solr增量导入更新索引包
Solr数据库插入(全量和增量)索引,全量一般用于第一次创建索引情况,批量一般更新数据部分创建索引。
压缩包内包含有apache-solr-dataimportscheduler-1.0.jar和apache-solr-dataimportscheduler-1.0-with-source.jar,修改bug后重新打包的solr-dataimportscheduler-1.1.jar和solr-dataimportscheduler-1.1-source.zip...
solr定时索引(增量索引、完整索引)需要用到的jar包和配置 支持7.3版本
主要讲解了 solr客户端如何调用带账号密码的solr服务器调用,实现添加索引和查询索引,以及分组查询
Solr Data Import Hander Scheduler 说明:Solr...使用说明将 apache-solr-dataimportscheduler-1.0.jar 和solr自带的 apache-solr-dataimporthandler-.jar, apache-solr-dataimporthandler-extras-.jar 放到solr.war的l
NULL 博文链接:https://iamyida.iteye.com/blog/2215358
支持删除索引和自定义的增量更新。同时具备分词检索能力。 部署方式:1、解压后在源码中修改solr-config.properties配置文件信息,修改完成后,直接发布到tomcat服务中,启动即可。系统当前支持绑定的数据库为ORACLE...
拓展知识中首先讲解了Solr的一些比较生僻的知识点,如伪域、多语种索引支持、安全认证,以及Solr 6.x中的SQL接口和Streaming表达式等;然后讲解了Solr与MapReduce、HDFS、Hbase、Kafka、Flume、Storm、Spark等...
文件中包括:1:solr4.4.0安装部署详细文档,solr-4.4.0.tgz 安装包2:ik分词器详细配置,IKAnalyzer2012FF_u1.jar和IKAnalyzer2012_FF.jar包3:solr和数据库实现实时数据同步更新,以及更新索引。solr-...
拓展知识中首先讲解了Solr的一些比较生僻的知识点,如伪域、多语种索引支持、安全认证,以及Solr 6.x中的SQL接口和Streaming表达式等;然后讲解了Solr与MapReduce、HDFS、Hbase、Kafka、Flume、Storm、Spark等...