一、mmseg4j对Solr5.x的支持必须使用mmseg4j-2.0以上的版本,本例中我使用的是mmseg4j solr 2.3.0,使用的solr是截止目前为止的solr5.3.1,可下载附件,注意Solr-5.3.1是linux版本,如果需要windows版本,直接去官网上下载,so easy!
二、mmseg4j-2.0后的jar包只有两个了,一个是mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar,而不再有
mmseg4j-analysi-*.jar,感兴趣的可以看我Solr其它专题的博客,里面有一个Solr4.7集成mmseg4j-solr-1.9.1的例子。
三、将jar包导入solr的web app中,如果Solr集成了Tomcat,也可以参照我的另外一篇博客,即Solr4.7集成mmseg4j-solr-1.9.1的例子。本例子中因为使用的是Solr集成的Jetty Server,所以是在solr的jetty server的home目录下的solr-webapp的webapp的WEB-INF目录下的lib目录中加入上面说到的两个jar包。即类似:
/usr/solr/server/solr-webapp/webapp/WEB-INF/lib 的目录。
四、创建一个solr core来进行测试,bin/solr create -c chuanliu
即创建了一个solr core chuanliu,进入该core chuanliu,再进入conf,修改其中managed-schema(在5.0前,该文件是shcema.xml,当然可以将该文件重命名为schema.xml,但不建议这么做),加入下面的内容,即可在Solr Admin 的console中看到新增的这些field了。
<fieldType name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" dicPath="/usr/solr/server/solr/chuanliu/conf" mode="complex"/> <filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/> </analyzer> </fieldType> <fieldType name="text_mmseg4j_maxword" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" dicPath="/usr/solr/server/solr/chuanliu/conf" mode="max-word"/> <filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/> </analyzer> </fieldType> <fieldType name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" dicPath="/usr/solr/server/solr/chuanliu/conf" mode="simple"/> <filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/> </analyzer> </fieldType> <field name="mmseg4j_complex_name" type="text_mmseg4j_complex" indexed="true" stored="true"/> <field name="mmseg4j_maxword_name" type="text_mmseg4j_maxword" indexed="true" stored="true"/> <field name="mmseg4j_simple_name" type="text_mmseg4j_simple" indexed="true" stored="true"/>
五、去Solr Admin的Console中查看,即可看到新增的3个field和3个field type,也可以在Solr Admin 的Analysis中进行中文分词的分析了。
相关推荐
solr-4.10.3安装包
自己弄的一个maven项目 框架ssm 改改配置就能用 搭建文档我已经加到了压缩包 有不懂的可以问 windows下搭建的solr 跟linux步骤差不多
Spring Data Solr project 集成了 Apache Solr 搜索引擎。它提供了自身的 MappingSolrConverter 以替代 DocumentObjectBinder ,Spring Data Solr 可以处理继承以及使用自定义类,例如 Point 或 DateTime。 ...
solr中文解析器以及使用文档,配合blog使用
大数据Solr架构原理.pdf
主要介绍ES 与slor 的基本概念及区别
Solr安装,配置及使用说明 已级对主要文件data-config.xml说明
slor定时增量更新索引dataimport.properties
solr-analysis-5.2.1.jar需要的朋友请下载
自学搭建solr服务过程,在linux系统下进行安装。每一步都细致到位,欢迎下载学习!
solr4.4帮助文档.pdf详细的帮助文档,手把手教你入门到精通。
Solr4.5.1安装手册 SolrJ简单应用附代码 IKAnalyzer分词器 学习手册 理解不是太深 如有错误欢迎指正 mail heying876@163.com
solr7总结版本以上总结,包含了我自己搭建的一些心得和体验,虽然也是模仿大神做的,但是我这个文档更详细,更适合新手,且都配有截图
采用servlet的方式对分词库进行动态更新,请求servlet对分词库进行修改
Solr是一个高性能,采用Java开发,基于Lucene的全文搜索服务器。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索...
Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的...
slor中文分词
lia-webdev-elte 该网站是在EötvösLoránd大学的Web开发课程框架中创建的
IKAnalyaer中文分词器,配合slor使用,让你的搜索效果更佳
还可以作为PDF最后更新时间2019-02-01 培训学校维尔茨堡“用于生产ELTeC的光学字符识别和文本编码”(维尔茨堡大学,2018年4月16日至17日) 布达佩斯“ ELTeC的Corpus设计和文本贡献”(EötvösLoránd大学,...