Slor5.x与mmseg4j的集成【使用solr自带的Jetty Server】

Josh_Persistence

浏览: 1633284 次
性别:
来自: 上海

最近访客更多访客>>

reshinder

maxuanzhao

yh4s

依然任逍遥

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Solr

Solr 5.x mmseg4j jetty

一、mmseg4j对Solr5.x的支持必须使用mmseg4j-2.0以上的版本，本例中我使用的是mmseg4j solr 2.3.0，使用的solr是截止目前为止的solr5.3.1，可下载附件，注意Solr-5.3.1是linux版本，如果需要windows版本，直接去官网上下载，so easy!

二、mmseg4j-2.0后的jar包只有两个了，一个是mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar，而不再有

mmseg4j-analysi-*.jar，感兴趣的可以看我Solr其它专题的博客，里面有一个Solr4.7集成mmseg4j-solr-1.9.1的例子。

三、将jar包导入solr的web app中，如果Solr集成了Tomcat，也可以参照我的另外一篇博客，即Solr4.7集成mmseg4j-solr-1.9.1的例子。本例子中因为使用的是Solr集成的Jetty Server，所以是在solr的jetty server的home目录下的solr-webapp的webapp的WEB-INF目录下的lib目录中加入上面说到的两个jar包。即类似：

/usr/solr/server/solr-webapp/webapp/WEB-INF/lib 的目录。

四、创建一个solr core来进行测试，bin/solr create -c chuanliu

即创建了一个solr core chuanliu，进入该core chuanliu，再进入conf，修改其中managed-schema(在5.0前，该文件是shcema.xml，当然可以将该文件重命名为schema.xml,但不建议这么做），加入下面的内容，即可在Solr Admin 的console中看到新增的这些field了。

 <fieldType name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
      <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" dicPath="/usr/solr/server/solr/chuanliu/conf" mode="complex"/>
      <filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>
    </analyzer>
  </fieldType>
  <fieldType name="text_mmseg4j_maxword" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
      <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" dicPath="/usr/solr/server/solr/chuanliu/conf" mode="max-word"/>
      <filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>
    </analyzer>
  </fieldType>
  <fieldType name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
      <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" dicPath="/usr/solr/server/solr/chuanliu/conf" mode="simple"/>
      <filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>
    </analyzer>
</fieldType>
 

<field name="mmseg4j_complex_name" type="text_mmseg4j_complex" indexed="true" stored="true"/>
  <field name="mmseg4j_maxword_name" type="text_mmseg4j_maxword" indexed="true" stored="true"/>
  <field name="mmseg4j_simple_name" type="text_mmseg4j_simple" indexed="true" stored="true"/>

五、去Solr Admin的Console中查看，即可看到新增的3个field和3个field type，也可以在Solr Admin 的Analysis中进行中文分词的分析了。

mmseg4j-solr-2.3.0-with-mmseg4j-core.zip (695.6 KB)
下载次数: 26

2
顶

2
踩

分享到：

LRU算法 | 中文分词中的正向最大匹配与逆向最大匹配

2015-10-04 11:29
浏览 6345
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论