主要参考: http://www.cnblogs.com/dennisit/p/3258664.html
原文写得非常好,非常详细。但是版本有一些老了,以其中的displayToken()中跟displayAllTokenInfo()已经需要修改。否则无法在最新的4.10上工作。
在最新的版本之中,需要:
(1)在stream的incrementToken之前增加一个reset的动作:
(2)(我使用JapaneseAnalyzer测试的结果) 这样显示的结果,会出现重复:
比如:
写道
原文:日本経済新聞でモバゲーの記事を読んだ
======日文=======StandardAnalyzer======分词=======
["日本","日本経済新聞","経済","新聞","モバゲ","記事","読む"]
======日文=======StandardAnalyzer======分词=======
["日本","日本経済新聞","経済","新聞","モバゲ","記事","読む"]
我对改方法进行了修改,通过offset进行判定是否略过。
修改之后的displayAllTokenInfo():
public static void displayAllTokenInfo(String str,Analyzer a){ try { TokenStream stream = a.tokenStream("content",new StringReader(str)); //位置增量的属性,存储语汇单元之间的距离 PositionIncrementAttribute pis=stream.addAttribute(PositionIncrementAttribute.class); //每个语汇单元的位置偏移量 OffsetAttribute oa=stream.addAttribute(OffsetAttribute.class); //存储每一个语汇单元的信息(分词单元信息) CharTermAttribute cta=stream.addAttribute(CharTermAttribute.class); //使用的分词器的类型信息 TypeAttribute ta=stream.addAttribute(TypeAttribute.class); stream.reset(); int lastOffset = -1; while(stream.incrementToken()) { if(oa.startOffset() < lastOffset) continue; lastOffset = oa.endOffset(); // System.out.print("增量:"+pis.getPositionIncrement()+":"); // System.out.print("分词:"+cta+"位置:["+oa.startOffset()+"~"+oa.endOffset()+"]->类型:"+ta.type()+"\n"); System.out.print("["+cta+"]"); } System.out.println(); stream.end(); } catch (IOException e) { e.printStackTrace(); } }
相关推荐
Lucene关于几种中文分词的总结
lucene.NET 中文分词 高亮 lucene.NET 中文分词 高亮 lucene.NET 中文分词 高亮 lucene.NET 中文分词 高亮
Lucene.Net+盘古分词是一个常见的中文信息检索组合。但是随着盘古分词停止更新,与Lucene.Net3.0无法兼容。为了使得大家少走弯路,本人利用Lucene.Net2.9+盘古分词2.3搭建了一个Demo,里面包含了两个模块的源码,方便...
lucene引擎和sqlite数据库分词查询,统计单词频率,统计重点单词,重点句子
包括lucene .NET4.0&盘古分词 。net可用dll,盘古分词器等
使用visual studio 开发的lucene.net和盘古分词实现全文检索。并按照lucene的得分算法进行多条件检索并按照得分算法计算匹配度排序。 可以输入一句话进行检索。 lucene.net的版本为2.9.2 盘古分词的版本为2.3.1 并...
Lucene.Net+盘古分词是一个常见的中文信息检索组合。但是随着盘古分词停止更新,与Lucene.Net3.0无法兼容。为了使得大家少走弯路,本人利用Lucene.Net2.9+盘古分词2.3搭建了一个Demo,里面包含了两个模块的源码,方便...
je-analysis-1.5.3、lucene-core-2.4.1分词组件
lucene4.10
来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP) 2. 对数量词、地名、路名的...
compass2.1.4包+所用lucene包+中文分词器所用包
lucene简单教程poading中文分词.pdf
本压缩包的主要内容是Lucene分词器的demo版本,可以导入到程序中直接使用,包含Lucene分词使用的pom文件,使用前请注意修改存储地址。
lucene6.6中适配的拼音分词jar包以及ik中文分词jar包,以及自定义的分词词组包和停词包,可以实现lucene建立索引时进行拼音和中文的分词。
这是 著名的Lucene.net的源吗,带有中文分词,
使用lucene.net盘古分词实现站内搜索demo
Lucene4.7+IK Analyzer中文分词入门教程
采用反向机械分词算法。 对数字、英文进行特别的处理。 支持中英文数字混合词的处理。 分词速度快。
利用IKAnalyzer结合LUCENE.4.9进行中文分词的高亮显示。
lucene.net+盘古分词实现全文搜索,数据匹配,关键词高亮显示等等