[Lucene] Lucene 4.10 显示分词结果

RangerWolf

浏览: 232874 次
性别:
来自: 南京

最近访客更多访客>>

dazhou

xubukang

minxiaomin

qihongce

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Java
Java Lucene
代码仓库-Java

原文写得非常好，非常详细。但是版本有一些老了，以其中的displayToken()中跟displayAllTokenInfo()已经需要修改。否则无法在最新的4.10上工作。

在最新的版本之中，需要:

（1）在stream的incrementToken之前增加一个reset的动作：

（2）(我使用JapaneseAnalyzer测试的结果) 这样显示的结果，会出现重复：

比如：

写道

原文：日本経済新聞でモバゲーの記事を読んだ
======日文=======StandardAnalyzer======分词=======
["日本","日本経済新聞","経済","新聞","モバゲ","記事","読む"]

我对改方法进行了修改，通过offset进行判定是否略过。

修改之后的displayAllTokenInfo():

public static void displayAllTokenInfo(String str,Analyzer a){
    try {
        TokenStream stream = a.tokenStream("content",new StringReader(str));
        //位置增量的属性，存储语汇单元之间的距离
        PositionIncrementAttribute pis=stream.addAttribute(PositionIncrementAttribute.class);
        //每个语汇单元的位置偏移量
        OffsetAttribute oa=stream.addAttribute(OffsetAttribute.class);
        //存储每一个语汇单元的信息（分词单元信息）
        CharTermAttribute cta=stream.addAttribute(CharTermAttribute.class);
        //使用的分词器的类型信息
        TypeAttribute ta=stream.addAttribute(TypeAttribute.class);
        stream.reset();
        int lastOffset = -1;
        while(stream.incrementToken()) {
        	if(oa.startOffset() < lastOffset) continue;
        	lastOffset = oa.endOffset();
//                System.out.print("增量:"+pis.getPositionIncrement()+":");
//                System.out.print("分词:"+cta+"位置:["+oa.startOffset()+"~"+oa.endOffset()+"]->类型:"+ta.type()+"\n");
        	System.out.print("["+cta+"]");
        }
        System.out.println();
        stream.end();
    } catch (IOException e) {
        e.printStackTrace();
    }
}

分享到：

自己实现了一个维特比(Viterbi)算法的Pyth ... | [Hadoop] 分布式Join : Replicated Join

2014-12-09 17:22
浏览 2241
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

[Lucene] Lucene 4.10 显示分词结果

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

[Lucene] Lucene 4.10 显示分词结果

评论

发表评论

相关推荐

[Hadoop] 分布式Join : Replicated Join

[Hadoop]使用Hadoop进行ReduceSideJoin

[Hadoop] Hadoop 链式任务 : ChainMapper and ChainReducer的使用

[Hadoop] 练习：使用Hadoop计算两个向量的内积

[Hadoop] TopK的一个简单实现

[Mahout] 使用Mahout 对Kddcup 1999的数据进行分析 -- Naive Bayes

[Mahout] 为什么mahout需要sequencefile ?

[Mahout] mahout 0.9 的 seqdirectory 有bug

[Mahout] 使用Mahout对iris数据进行分析 - Logistic Regression

[Mahout] Windows + Eclipse 构建mahout运行环境

[Mahout] 第一个小实验：使用GroupLens进行推荐模型的检验

[Mahout] Windows下Mahout单机安装

[Kaggle实战] Titanic 逃生预测 (5) - 使用Dot语言绘制决策树

[Kaggle实战] Titanic 逃生预测 (4) - 决策树建模

[Kaggle实战] Titanic 逃生预测 (3) - Age离散化

[Kaggle实战] Titanic 逃生预测 (2) - 数据预处理

[Kaggle实战] Titanic 逃生预测 (1) - 项目起步

Java实现的朴素贝叶斯分类器

使用Java实现的ID3算法

Weka 界面操作实例

最近访客更多访客>>