Notice
Recent Posts
Recent Comments
Link
«   2025/08   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
Archives
Today
Total
관리 메뉴

Stack Empty

Lucene TokenStreams 본문

Search/Lucene

Lucene TokenStreams

항상 초심으로.. 2013. 6. 18. 00:13
루씬은 필드의 값을 변환하기 위해 토큰의 스트림으로 마킹되는 분석기를 채용했다. 
색인 시점에 루씬은 분석기를 지정하게 되어 있고, 이 때 지정된 분석기는 필드와 텍스트로 이뤄진 TokenStream
으로 매핑 작업을 한다. 오늘은 이 TokenStream의 간단한 사용법을 보여주는 Class를 짜보자.

아래는 실행 결과이다.
INCR	(START,	       END)	TERM
1	(0,		5)	every
1	(6,		12)	mammal
3	(21,		27)	planet
1	(28,		41)	instinctively
1	(42,		50)	develops
2	(53,		60)	natural
1	(61,		72)	equilibrium
3	(82,		93)	surrounding
1	(94,		105)	environment
2	(111,		114)	you
1	(115,		121)	humans
1	(122,		124)	do
2	(130,		137)	instead
1	(138,		141)	you
1	(142,		150)	multiply
2	(156,		164)	multiply
1	(166,		171)	until
1	(172,		177)	every
1	(178,		186)	resource
2	(190,		202)	consumed.the
1	(203,		207)	only
1	(208,		211)	way
2	(216,		219)	you
2	(223,		230)	survive
3	(237,		243)	spread
2	(247,		254)	another
1	(255,		259)	area
3	(270,		277)	another
1	(278,		286)	organism
3	(295,		301)	planet
2	(307,		314)	follows
2	(319,		323)	same
1	(324,		331)	pattern
2	(337,		342)	virus

단어는 모두 소문자로 변경되어 있고 비단어나, 내부 구두점, Stop Word등이 삭제된 걸 볼 수 있다. INCR 필드의 값을 보면 알겠지만 비단어의 삭제와는 다르게 Stop Word가 삭제처리 되었을 경우 PositionIncrementAttribute 에서 해당 값을 하나 증가 시켜주는 걸 볼 수 있다.

'Search > Lucene' 카테고리의 다른 글

Lucene의 색인 - Document 갱신  (0) 2013.07.01
Lucene의 색인 - Document 삭제  (0) 2013.06.28
Lucene의 색인  (0) 2013.06.26
Lucene의 색인 범위 제한  (0) 2013.06.20
Lucene으로 색인 만들기  (0) 2013.06.14