Stack Empty
Lucene TokenStreams 본문
루씬은 필드의 값을 변환하기 위해 토큰의 스트림으로 마킹되는 분석기를 채용했다. 색인 시점에 루씬은 분석기를 지정하게 되어 있고, 이 때 지정된 분석기는 필드와 텍스트로 이뤄진 TokenStream 으로 매핑 작업을 한다. 오늘은 이 TokenStream의 간단한 사용법을 보여주는 Class를 짜보자.
아래는 실행 결과이다.
INCR (START, END) TERM 1 (0, 5) every 1 (6, 12) mammal 3 (21, 27) planet 1 (28, 41) instinctively 1 (42, 50) develops 2 (53, 60) natural 1 (61, 72) equilibrium 3 (82, 93) surrounding 1 (94, 105) environment 2 (111, 114) you 1 (115, 121) humans 1 (122, 124) do 2 (130, 137) instead 1 (138, 141) you 1 (142, 150) multiply 2 (156, 164) multiply 1 (166, 171) until 1 (172, 177) every 1 (178, 186) resource 2 (190, 202) consumed.the 1 (203, 207) only 1 (208, 211) way 2 (216, 219) you 2 (223, 230) survive 3 (237, 243) spread 2 (247, 254) another 1 (255, 259) area 3 (270, 277) another 1 (278, 286) organism 3 (295, 301) planet 2 (307, 314) follows 2 (319, 323) same 1 (324, 331) pattern 2 (337, 342) virus
단어는 모두 소문자로 변경되어 있고 비단어나, 내부 구두점, Stop Word등이 삭제된 걸 볼 수 있다. INCR 필드의 값을 보면 알겠지만 비단어의 삭제와는 다르게 Stop Word가 삭제처리 되었을 경우 PositionIncrementAttribute 에서 해당 값을 하나 증가 시켜주는 걸 볼 수 있다.
'Search > Lucene' 카테고리의 다른 글
Lucene의 색인 - Document 갱신 (0) | 2013.07.01 |
---|---|
Lucene의 색인 - Document 삭제 (0) | 2013.06.28 |
Lucene의 색인 (0) | 2013.06.26 |
Lucene의 색인 범위 제한 (0) | 2013.06.20 |
Lucene으로 색인 만들기 (0) | 2013.06.14 |