Stack Empty
루씬은 필드의 값을 변환하기 위해 토큰의 스트림으로 마킹되는 분석기를 채용했다. 색인 시점에 루씬은 분석기를 지정하게 되어 있고, 이 때 지정된 분석기는 필드와 텍스트로 이뤄진 TokenStream 으로 매핑 작업을 한다. 오늘은 이 TokenStream의 간단한 사용법을 보여주는 Class를 짜보자. package com.tistory.outofmemoryerror.lucene; import java.io.Reader; import java.io.StringReader; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucen..
인터넷을 활용하면서 가장 많이 사용하는 것은 당연 정보검색(IR, Information Retrieval)일 것이다. 검색에 문외한인 나는 어느 부분부터 공부를 해야 할 지 알 수가 없어 이것 저것 살펴보던 중 full-text indexing 기반의 IR 라이브러리인 Lucene에 대해 알게 되었다. 국내에는 관련 서적이 2005년에 번역된 Lucene In Action의 제목을 가진 책 단 한권 뿐이고 그마저도 당연히 오래되었기 때문에 예제도 1.4 버전 기반으로 되어 있어 현재 4.X대의 버전과는 상당한 괴리가 있어 공부가 쉽지 않음을 예상했다. 하지만 검색과 관련된 기본 지식을 배울 수 있지 않을까 하여 책을 구매하고 앞으로 공부한 내용을 일기식으로 써야겠다 공부를 시작한 첫날이니 만큼 검색과 관..