‘검색에서 쓸만한’이란 목표 때문에 다음의 두 가지 항목에 초점을 맞춰 개발을 진행하였습니다.
- 검색 엔진 색인기에서 쓸 수 있는 적당한 품질과 속도
- 자유로운 라이센스
- mecab-ko-dic - MeCab(범용 형태소 분석기 엔진)용 한국어 형태소 사전
- mecab-ko-lucene-analyzer - mecab-ko-dic를 사용하는 Lucene/Solr용 tokenizer
- elasticsearch-analysis-mecab-ko - ElasticSearch용 플러그인
- 온라인 형태소 사전 관리 시스템 - 구상 중 (작업 일정 미정) 사실은 감이 안옴 -_-;
- (2016-01 추가) seunjeon - pure scala library(not use JIN)
- elasticsearch-analysis-seunjeon - elasticsearch 플러그인
형태소 분석을 위한 말뭉치 학습과 사전 목록 일부는 21세기 세종계획의 성과물을 사용하였으며, MeCab을 사용하게 된 것은 다음의 글과 사이트가 결정적 역할을 하였습니다. 프로젝트에 관한 보다 자세한 사항을 은전한닢 프로젝트 마인드맵에서 보실 수 있습니다. 검색이나 한국어 형태소 분석기에 관심이 많으신 분들은 한번 사용해보시고, 많은 피드백 부탁 드립니다. 제발~!!!
형태소분석기 테스트 해보기 - mecab 자체에서의 형태소 분석과 solr 또는 elasticsearch 에서 어떻게 분석되는지를 간단하게 보실 수 있습니다.