[한나눔 형태소 분석기] 카이스트 Hannanum형태소 분석기 소개
2016.05.03 20:45
[한나눔 형태소 분석기] 카이스트 Hannanum형태소 분석기 소개
이번 포스팅은 형태소 분석기대해서 소개를 하겠습니다.
현재 외국에서는 영어를 분석하는 분석기들은 많이 나왔습니다. 심지어 워드맵같이 각 단어의 반의어, 유사어 등을 연결하여 네트워크 맵을 만들어놨습니다. 하지만 그에 반해 우리나라언어는 아직 이 정도 수준까지는 못 따라가고 있는 실정입니다.
이에 많은 대학연구소에서는 많은 연구를 현재 진행 중에 있습니다. 그 중에 한 성과가 형태소 분석기입니다.
서울대학교 꼬꼬마 분석기, 국민대학교 KLT 등 많은 대학에서 현재 연구해왔고 현재 연구 중에 있습니다.
이번 포스팅은 그 중 카이스트에서 개발한 한나눔 형태소 분석기에 대해서 소개해드릴게요.
한나눔 형태소 분석기는 카이스트 SWRC 연구소에서 개발한 오픈소스 형태소 분석기입니다.
보통 형태소 분석기를 사용해야할 프로젝트가 다가오면 1순위로 거론되는게 이 형태소 분석기입니다.
이유는 간단합니다. 오픈소스입니다. 모든 소스코드가 전부 공개되기 때문에 소스코드만 분석할 수 있다면,
각 프로젝트에 맞게 변경이 가능합니다. 그게 힘든일이긴 합니다만, 사용할 수 있는게 어딘가요 ㅋ
한나눔 형태소 분석기는 사이트에 쉽게 다운로드하여 사용할 수 있습니다.
각 단계를 모듈별로 분할하여 workflow개념으로 만들어진 모듈을 조립하는 형식으로 설계할 수 있습니다.
이러한 단계는 데모프로그램에서 GUI형태로 표현하여 더 쉽게 접근이 가능합니다.
또한, 한글에 대한 태그가 제가 조사한 형태소 분석기 중에서 제일 다양합니다.
너무 자세한 태그를 원치 않을 경우 더 간단한 태크도 지원합니다.
각 모듈이 플러그인 형태로 되어있습니다.
크게 3가지로 나뉩니다.
1. Text Preprocessing : 문장 경계 인식, 필터링, 자동 띄어쓰기 등 형태소 분석 이전에 필요한 전처리 작업을 수행합니다.
2. Morphological Analysis : 입력 문장에 대해서 어절 단위로 발생 가능한 모든 형태소 분석 결과를 생성합니다.
3. POS Tagging : 가장 유망한 형태소 분석 결과들을 선택하여 입력 문장에 대한 최종 품사 태깅 결과를 반환합니다.
이러한 3가지 플러그인에 하위 플러그인들이 여러개있습니다.
이것들을 조합하여 workflow을 조립하여 사용하면됩니다.
더 자세한 내용은 아래의 형태소 분석기 메뉴얼을 다운받아 참조하시면 됩니다.
한나눔 형태소 분석기에 대한 공식 자료를 얻는 사이트는 아래와 같습니다.
한나눔 형태소 분석기 소개 사이트
http://semanticweb.kaist.ac.kr/home/index.php/About_SWRC
한나눔 형태소 분석기 개발 커뮤니티 사이트
http://kldp.net/projects/hannanum
한나눔 형태소 분석기 메뉴얼 다운로드
http://kldp.net/projects/hannanum/forum/316173
한나눔 형태소 분석기 소스코드 다운로드
http://kldp.net/projects/hannanum/download
다음 포스팅에는 설치 및 데모프로그램 사용을 포스팅하겠습니다.
[출처] http://blog.naver.com/rjsgmlgood/220192037636
광고 클릭에서 발생하는 수익금은 모두 웹사이트 서버의 유지 및 관리, 그리고 기술 콘텐츠 향상을 위해 쓰여집니다.