한글 형태소 분석기 RHINO

2016.05.03 20:31

졸리운_곰 조회 수:576

한글 형태소 분석기 RHINO

 

 

Korean Morphological Analyzer, RHINO

한글 형태소 분석기 RHINO를 공개합니다.

소스 코드도 공개하니 본인의 프로젝트에 자유롭게 이식할 수 있습니다.

RHINO는 입력된 문장을 어절(띄어쓰기 단위) 별로 끊어서 각 어절의 형태소와 품사를 분석합니다.

분석에 사용된 사전은 국립국어원에서 공개한 1200만 어절 규모의 한국어 현대문어형태분석 말뭉치를 기초로 했습니다. 말뭉치는 각 어절을 품사 분석 해놓았기 때문에 이 자료들을 추출하여 비교적 큰 규모의 사전(stem 330,000 이상, ending 85,000 이상)을 빠르게 만들 수 있었습니다. 그래도 말뭉치에서 자료를 추출, 정제, 통합하는 데 1년 이상의 시간이 걸렸습니다.

 

이 프로그램은 동적사전(Dynamic Dictionary)이라는 것을 사용합니다. 동적사전은 프로그램된 사전입니다. 분석 대상이 들어오면 주위의 문맥을 판단하여 가장 최적의 분석 결과를 제시합니다. 현재는 많은 단어가 최고 빈도 분석 결과만을 내어놓고, 후보 분석 결과는 코딩을 기다리며 기록만 되어 있지만, 차츰 차츰 단어의 코딩을 늘려가고 있습니다. 모든 단어를 모든 경우에 대해 완벽하게 대응하게 하기 위해서는 많은 시간이 필요하겠지요.

 

본 프로그램의 특징은 다음과 같습니다.

 

- 교착어로서 어근과 접사가 복잡하게 얽혀 있는 한국어의 어절을 잘 분석합니다.

- 문맥에 맞는 가장 좋은 분석 결과 하나만 제시할 수 있도록 설계되었습니다.

- 오픈 소스입니다.

 

프로그램 사용법은 간단해서 별도의 설명서를 만들지 않았습니다. 그러나 사전에 새로운 어휘를 추가하는 것은 다소 어려울 수 있어서 그 방법을 이 포스트 뒤에 기록해 둡니다. 만약 프로그램의 전체 구조에 대하여 알고 싶으시다면 아래의 논문을 참고하세요.

 

경축! 아무것도 안하여 에스천사게임즈가 새로운 모습으로 재오픈 하였습니다.
어린이용이며, 설치가 필요없는 브라우저 게임입니다.
https://s1004games.com

- 최석재(2014), "집단지성을 이용하는 개방형 형태소 분석기의 설계와 구현", 언어와 정보 사회 22.

 

이 프로그램은 sourceforge.net에 올려놓았습니다.

https://sourceforge.net/projects/koreananalyzer/


폴더 안의 "RHINO.bat" 파일을 더블 클릭하면 아래와 같은 GUI가 실행됩니다.

 

 

입력문 창에 텍스트를 넣거나, [파일] 탭을 이용하여 파일을 불러오고, [분석] 버튼을 누르면 됩니다.
명사 또는 동사의 리스트만 원한다면 하단의 체크박스를 선택하고, [분석] 버튼을 누르면 됩니다.

 

RHINO는 Real Hangul INput Object의 약자입니다.
어휘를 메소드로 만들고, 메소드의 이름을 한글 그대로 사용하였기에 이러한 이름을 붙였습니다.

 

 

RHINO2.5.1(rJavaCall).zip

RHINO2.5.1(rJavaCall).zip

 

 

본 웹사이트는 광고를 포함하고 있습니다.
광고 클릭에서 발생하는 수익금은 모두 웹사이트 서버의 유지 및 관리, 그리고 기술 콘텐츠 향상을 위해 쓰여집니다.
번호 제목 글쓴이 날짜 조회 수
1195 [ 一日30分 인생승리의 학습법] VBA Web Scraping: How Can VBA Be Used To Scrape Website Data? file 졸리운_곰 2024.04.13 3
1194 [ 一日30分 인생승리의 학습법] 윈도우 실행파일 구조(PE파일) file 졸리운_곰 2024.03.31 3
1193 [ 一日30分 인생승리의 학습법] [Analysis] PE(Portable Executable) 파일 포맷 공부 file 졸리운_곰 2024.03.31 3
1192 [ 一日30分 인생승리의 학습법] 성공하는 메타버스의 3가지 조건 file 졸리운_곰 2024.03.30 7
1191 [ 一日30分 인생승리의 학습법] REST, REST API, RESTful 과 HATEOAS file 졸리운_곰 2024.03.10 9
1190 [ 一日30分 인생승리의 학습법] 렌더링 삼형제 CSR, SSR, SSG 이해하기 file 졸리운_곰 2024.03.10 2
1189 [ 一日30分 인생승리의 학습법] 엑셀 VBA에서 셀레니움 사용을 위한 Selenium Basic 설치 file 졸리운_곰 2024.02.23 11
1188 [ 一日30分 인생승리의 학습법]500 Lines or Less Blockcode: A Visual Programming Toolkit : 500줄 이하의 블록코드: 시각적 프로그래밍 툴킷 졸리운_곰 2024.02.12 4
1187 [ 一日30分 인생승리의 학습법] 구글 클라이언트(앱) 아이디를 발급받으려면 어떻게 해야 하나요? 졸리운_곰 2024.01.28 3
1186 [ 一日30分 인생승리의 학습법] 빅뱅 프로젝트를 성공적으로 오픈하기 위한 팁 졸리운_곰 2023.12.27 16
1185 [ 一日30分 인생승리의 학습법]“빅뱅 전환보다 단계적 전환 방식이 이상적 애자일팀과 협업 쉽게 체질 개선을” file 졸리운_곰 2023.12.27 12
1184 [ 一日30分 인생승리의 학습법] Big-bang / phased 접근 file 졸리운_곰 2023.12.27 3
1183 [ 一日30分 인생승리의 학습법] CodeDragon 메뉴 데이터 전환의 개념 이해 - 데이터 전환의 개념, 데이터 전환방식, 데이터 전환방식 및 장단점 비교, 데이터전환 이후 검토해야 할 사항 졸리운_곰 2023.12.27 5
1182 [ 一日30分 인생승리의 학습법] 블록체인과 IPFS를 이용한 안전한 데이터 공유 플랫폼 - 분쟁 해결 시스템 file 졸리운_곰 2023.12.27 6
1181 [ 一日30分 인생승리의 학습법] 블록체인과 IPFS를 이용한 안전한 데이터 공유 플랫폼 - 개념과 리뷰 시스템 file 졸리운_곰 2023.12.27 4
1180 [ 一日30分 인생승리의 학습법] 소켓 CLOSE_WAIT 발생 현상 및 처리 방안 file 졸리운_곰 2023.12.03 7
1179 [ 一日30分 인생승리의 학습법] robots 설정하기 졸리운_곰 2023.12.03 3
1178 [ 一日30分 인생승리의 학습법] A Tutorial and Elementary Trajectory Model for the Differential Steering System of Robot Wheel Actuators : 로봇 휠 액츄에이터의 차동 조향 시스템에 대한 튜토리얼 및 기본 궤적 모델 file 졸리운_곰 2023.11.29 6
1177 [ 一日30分 인생승리의 학습법] Streamline Your MLOps Journey with CodeProject.AI Server : CodeProject.AI 서버로 MLOps 여정을 간소화하세요 file 졸리운_곰 2023.11.25 2
1176 [ 一日30分 인생승리의 학습법] Comparing Self-Hosted AI Servers: A Guide for Developers / : 자체 호스팅 AI 서버 비교: 개발자를 위한 가이드 file 졸리운_곰 2023.11.25 10
대표 김성준 주소 : 경기 용인 분당수지 U타워 등록번호 : 142-07-27414
통신판매업 신고 : 제2012-용인수지-0185호 출판업 신고 : 수지구청 제 123호 개인정보보호최고책임자 : 김성준 sjkim70@stechstar.com
대표전화 : 010-4589-2193 [fax] 02-6280-1294 COPYRIGHT(C) stechstar.com ALL RIGHTS RESERVED