한국어 형태소 분석기

2016.12.24 21:14

졸리운_곰 조회 수:98

한국어 형태소 분석기

한국어 텍스트를 분석할 때 가장 기본적으로 행해야하는 것은 형태소 분석입니다. 이를 위해 다양한 프로그래밍 언어로 된 여러 라이브러리가 있습니다:

C/C++

  • KTS (1995) GPL v2
    • 이상호, 서정연, 오영환 (KAIST & 서강대)

    • code
  • MACH (2002) custom
    • 심광섭 (성신여대)

  • MeCab-ko (2013) GPL LGPL BSD
    • 이용운, 유영호

자바

  • 아리랑 (2009) Apache v2
  • 한나눔 (1999) GPL v3
    • KAIST 최기선 교수 연구팀

    • code, docs
  • 꼬꼬마 (2010) GPL v2
    • 서울대 이상구 교수 연구팀

    • 동적 프로그래밍을 이용해 형태소 후보를 찾음

    • 형태소의 주변을 확인하고, 몇몇 휴리스틱을 사용하고, HMM을 사용하는 방식으로 품사를 태깅함

    • 개발자 블로그: 이동주

  • KOMORAN (2013) Apache v2
    • By shineware

파이썬

  • KoNLPy (2014) GPL v3
    • 박은정 (서울대)

  • UMorpheme (2014) MIT
    • 김경훈 (UNIST)

R

  • KoNLP (2011) GPL v3
    • 전희원

그 외

다른 NLP 도구

  • Hangulize - By Heungsub Lee Python
    • Hangul transcription tool to 38+ languages
  • Hanja - By Sumin Byeon Python
    • Hanja to hangul transcriptor
  • Jamo - By Joshua Dong Python
    • Hangul syllable decomposition and synthesis
  • KoreanParser - By DongHyun Choi, Jungyeul Park, Key-Sun Choi (KAIST) Java
    • 언어 파서

  • Korean - By Heungsub Lee Python
    • Package for attaching particles (josa) in sentences

말뭉치

  • 연세 말뭉치, 연세대, 1987.
    • 1960년 이후 한국어에 대한 4200만 어절

  • 고려대학교 한국어 말뭉치, 1995
    • 1970-90년대 한국어에 대한 1000만 어절

  • HANTEC 2.0, KISTI & 충남대, 1998-2003.
    • 12만 개의 테스트 문서 (237MB)

    • QA를 위한 50개의 TREC 형태 질의

  • HKIB-40075, KISTI & 한국일보, 2002.
    • 텍스트 분류를 위한 40,075 테스트 문서 (88MB)

  • KAIST Corpus, KAIST, 1997-2005.

  • Sejong Corpus, National Institute of the Korean Language, 1998-2007.

본 웹사이트는 광고를 포함하고 있습니다.
광고 클릭에서 발생하는 수익금은 모두 웹사이트 서버의 유지 및 관리, 그리고 기술 콘텐츠 향상을 위해 쓰여집니다.
번호 제목 글쓴이 날짜 조회 수
1195 [ 一日30分 인생승리의 학습법] VBA Web Scraping: How Can VBA Be Used To Scrape Website Data? file 졸리운_곰 2024.04.13 3
1194 [ 一日30分 인생승리의 학습법] 윈도우 실행파일 구조(PE파일) file 졸리운_곰 2024.03.31 3
1193 [ 一日30分 인생승리의 학습법] [Analysis] PE(Portable Executable) 파일 포맷 공부 file 졸리운_곰 2024.03.31 3
1192 [ 一日30分 인생승리의 학습법] 성공하는 메타버스의 3가지 조건 file 졸리운_곰 2024.03.30 7
1191 [ 一日30分 인생승리의 학습법] REST, REST API, RESTful 과 HATEOAS file 졸리운_곰 2024.03.10 9
1190 [ 一日30分 인생승리의 학습법] 렌더링 삼형제 CSR, SSR, SSG 이해하기 file 졸리운_곰 2024.03.10 2
1189 [ 一日30分 인생승리의 학습법] 엑셀 VBA에서 셀레니움 사용을 위한 Selenium Basic 설치 file 졸리운_곰 2024.02.23 11
1188 [ 一日30分 인생승리의 학습법]500 Lines or Less Blockcode: A Visual Programming Toolkit : 500줄 이하의 블록코드: 시각적 프로그래밍 툴킷 졸리운_곰 2024.02.12 4
1187 [ 一日30分 인생승리의 학습법] 구글 클라이언트(앱) 아이디를 발급받으려면 어떻게 해야 하나요? 졸리운_곰 2024.01.28 3
1186 [ 一日30分 인생승리의 학습법] 빅뱅 프로젝트를 성공적으로 오픈하기 위한 팁 졸리운_곰 2023.12.27 16
1185 [ 一日30分 인생승리의 학습법]“빅뱅 전환보다 단계적 전환 방식이 이상적 애자일팀과 협업 쉽게 체질 개선을” file 졸리운_곰 2023.12.27 12
1184 [ 一日30分 인생승리의 학습법] Big-bang / phased 접근 file 졸리운_곰 2023.12.27 3
1183 [ 一日30分 인생승리의 학습법] CodeDragon 메뉴 데이터 전환의 개념 이해 - 데이터 전환의 개념, 데이터 전환방식, 데이터 전환방식 및 장단점 비교, 데이터전환 이후 검토해야 할 사항 졸리운_곰 2023.12.27 5
1182 [ 一日30分 인생승리의 학습법] 블록체인과 IPFS를 이용한 안전한 데이터 공유 플랫폼 - 분쟁 해결 시스템 file 졸리운_곰 2023.12.27 6
1181 [ 一日30分 인생승리의 학습법] 블록체인과 IPFS를 이용한 안전한 데이터 공유 플랫폼 - 개념과 리뷰 시스템 file 졸리운_곰 2023.12.27 4
1180 [ 一日30分 인생승리의 학습법] 소켓 CLOSE_WAIT 발생 현상 및 처리 방안 file 졸리운_곰 2023.12.03 7
1179 [ 一日30分 인생승리의 학습법] robots 설정하기 졸리운_곰 2023.12.03 3
1178 [ 一日30分 인생승리의 학습법] A Tutorial and Elementary Trajectory Model for the Differential Steering System of Robot Wheel Actuators : 로봇 휠 액츄에이터의 차동 조향 시스템에 대한 튜토리얼 및 기본 궤적 모델 file 졸리운_곰 2023.11.29 6
1177 [ 一日30分 인생승리의 학습법] Streamline Your MLOps Journey with CodeProject.AI Server : CodeProject.AI 서버로 MLOps 여정을 간소화하세요 file 졸리운_곰 2023.11.25 2
1176 [ 一日30分 인생승리의 학습법] Comparing Self-Hosted AI Servers: A Guide for Developers / : 자체 호스팅 AI 서버 비교: 개발자를 위한 가이드 file 졸리운_곰 2023.11.25 10
대표 김성준 주소 : 경기 용인 분당수지 U타워 등록번호 : 142-07-27414
통신판매업 신고 : 제2012-용인수지-0185호 출판업 신고 : 수지구청 제 123호 개인정보보호최고책임자 : 김성준 sjkim70@stechstar.com
대표전화 : 010-4589-2193 [fax] 02-6280-1294 COPYRIGHT(C) stechstar.com ALL RIGHTS RESERVED