소프트웨어/DataBase

형태소분석기 관련 자료

falconer 2009. 7. 29. 09:16

검색관련 작업을 하다보면 기본적으로 부딪히는 문제의 첫번째가 형태소분석기다.
하다못해 Lucene을 깔아서 뭔가 해보려고 해도 우선 걸리는 것이 형태소분석기이고
Spam filtering, Query categorization, Duplication detect 등등
대부분 형태소분석기가 없으면 원할한 작업이 힘들거나 좋은 성능이나 결과를 포기해야 한다.
N-gram으로 삽질해서 처리하는 것이 도가 텄으면 모를까...
또 그런 작업으로 대체해서 한다고 해도 근본적으로 쉽지 않은 부분이 많다.

물론 회사에서는 몇개의 형태소분석기가 이미 구비되어 있으므로 그냥 가져다 쓰면 되지만
뭔가 개인적으로 하고 싶은 일에는 회사자산을 가져다 쓰면 안되게 되어 있다.

개인적으로 쓸만한 것이 있는지 간단하게 정보를 수집해 봤다.

KISTI 검색엔진 및 형태소 분석기
www.kristalinfo.com
http://www.kristalinfo.com/K-Lab/idx/
http://www.kristalinfo.com/K-Lab/ma/

락끄님의 형태소분석기 데모
http://ids.snu.ac.kr/wiki/Morpheme_Analyzer_Demo

HAM - 강승식 교수님의 Hangul Analysis Module
http://nlp.kookmin.ac.kr/
http://nlp.kookmin.ac.kr/data/han-dic.html 그밖에 다양한 text문서 자료/프로그램
http://nlp.kookmin.ac.kr/down/data/KorStems.zip 조사/어미 자료.

모란소프트 - 조영환 박사님의 형태소분석기 MORAN
http://www.moransoft.co.kr/

검색엔진 및 형태소분석기 - PHP형태소 분석기가 있다
http://lab.zagia.com/

이상호님의 KTS
http://kldp.net/projects/kts
http://chem.skku.ac.kr/~kle/main/KTS

포항공대 NLP연구실
http://nlp.postech.ac.kr
http://nlp.postech.ac.kr/~project/DownLoad/index.html - binary를 다운로드 받을 수 있다
http://nlp.postech.ac.kr/DownLoad/cgi-bin/POSTAG/SKOPE99a_demo.tar.gz

기타 한글관련 내용
한글코드 http://sparcs.kaist.ac.kr/~jwjung/seminar/hangul-i18n/ko-code.html
한글코드 http://www.klipl.com/info/hgcode/hgcd_rpt.html

기타 한글관련 내용2
http://borame.cs.pusan.ac.kr/ai_home/site/site1.html

참고로 나는 한국어공학자도 아니고 자연어전문가도 아니고 검색엔진전문가도 아니다.
내가 그냥 한국어 형태소분석기를 볼 때 중요하게 생각하는 것은 우선 아래 3가지를 먼저 생각한다.
일관성
속도
유연성

일관성이라는 것은 분석되어 나오는 결과가 상식적으로 타당하다고 생각되는 결과가 대부분의 일반적인 input에서도 동일하게 분석되어 나오는 구조여야 한다는 것이고
속도는 말 그대로 속도이다.
유연성이란 잘못된 것 또는 변화된 상황에 빨리 대처할 수 있게 유연한 장치들을 가지고 있어야 하고 빠르게 대처할 수 있어야 한다는 것이다.

뭐  동의하지 않거나 일부는 의아해 하는 사람들도 있겠지만)
그냥 내가 하는 일의 관점에서는 저런것들이 중요하다고 생각하고 있다.



출처 : http://euriion.com/