Home | Tag Set | Documents | Hannanum Software Service | Concordance(KCP) | Download | Links


한마음 프로젝트

1. 과제 목표


11 본 과제의 목표는 OSS 프로젝트로써 기개발된 형태소 분석기인 한나눔에 대한 기능 개선 및 응용성 확보>가 목적이며, 이를 통해 한나눔의 활용성을 높이고자 한다.


2. 형태소 분석


형태소 분석이란 실제의 문장에 사용되는 단어의 원래의 구조를 파악하는 것이다. 형태소 분석기는 한국어 텍스트를 입력으로 하고 그것을 형태소 단위 즉 사전의 표제어 단위로 분석하여 이를 품사와 함께 출력해주는 소프트웨어이다.(입력 예: 안예뻐지는, 출력 예: 안_{ad} + 예뻐_{pa} + 어_{ef} + 지_{aux} + 는_{ef})

모든 자연언어 처리 분야에서 가장 중요하면서도 기본적으로 필요한 것이 그 언어의 형태소 분석이라 할 수 있고, 형태소 분석이 완결된 후에야 비로소 구문 분석과 의미 분석을 거쳐 기계번역이라든지 자연언어 이해 시스템을 비롯한 모든 자연언어 관련 분야에 응용될 수 있다. 한국어는 특히 어미와 조사의 사용에 의해 단어의 형태적 변형이 심하기 때문에 한국어 처리를 위해서는 형태소 처리부의 역할이 중요하다.



3. 세부 개발 목표


O 기능 개선

- 형태소 분석기의 핵심 기능 중 음운 규칙, 품사 관리 및 사전 관리의 모듈화
- 응용에 맞게 사용할 수 있는 음운 규칙, 품사, 사전을 각각 2가지 이상 제공 예정
- 음차 표기 모듈을 개발 및 통합함으로써 다른 형태소 분석기와 달리 영어 단어가 섞여 있는 문장에 대해서도 처리 가능
- 위를 통해 한나눔의 활용성을 증진시키는 것이 목표

O 응용성 확보

- 자동 띄어쓰기 모듈: 형태소 분석 결과를 활용하여 한글 문장에 대한 자동 띄어쓰기 수행 가능
- 사전 기반의 맞춤법 교정 모듈: 형태소 분석 결과를 활용하여 한글 단어에 대한 맞춤법 교정 수행 가능
- 위와 같은 모듈을 개발하고 한나눔과 같이 제공함으로써 사용자들에게 한나눔의 활용 방법 제공을 제공하는 것이 목표

O 음차 표기 모듈 개발 및 형태소 분석기와 통합

- 다양한 음차 표기 모델 방법론 중 연구실에서 기존에 연구하였던 ‘조화 음차 표기 모델’을 활용하고자 함.
- ‘조화 음차 표기 모델’은 주어진 영어 단어에 대해 먼저 ‘자소기반 음차 표기 모델’, ‘음소기반 음차 표기 모델’, ‘대응기반 음차 표기 모델’에 의한 결과를 추출하고 이에 대해 웹데이터를 활용해 순위화를 함으로써 최종적인 음차 표기 결과를 출력하는 모델임.
- 위 시스템을 구현하여 음차 표기 모듈로써 활용할 예정.
- 음차 표기 모듈을 한나눔과 통합하고, 형태소 분석 전처리 과정 시 영어 단어가 나타나면 위 음차 표기 모듈을 통해 한국어로 변환 후 형태소 분석을 수행하고자 함.




4. 시스템 구조


한마음 프로젝트