Python/데이터분석

Python 데이터분석 - 형태소분석

code2772 2023. 2. 20. 08:03
728x90
반응형

1. 형태소 분석

  • 자연 언어의 문장을 형태소라는 최소 단위로 분할하고 품사를 판별하는 작업
  • 영어 형태소 분석은 형태소마다 띄어쓰기를 해서 문장을 구성하는 것이 기본임(분석이 쉬운편)
  • 아시아 계열 언어분석은 많은 노력이 필요
  • 한국어 형태소 분석 라이브러리: KoNLpy

 

 

2. KoNLPy에 다양한 형태소 분석 라이브러리

  • Hannanum: 한나눔. KAIST Semantic Web Research Center 개발
  • KKma: 꼬꼬마. 서울대학교 IDS(Intelligent Data Systems) 연구실 개발
  • Komoran: 코모란. Shineware에서 개발
  • Mecab: 메카브. 일본어용 형태소 분석기를 한국어로 사용할 수 있도록 수정 개발
  • OKT(Open Korean Text): 오픈소스 한국어 분석기. 과거 트위터 형태소 분석기

 

반응형