konlpy는 한국어 문장을, 단어 단위로 구분해서 분석해주는
파이썬 라이브러리 입니다. ( 파이썬으로 실행가능합니다 )
영어는 공백으로 편하게 구분할 수 있지만,
한국에는 조사를 통해, 붙여진 단어들이 많기에 그런 방법은 사용이 불가능 합니다.
그래서 konlpy가 필요합니다! ( 가장 기본적인 한국어 분석기 )
공식적인 설치 방법은, 아래의 사이트에 나와있습니다.
konlpy-ko.readthedocs.io/ko/v0.4.3/install/#id2
일단 커멘드 명령창(CMD)을 켜주세요!
저는 도커 환경에서 실행 했으므로,
여러분과는 보이는게 다를 수 있습니다!
설치 과정은 똑같으니 걱정안하셔도 됩니다.
설치 명령어
sudo apt-get install g++ openjdk-8-jdk
( 자바를 설치 합니다. 공식사이트에서는 7버전을 깔으라고 하지만, 지금은 8 버전으로 바뀐것 같더라구요. )
sudo apt-get install python3-dev; pip3 install konlpy
( 파이썬3와 konlpy를 설치합니다. )
파이썬 코드 작성
아까 설치 했던 경로에 새로운 파이썬 파일을 만들고,
아래의 코드를 따라 작성해주세요.
1번에서 konlpy라이브러리 안에 있는 'Twitter 메서드' 'Okt메서드'(함수)를 가져옵니다.
( Twitter 메서드가 Okt 메서드로 명칭이 변경 되었습니다.
2번에서 메서드를 사용해 'twitter 객체'를 만들어줍니다.
3번에서 'twitter 객체' 안에 있는 'pos 메서드'를 사용하여
괄호 안의 형태소를 분석하고,
malist 라는 변수안에 넣어 저장해줍니다.
( norm, stem은 설정입니다. 나중에 상세히 다룰 거에요 )
4번에서 출력 해줍니다.
프로그램 실행
그 다음 커멘드 창으로 돌아와서
다음과 같이 입력해, 위에서 작성한 파이썬 코드를 실행해줍니다.
"python3 파일이름"
( 저의 경우는 python3 konlpy-basic.py )
그러면 이런식으로 분석을 해줍니다!
참고로 konlpy안에는 Twitter Okt 분석기 말고도 여러가지의 분석기가 존재하는데,
"아버지가방에들어가신다"를 제대로 분석할 수 있는 분석기는 Twitter Okt와 Kkma 밖에 없다고 하네요.
자, 이렇게 간단한 문장을
파이썬을 사용해서 분석해 보았는데요,
자신이 원하는 글이나, 기사를 스크랩해서
가장 자주 출현하는 단어는 무엇인지 아는데 활용하곤 합니다.
그 방법은 다음에 알아보도록 하겠습니다.
도움이 되셨으면 좋겠습니다!