본문 바로가기
728x90
반응형
[오픈채팅의 재해석] 04. 형태소 분석기 비교 및 결론 komoran과 mecab의 결과를 비교해 봤더니, 빈 행은 저장이 되지 않는지, 결과 길이가 달라서 대응되는 행을 서로 비교 해 볼 수가 없겠군요. import pandas as pd list_komoran = pd.read_pickle('./KakaoOpenChat/nouns_komoran_with_preprocess.pkl') list_mecab = pd.read_pickle('./KakaoOpenChat/nouns_mecab_with_preprocess.pkl') print(len(list_komoran)) print(len(list_mecab)) 그럼 내보낼 때부터, 합해서 내보내야겠네요. from konlpy.tag import Komoran, Kkma import pickle import t.. 2023. 10. 3.
[오픈채팅의 재해석] 03. 핵심어 검출을 위한 명사 검출(2) 앞에서 명사 검출을 잘 하지 못했던 것이 계속 마음에 걸려서 다른 방법을 한번 더 시도해 보기로 했습니다. 일단, Mecab을 한번 써서 시도해 보겠습니다. 설치는 '은전한닢' 프로젝트를 설치하면 됩니다. pip install eunjeon 코드는 기존과 다 동일하고, 형태소 분석기만 kkm 대신 mecab을 쓰도록 수정하면 됩니다. from konlpy.tag import Komoran, Kkma import pickle import time from eunjeon import Mecab mecab = Mecab() #komoran = Komoran() #kkma = Kkma() all_nouns = [] start_time = time.time() # 소스 파일 읽기 src_doc_path = './.. 2023. 10. 3.
[오픈채팅의 재해석] 03. 핵심어 검출을 위한 명사 검출 어떤 결과물을 내는 방법은 여러가지가 있죠. 특히 프로그래밍의 경우에는 더 그렇습니다. 또한, 똑같은 기술을 설명하는 방법도 다양하죠. 핵심어 검출을 해 나가기에 앞서서 다른 분들의 글도 몇 가지 좀 살펴봤는데 정말 말끔하게 정리가 잘 된 포스트가 하나 있어서 읽어봤습니다. 적용 할 도메인에 따라 불용어 처리 같은 부분은 따로 처리를 해야겠지만, 기본적으로 어떤 텍스트 기반의 자료에서 주요 키워드를 검출하여 이를 보여주는 절차는 말끔하게 정리가 되어 있어서, 새로운 도메인에 대한 분석을 시작 할 때 해야 할 일을 잊지않고 챙겨야 할 때 좋은 참고 자료가 될 수 있을 것 같습니다. https://m.blog.naver.com/j7youngh/222861344172 [ 한글 키워드 시각화 ] 파이썬 pyth.. 2023. 9. 30.
[오픈채팅의 재해석] 02. 오픈채팅 데이터 전처리 로블록스 관련 된 오픈채팅방 대화를 구해서 사용 해 보겠습니다. 이 데이터를 구하면서 몇 개 오픈채팅방을 살펴보니, 세대별/주제별 언어가 매우 다른 것 같아요. 한국어라는 범주에서는 같지만, AI로 해당 도메인의 대화를 잘 처리하려면 도메인별 대화 특성을 고려해야 하고 그러자면 도메인별 데이터 획득이나 가공 방법들이 사전에 검토가 되어야 할 것 같습니다. 전처리 기준 데이터를 어떤 용도로 사용 할 것인가에 따라 처리 방법도 달라져야 합니다. 이번에는 Word Cloud를 만들어 보는 것을 목적으로 하고 있으니, 시간/ 대화명/ 입퇴장 안내 메세지 등은 다 불필요합니다. 동일한 소스로 여러가지 형태로 가공을 해야 한다면 중간 단계의 가공물을 만들어, 각각 서비스별 별도 전처리를 하는 경우도 고려해야 합니다.. 2023. 9. 29.
[오픈채팅의 재해석] 01. 카카오톡 오픈채팅 대화 분석 배경 Code for Korea의 '위로' 프로젝트 참여자 중에서 '청소년 상담' 관련 된 전문가 분이 계셔서, 관련 된 부분에서 해 볼 일들을 검토하고 있습니다. 청소년 상담 시 가장 어려운 점은, 상담이 필요한 청소년들이 자신의 상황을 말로 잘 설명하기 어렵기 때문에, 어떤 어려움을 겪고 있는지 파악하는 것이라고 합니다. 이 특성은, 꼭 청소년 상담에만 적용 되는 것은 아니고, 세상의 모든 상담에 있는 비슷한 어려움인 것 같습니다. 병원에 가서 의사 선생님께 자신이 아픈 곳을 설명하는 것을 의학적 전문 지식을 배경으로 설명 할 수는 없고, 일상의 언어로 표현을 해야 하기 때문에, 의사 선생님은 환자들이 일상적인 언어로 표현한 자신의 불편한 점을 의학적 지식으로 정리 된 자신의 의학 언어와 맵핑 시켜주는 능.. 2023. 9. 28.
728x90
반응형