본문 바로가기
728x90
반응형
[오픈채팅의 재해석] 04. 형태소 분석기 비교 및 결론 komoran과 mecab의 결과를 비교해 봤더니, 빈 행은 저장이 되지 않는지, 결과 길이가 달라서 대응되는 행을 서로 비교 해 볼 수가 없겠군요. import pandas as pd list_komoran = pd.read_pickle('./KakaoOpenChat/nouns_komoran_with_preprocess.pkl') list_mecab = pd.read_pickle('./KakaoOpenChat/nouns_mecab_with_preprocess.pkl') print(len(list_komoran)) print(len(list_mecab)) 그럼 내보낼 때부터, 합해서 내보내야겠네요. from konlpy.tag import Komoran, Kkma import pickle import t.. 2023. 10. 3.
[오픈채팅의 재해석] 03. 핵심어 검출을 위한 명사 검출 어떤 결과물을 내는 방법은 여러가지가 있죠. 특히 프로그래밍의 경우에는 더 그렇습니다. 또한, 똑같은 기술을 설명하는 방법도 다양하죠. 핵심어 검출을 해 나가기에 앞서서 다른 분들의 글도 몇 가지 좀 살펴봤는데 정말 말끔하게 정리가 잘 된 포스트가 하나 있어서 읽어봤습니다. 적용 할 도메인에 따라 불용어 처리 같은 부분은 따로 처리를 해야겠지만, 기본적으로 어떤 텍스트 기반의 자료에서 주요 키워드를 검출하여 이를 보여주는 절차는 말끔하게 정리가 되어 있어서, 새로운 도메인에 대한 분석을 시작 할 때 해야 할 일을 잊지않고 챙겨야 할 때 좋은 참고 자료가 될 수 있을 것 같습니다. https://m.blog.naver.com/j7youngh/222861344172 [ 한글 키워드 시각화 ] 파이썬 pyth.. 2023. 9. 30.
[오픈채팅의 재해석] 02. 오픈채팅 데이터 전처리 로블록스 관련 된 오픈채팅방 대화를 구해서 사용 해 보겠습니다. 이 데이터를 구하면서 몇 개 오픈채팅방을 살펴보니, 세대별/주제별 언어가 매우 다른 것 같아요. 한국어라는 범주에서는 같지만, AI로 해당 도메인의 대화를 잘 처리하려면 도메인별 대화 특성을 고려해야 하고 그러자면 도메인별 데이터 획득이나 가공 방법들이 사전에 검토가 되어야 할 것 같습니다. 전처리 기준 데이터를 어떤 용도로 사용 할 것인가에 따라 처리 방법도 달라져야 합니다. 이번에는 Word Cloud를 만들어 보는 것을 목적으로 하고 있으니, 시간/ 대화명/ 입퇴장 안내 메세지 등은 다 불필요합니다. 동일한 소스로 여러가지 형태로 가공을 해야 한다면 중간 단계의 가공물을 만들어, 각각 서비스별 별도 전처리를 하는 경우도 고려해야 합니다.. 2023. 9. 29.
[오픈채팅의 재해석] 01. 카카오톡 오픈채팅 대화 분석 배경 Code for Korea의 '위로' 프로젝트 참여자 중에서 '청소년 상담' 관련 된 전문가 분이 계셔서, 관련 된 부분에서 해 볼 일들을 검토하고 있습니다. 청소년 상담 시 가장 어려운 점은, 상담이 필요한 청소년들이 자신의 상황을 말로 잘 설명하기 어렵기 때문에, 어떤 어려움을 겪고 있는지 파악하는 것이라고 합니다. 이 특성은, 꼭 청소년 상담에만 적용 되는 것은 아니고, 세상의 모든 상담에 있는 비슷한 어려움인 것 같습니다. 병원에 가서 의사 선생님께 자신이 아픈 곳을 설명하는 것을 의학적 전문 지식을 배경으로 설명 할 수는 없고, 일상의 언어로 표현을 해야 하기 때문에, 의사 선생님은 환자들이 일상적인 언어로 표현한 자신의 불편한 점을 의학적 지식으로 정리 된 자신의 의학 언어와 맵핑 시켜주는 능.. 2023. 9. 28.
DCInside 고갤 조회수 높은 글의 제목 분석 Code for Korea의 위로 프로젝트의 일환으로 DCInside의 고민 갤러리 글을 수집하고 이것을 분석하는 Task를 해보기로 하였습니다. 고민 갤러리의 글들을 읽어보면 매우 심각한 고민부터 매우 가벼운 고민까지 다양합니다. 가벼운 고민은 일단 관심 대상이 아니고, 절박한 상황에서 누군가의 따뜻한 말 한마디조차 간절한 사람들이 관심 대상이며, 그 사람들의 마음의 짐을, 댓글을 통해서라도 조금이라도 위로 할 수 있기를 바라는 마음으로 시작한 프로젝트 입니다. DCInside도 여느 인터넷 게시판 서비스들과 비슷합니다. .... 그러다보니, 정작 도움을 구하는 사람과 도움을 주고자 하는 사람이 서로를 찾기가 어려운 상황이 되는 것 같습니다. 그래서, 도움을 주고자 하는 사람이 글들을 계속 읽어봐야 하.. 2023. 9. 20.
민관협력지원플랫폼을 통한 Naver Cloud Platform 입문 Code for Korea의 '위로' 프로젝트를 준비하면서 여러가지 서비스 아이디어 중 간단한 웹 서비스 형태도 있었는데, 딱 그 무렵에 Code for Korea에 '민관협력지원플랫폼' 소개글이 게시 되어 신청 해 보았습니다. http://digitalsolveup.kr/ 무슨 프로젝트를 구상하면 항상 이 서버 섭외 문제가 항상 고민스러웠는데, 이런 사업이 진행 되어서 참 좋습니다. 잘 사용해서 좋은 점이 많이 부각되면 더 많은 분들이 더 많이 사용 할 수 있는 기회가 생기는데 도움이 될 것 같아, 잘 활용 해 보고자 합니다. 처음 진행 되는 과정이기 때문에 여러가지로 불편한 점들이 있지만, 취지가 좋은 프로그램이니 비난이나 불평 보다는 함께 만들어 간다 생각하고 더 좋은 방향에 대한 의견을 잘 전달하.. 2023. 9. 9.
728x90
반응형