본문 바로가기
728x90
반응형
[오픈채팅의 재해석] 04. 형태소 분석기 비교 및 결론 komoran과 mecab의 결과를 비교해 봤더니, 빈 행은 저장이 되지 않는지, 결과 길이가 달라서 대응되는 행을 서로 비교 해 볼 수가 없겠군요. import pandas as pd list_komoran = pd.read_pickle('./KakaoOpenChat/nouns_komoran_with_preprocess.pkl') list_mecab = pd.read_pickle('./KakaoOpenChat/nouns_mecab_with_preprocess.pkl') print(len(list_komoran)) print(len(list_mecab)) 그럼 내보낼 때부터, 합해서 내보내야겠네요. from konlpy.tag import Komoran, Kkma import pickle import t.. 2023. 10. 3.
[오픈채팅의 재해석] 03. 핵심어 검출을 위한 명사 검출(2) 앞에서 명사 검출을 잘 하지 못했던 것이 계속 마음에 걸려서 다른 방법을 한번 더 시도해 보기로 했습니다. 일단, Mecab을 한번 써서 시도해 보겠습니다. 설치는 '은전한닢' 프로젝트를 설치하면 됩니다. pip install eunjeon 코드는 기존과 다 동일하고, 형태소 분석기만 kkm 대신 mecab을 쓰도록 수정하면 됩니다. from konlpy.tag import Komoran, Kkma import pickle import time from eunjeon import Mecab mecab = Mecab() #komoran = Komoran() #kkma = Kkma() all_nouns = [] start_time = time.time() # 소스 파일 읽기 src_doc_path = './.. 2023. 10. 3.
구글맵의 '목록'으로 '지도'만들기 가능??? 오랜만의 가족 여행이라 첫째에게 가족 일에 주도적으로 참여 해 볼 기회도 줄 겸, 가볼만한 곳 목록을 한번 만들어 보라고 하였고, 정말 오랜(?) 시간이 걸려서 목록을 만들어 왔습니다.(휴대폰 바꿔준다는 동기부여가 없었더라면 불가능한..ㅋㅋ) 그런데, 그냥 텍스트로 목록을 적어서 보냈길래, 잘했지만 구글맵으로 장소를 공유 하도록 해보라고 하였고, 한창 휴대폰 뭘 살 것인지 논의하는 중이라 그런지 번개같이 처리를 해 왔습니다.ㅋㅋ 아... 스티브잡스 미워...ㅋㅋ 나는 애플이 우리나라 사용자 홀대 하는게 싫어서 아이폰 싫은데, 애들은 그런게 없나봅니다. 예전에는 해외 여행 가서 새로운 도시에 도착하면 가장 먼저 하는 일이 그 도시의 다양한 지도를 모으는 것이었습니다. 휴대폰 로딩은 비싸고 에그 같은거도 제.. 2023. 10. 3.
[오픈채팅의 재해석] 03. 핵심어 검출을 위한 명사 검출 어떤 결과물을 내는 방법은 여러가지가 있죠. 특히 프로그래밍의 경우에는 더 그렇습니다. 또한, 똑같은 기술을 설명하는 방법도 다양하죠. 핵심어 검출을 해 나가기에 앞서서 다른 분들의 글도 몇 가지 좀 살펴봤는데 정말 말끔하게 정리가 잘 된 포스트가 하나 있어서 읽어봤습니다. 적용 할 도메인에 따라 불용어 처리 같은 부분은 따로 처리를 해야겠지만, 기본적으로 어떤 텍스트 기반의 자료에서 주요 키워드를 검출하여 이를 보여주는 절차는 말끔하게 정리가 되어 있어서, 새로운 도메인에 대한 분석을 시작 할 때 해야 할 일을 잊지않고 챙겨야 할 때 좋은 참고 자료가 될 수 있을 것 같습니다. https://m.blog.naver.com/j7youngh/222861344172 [ 한글 키워드 시각화 ] 파이썬 pyth.. 2023. 9. 30.
[오픈채팅의 재해석] 02. 오픈채팅 데이터 전처리 로블록스 관련 된 오픈채팅방 대화를 구해서 사용 해 보겠습니다. 이 데이터를 구하면서 몇 개 오픈채팅방을 살펴보니, 세대별/주제별 언어가 매우 다른 것 같아요. 한국어라는 범주에서는 같지만, AI로 해당 도메인의 대화를 잘 처리하려면 도메인별 대화 특성을 고려해야 하고 그러자면 도메인별 데이터 획득이나 가공 방법들이 사전에 검토가 되어야 할 것 같습니다. 전처리 기준 데이터를 어떤 용도로 사용 할 것인가에 따라 처리 방법도 달라져야 합니다. 이번에는 Word Cloud를 만들어 보는 것을 목적으로 하고 있으니, 시간/ 대화명/ 입퇴장 안내 메세지 등은 다 불필요합니다. 동일한 소스로 여러가지 형태로 가공을 해야 한다면 중간 단계의 가공물을 만들어, 각각 서비스별 별도 전처리를 하는 경우도 고려해야 합니다.. 2023. 9. 29.
[오픈채팅의 재해석] 01. 카카오톡 오픈채팅 대화 분석 배경 Code for Korea의 '위로' 프로젝트 참여자 중에서 '청소년 상담' 관련 된 전문가 분이 계셔서, 관련 된 부분에서 해 볼 일들을 검토하고 있습니다. 청소년 상담 시 가장 어려운 점은, 상담이 필요한 청소년들이 자신의 상황을 말로 잘 설명하기 어렵기 때문에, 어떤 어려움을 겪고 있는지 파악하는 것이라고 합니다. 이 특성은, 꼭 청소년 상담에만 적용 되는 것은 아니고, 세상의 모든 상담에 있는 비슷한 어려움인 것 같습니다. 병원에 가서 의사 선생님께 자신이 아픈 곳을 설명하는 것을 의학적 전문 지식을 배경으로 설명 할 수는 없고, 일상의 언어로 표현을 해야 하기 때문에, 의사 선생님은 환자들이 일상적인 언어로 표현한 자신의 불편한 점을 의학적 지식으로 정리 된 자신의 의학 언어와 맵핑 시켜주는 능.. 2023. 9. 28.
Easy Diffusion 간보기 - 2. 이미지 변환 Stable diffusion은 text 입력으로 이미지를 멋지게 생성해 주는 것이 강점인데, 여러가지 응용 측면에서 있는 사진을 어떻게 바꿔주는지가 좀 더 궁금하여 관련 된 기능을 한번 맛보기로 하였습니다. 샘플 사진은 독특한 스타일이 있으면 좋겠다 싶어서, KT 메타버스인 Genieverse 홈페이지에 있는 그림을 사용해 보기로 하였습니다. 개인적으로 아래 쪽 젤리 케릭터 느낌이 상큼하고 좋네요. Stable diffusion도, Easy diffusion도 처음 사용하는 것이니, 자세한 사용법은 차차 가이드를 보고 익히도록 하고, 지금은 막 써보면서 어떤게 있는지 맛을 좀 보도록 하겠습니다. 기초 이미지를 불러서 이미지를 조정 해 보도록 하겠습니다. Image Modifier를 누르면 아래와 같은 .. 2023. 9. 21.
Easy Diffusion 간보기 - 1. 설치 회의 시간에 자주 Stable Diffusion이라는 이야기를 들어서 그게 뭔가 싶어 잠깐 살펴봤는데, 아주 재미있는 녀석이군요. 유튜브에서 한 동안 그림 멋지게 그려주는 영상들이 갑자기 막 쏟아지더니 그게 이놈 덕분이었군요. 사람들이 점차 콘텐츠 생성 보다는 콘텐츠 소비만 강화되어 갈 것 같아요. 어떤 사람은 이렇게 글로 원하는 그림을 표현하는 것이 더 창의적인 작업에 집중 할 수 있는 것이라 말할지 모르겠지만, 어떤 느낌을 표현하기 위해 무엇을 어떻게 표현해야 할까 고민하는 그 과정이야 말로 창의적인 과정인 것 같아요. 이런 AI에 의한 이미지 작업은 어쩌면 창의적인 활동이기 보다는, 생성되는 여러가지 후보들 중에서 가장 자극이 강한 것을 찾는 활동이라고 보는 것이 더 적합 할 것 같네요. 요즘 누가.. 2023. 9. 21.
DCInside 고갤 조회수 높은 글의 제목 분석 Code for Korea의 위로 프로젝트의 일환으로 DCInside의 고민 갤러리 글을 수집하고 이것을 분석하는 Task를 해보기로 하였습니다. 고민 갤러리의 글들을 읽어보면 매우 심각한 고민부터 매우 가벼운 고민까지 다양합니다. 가벼운 고민은 일단 관심 대상이 아니고, 절박한 상황에서 누군가의 따뜻한 말 한마디조차 간절한 사람들이 관심 대상이며, 그 사람들의 마음의 짐을, 댓글을 통해서라도 조금이라도 위로 할 수 있기를 바라는 마음으로 시작한 프로젝트 입니다. DCInside도 여느 인터넷 게시판 서비스들과 비슷합니다. .... 그러다보니, 정작 도움을 구하는 사람과 도움을 주고자 하는 사람이 서로를 찾기가 어려운 상황이 되는 것 같습니다. 그래서, 도움을 주고자 하는 사람이 글들을 계속 읽어봐야 하.. 2023. 9. 20.
AWS Practitioner 신청 절차(1) 이것 저것 하다가 생전 처음 AWS를 좀 쓰게 되었는데, 기왕 쓰게 된 상황이고 AWS 자격증도 많은 것 같은데, 어짜피 AWS에 대해서 공부도 해야하니 겸사겸사 입문용 자격증도 하나 따 두면 좋겠다 싶어 알아봄. 가장 기초 자격증은 Practitioner인데, 다들 쉽다고 함. 쉽다는 합격 후기는 많은데, 공부한 방법은 많은데, 정작 얼마인지, 어디서 어떤 환경에서 시험 보는지는 딱 잘 보이지 않는 것 아닌가. 겸사겸사 완전 처음부터 준비하는 사람들 또 있으면 참고가 될까하여 과정을 기록하기로 결심~ AWS 가입 일단, AWS에 가입을 해야 함. 이전에도 맛보기 겸 한번 가입 하려고 한 적이 한번 있는데, 가입 할 때 카드 번호 입력하라고 해서 깨림칙하여 중도 포기한 적이 있었음. 그런데, 뭐... 필.. 2023. 9. 10.
민관협력지원플랫폼을 통한 Naver Cloud Platform 입문 Code for Korea의 '위로' 프로젝트를 준비하면서 여러가지 서비스 아이디어 중 간단한 웹 서비스 형태도 있었는데, 딱 그 무렵에 Code for Korea에 '민관협력지원플랫폼' 소개글이 게시 되어 신청 해 보았습니다. http://digitalsolveup.kr/ 무슨 프로젝트를 구상하면 항상 이 서버 섭외 문제가 항상 고민스러웠는데, 이런 사업이 진행 되어서 참 좋습니다. 잘 사용해서 좋은 점이 많이 부각되면 더 많은 분들이 더 많이 사용 할 수 있는 기회가 생기는데 도움이 될 것 같아, 잘 활용 해 보고자 합니다. 처음 진행 되는 과정이기 때문에 여러가지로 불편한 점들이 있지만, 취지가 좋은 프로그램이니 비난이나 불평 보다는 함께 만들어 간다 생각하고 더 좋은 방향에 대한 의견을 잘 전달하.. 2023. 9. 9.
DC Inside 고민 갤러리 데이터 수집 - 목록 원래는 국회 입법 정보 시스템의 데이터를 수집해서 일 안하는 의원, 거수기 역할만 하는 의원들 좀 분석 해 보려고 했는데, Code for Korea에서 진행하는 '위로' 프로젝트의 일환으로 'DC Inside의 고민 갤러리'에 작성 된 고민들을 바탕으로 위로를 해보기로 하였다. 일단 데이터를 모아서 분석하고 도울 수 있는 방법을 함께 찾아보자고. Code for Korea 위로 프로젝트 https://code-for-korea.slack.com/archives/C05NCGCMWS2 Slack code-for-korea.slack.com 프로젝트의 취지를 DC Inside에 말씀 드리고 데이터 활용이 가능한지 문의 드렸는데, 공익을 위한 활동이니 허락을 해주셨다. 와우!!! 감사합니다. DC Inside.. 2023. 9. 1.
728x90
반응형