본문 바로가기

데이터 분석2

파이썬으로 데이터 분석하기(EDA -Exploratory Data Analysis/데이터 시각화/그래프 만들기/csv 파일/공공데이터) 데이터를 기계학습에 사용하기 위해 전처리하고 데이터에서 통찰을 얻기 위한 데이터 시각화 및 분석하는 글입니다. 구글 코랩에서 작성하였고 파이썬을 사용합니다. 사용한 데이터는 공공 데이터 포털의 건강검진 데이터 (링크) 이고 csv 파일 입니다. 만약 csv 형식의 다른 데이터를 사용하시기 원하신다면 아래의 코드에서 변수명을 적절히 수정하시면 될 것 같습니다. 기본 설정 모듈 설치 필수 모듈 불러오기 koreanize-matplotlib 설치 !pip install koreanize-matplotlib python, sklearn, numpy 등 모듈 불러오기 # 파이썬 ≥3.5 import sys assert sys.version_info >= (3, 5) # 사이킷런 ≥0.20 import sklear.. 2023. 12. 30.
LDA를 사용하여 한글 데이터 토픽 모델링하기 LDA를 사용하여 한글 데이터 토픽 모델링 (워드 클라우드, LDAvis로 결과 시각화) 안녕하세요 여러분 오늘은 LDA 알고리즘을 사용해서 토픽 모델링을 해봅니다! 그리고 그 결과로 워드 클라우드와 LDAvis로 모델 결과를 시각화를 해보겠습니다. 토픽 모델링이란? Latent Dirichlet Allocation (LDA)는 토픽모델링에 이용되는 대표적인 알고리즘입니다. 토픽 모델링을 통해 우리는 문서가 어떤 토픽(주제)의 문서인지 알 수 있습니다. 토픽 모델링이 제공하는 토픽은 어떤 주제를 구성하는 단어들입니다. 즉, 문서 집합에서 이 단어 집합을 찾는 것이 토픽 모델링입니다. LDA를 사용하여 토픽 모델링을 하려면 전 처리하는 과정이 필요합니다 한글 데이터를 가지고 토픽 모델링을 해보도록 하겠습니.. 2020. 7. 1.
728x90
반응형