본문 바로가기

데이터 분석4

파이썬으로 데이터 분석하기(EDA -Exploratory Data Analysis/데이터 시각화/그래프 만들기/csv 파일/공공데이터) 데이터를 기계학습에 사용하기 위해 전처리하고 데이터에서 통찰을 얻기 위한 데이터 시각화 및 분석하는 글입니다. 구글 코랩에서 작성하였고 파이썬을 사용합니다. 사용한 데이터는 공공 데이터 포털의 건강검진 데이터 (링크) 이고 csv 파일 입니다. 만약 csv 형식의 다른 데이터를 사용하시기 원하신다면 아래의 코드에서 변수명을 적절히 수정하시면 될 것 같습니다. 기본 설정 모듈 설치 필수 모듈 불러오기 koreanize-matplotlib 설치 !pip install koreanize-matplotlib python, sklearn, numpy 등 모듈 불러오기 # 파이썬 ≥3.5 import sys assert sys.version_info >= (3, 5) # 사이킷런 ≥0.20 import sklear.. 2023. 12. 30.
[크롤링] IMDB 영화 리뷰 크롤링 하고 긍부정 라벨링하기(파이썬/ BeautifulSoup/requests/데이터 추출/실습) IMDB는 영화, TV 시리즈, 홈 비디오, 비디오 게임 및 온라인 스트리밍 콘텐츠와 관련 온라인 데이터베이스입니다. 여기서 수집하고 싶은 영화의 리뷰를 크롤링하고 CSV 형식으로 저장해봅니다. 크롤링하면서 리뷰와 함께 있는 평점을 통해 해당 리뷰를 긍정과 부정으로 라벨링 합니다. 해당 리뷰의 평점이 높다면 긍정으로 라벨링 하고 평점이 낮다면 부정으로 라벨링 합니다. 꼭 평점이 낮다고 부정적인 내용의 리뷰이고 평점이 높다고 긍정적인 내용의 리뷰는 아니지만 평점과 리뷰의 긍부정이 일치한다고 가정하고 임시적으로 라벨을 붙였습니다. 1. 필요한 패키지 불러오기 - requests, BeautifulSoup, urllib.parse, pandas requests : HTTP 요청을 위해 사용하는 파이썬 라이브러.. 2022. 2. 3.
[크롤링] 네이버 영화 리뷰 크롤링하기(파이썬/python/web crawling/웹 크롤링/제목 리뷰 평점 수집하는 방법) 파이썬을 사용하여 네이버 영화의 네티즌 평점과 리뷰 크롤링하고 csv 파일로 저장해봅니다 1. 필요한 패키지 불러오기 - requests, BeautifulSoup, time, csv requests : HTTP 요청을 위해 사용하는 파이썬 라이브러리 BeautifulSoup : 웹 사이트에서 데이터를 추출하는 웹 스크래핑 라이브러리 time : 시간 데이터 처리 모듈 csv : CSV형식의 데이터를 읽고 쓰는 모듈 import requests from bs4 import BeautifulSoup import time import csv 2. soup 객체 만들기 네이버 영화 리뷰 웹 페이지 구성 확인하기 데이터를 추출할 웹 페이지가 어떻게 구성되어 있는지 확인합니다. 아래의 네이버 영화에서는 네티즌의 .. 2022. 2. 1.
LDA를 사용하여 한글 데이터 토픽 모델링하기 LDA를 사용하여 한글 데이터 토픽 모델링 (워드 클라우드, LDAvis로 결과 시각화) 안녕하세요 여러분 오늘은 LDA 알고리즘을 사용해서 토픽 모델링을 해봅니다! 그리고 그 결과로 워드 클라우드와 LDAvis로 모델 결과를 시각화를 해보겠습니다. 토픽 모델링이란? Latent Dirichlet Allocation (LDA)는 토픽모델링에 이용되는 대표적인 알고리즘입니다. 토픽 모델링을 통해 우리는 문서가 어떤 토픽(주제)의 문서인지 알 수 있습니다. 토픽 모델링이 제공하는 토픽은 어떤 주제를 구성하는 단어들입니다. 즉, 문서 집합에서 이 단어 집합을 찾는 것이 토픽 모델링입니다. LDA를 사용하여 토픽 모델링을 하려면 전 처리하는 과정이 필요합니다 한글 데이터를 가지고 토픽 모델링을 해보도록 하겠습니.. 2020. 7. 1.
728x90
반응형