Python/데이터분석 11

Python 데이터분석 크롤링(벅스뮤직, 멜론, 지니 차트)

크롤링(Crawling): 인터넷의 데이터를 활용하기 위해 정보들을 분석하고 활용할 수 있게 수집하는 행위 스크레이핑(Scraping): 크롤링 + 데이터를 추출해서 가공하는 최종 목표 4. 멜론 차트 robots.txt : 웹사이트에 웹 크롤러같은 로봇들의 접근을 제어하기 위한 규약. 권고안이라 꼭 지킬 의무는 없음 5. 지니 차트 200

Python 데이터분석 - 형태소분석

1. 형태소 분석 자연 언어의 문장을 형태소라는 최소 단위로 분할하고 품사를 판별하는 작업 영어 형태소 분석은 형태소마다 띄어쓰기를 해서 문장을 구성하는 것이 기본임(분석이 쉬운편) 아시아 계열 언어분석은 많은 노력이 필요 한국어 형태소 분석 라이브러리: KoNLpy 2. KoNLPy에 다양한 형태소 분석 라이브러리 Hannanum: 한나눔. KAIST Semantic Web Research Center 개발 KKma: 꼬꼬마. 서울대학교 IDS(Intelligent Data Systems) 연구실 개발 Komoran: 코모란. Shineware에서 개발 Mecab: 메카브. 일본어용 형태소 분석기를 한국어로 사용할 수 있도록 수정 개발 OKT(Open Korean Text): 오픈소스 한국어 분석기. ..

Python 데이터분석 -쇼핑몰 고객주문 데이터 프로젝트

1. 고객 주문 데이터 파악하기 1-1. 데이터 셋 가상 온라인 리테일 사이트의 2010/12 ~ 2011/12까지의 주문 기록 데이터 약 500,000건의 데이터 ✔ import, 드라이브 연결 1-2. 컬럼 살펴보기 InvoiceNo: 주문번호 StockCode: 아이템 아이디 Description: 상품 설명 Quantity: 주문 수량 InvoiceDate: 주문 시간 UnitPrice: 상품 가격 CustomerID: 고객 아이디 Country: 고객 거주 지역(국가) 1-3. 날짜 타입 데이터 변환 문자열로 데이터를 로딩하는 것보다 datetime 타입으로 로딩하는 것이 날짜 분석 및 계산에 용이 1-4. 매출 구하기 2. 매출 데이터로부터 Insight 전체 매출의 약 82%가 UK에서 발생..

Python 데이터분석 matplotlib

1. matplotlib 파이썬 기반 시각화 라이브러리 파이썬 표준 시각화 도구라고 불릴만큼 다양한 기능을 제공 한글에 대한 지원이 완벽하지 않음 세부기능이 많아 사용성이 복잡함 pandas와 연동이 용이함 matplotlib 공식 홈페이지 https://matplotlib.org Matplotlib — Visualization with Python seaborn seaborn is a high level interface for drawing statistical graphics with Matplotlib. It aims to make visualization a central part of exploring and understanding complex datasets. statistical dat..

Python 데이터 분석 Data Preprecessing

1. 데이터 전처리(Data Preprecessing) 특정 분석에 적합하게 데이터를 가공하는 작업 업무에서 사용하는 데이터는 분석, 머신러닝(딥러닝)에 적합하지 않은 경우가 많기 때문에 이를 방지하기 위한 작업을 함 2. 공공데이터 * [공공데이터](https://bit.ly/ds-house-price) * [민간 아파튼 가격동향](https://bit.ly/ds-house-price) ✔ strip() : 공백이 있는 데이터의 해당 앞뒤 공백을 삭제하는 기능을 가지고 있다.

Python Pandas 2

2. 데이터 기본 정보 알아보기 df = pd.read_csv('http://bit.ly/ds-korean-idol') df type(df) pandas.core.frame.DataFrame 2-1. column(열) df.columns Index(['이름', '그룹', '소속사', '성별', '생년월일', '키', '혈액형', '브랜드평판지수'], dtype='object') new_column = ['name','group','company','gender','birthday','height','blood','brand'] df.columns = new_column df.columns Index(['name', 'group', 'company', 'gender', 'birthday', 'height'..

Pythone Pandas(판다스) 기본

1. Pandas 데이터 작업을 쉽고 직관적으로 할 수 있도록 설계된 빠르고 유연한 데이터 구조를 제공하는 모듈개요[편집] 팬더스 (pandas)는 파이썬의 데이터 분석 라이브러리이다. 팬더스는 수치형 테이블과 시계열 데이터를 조작하고 운영하기 위한 데이터를 제공하는데, 3조항 BSD 라이선스 조건 하에서 무료로 사용 가능하다 1-1. Series와 DataFrame 1차원, 1개의 column은 Series라고 부름 데이터프레임: 가로축, 세로축이 있는 2차원의 다양한 데이터를 저장하는 자료구조

Python 데이터 분석 Numpy

1. Numpy 수학, 과학 계산용 페키지 성능 : ndarray가 파이썬의 list보다 빠름 메모리 사이즈 : ndarray가 파이썬의 list보다 적은 메모리를 사 1-1. array(배열) 여러값들의 그룹 1-2. array의 data타입 ndarray는 list와 다르게 단일 데이터 타입만 허용 1-3. 인덱싱과 슬라이싱 배열의 부분 선택 1-4. Fancy 인덱싱 범위가 아닌 특정 index의 집합의 값을 선택하여 추출하고 싶을 때 활용 1-5. Boolean 인덱싱 조건 필터링을 동하여 Boolean 값을 이용한 색

Python 크롤링(서점)

# 셀레니움 : 웹 브라우저를 이용하여 웹 사이트에서 자동적으로 제어할 수 있음 # 뷰티풀 숩 이란 HTML과 XML 문서들의 구문을 분석하기 위한 파이썬 패키지이다. # HTML로부터 데이터를 추출하기 위해 사용할 수 있는 파싱된 페이지의 파스 트리를 만드는데, # 이는 웹 스크래핑에 유용하다. ✔ 메인 페이지 -> 파이썬 (검색) -> 어디서 찾을지(HTML) ✔ yes24에서 내용 긁어오기 ✔ 엑셀로 저장 ✔ 결과