본문 바로가기

전체 글358

Python 데이터분석 -쇼핑몰 고객주문 데이터 프로젝트 1. 고객 주문 데이터 파악하기 1-1. 데이터 셋 가상 온라인 리테일 사이트의 2010/12 ~ 2011/12까지의 주문 기록 데이터 약 500,000건의 데이터 ✔ import, 드라이브 연결 1-2. 컬럼 살펴보기 InvoiceNo: 주문번호 StockCode: 아이템 아이디 Description: 상품 설명 Quantity: 주문 수량 InvoiceDate: 주문 시간 UnitPrice: 상품 가격 CustomerID: 고객 아이디 Country: 고객 거주 지역(국가) 1-3. 날짜 타입 데이터 변환 문자열로 데이터를 로딩하는 것보다 datetime 타입으로 로딩하는 것이 날짜 분석 및 계산에 용이 1-4. 매출 구하기 2. 매출 데이터로부터 Insight 전체 매출의 약 82%가 UK에서 발생.. 2023. 2. 19.
Python 데이터분석 matplotlib 1. matplotlib 파이썬 기반 시각화 라이브러리 파이썬 표준 시각화 도구라고 불릴만큼 다양한 기능을 제공 한글에 대한 지원이 완벽하지 않음 세부기능이 많아 사용성이 복잡함 pandas와 연동이 용이함 matplotlib 공식 홈페이지 https://matplotlib.org Matplotlib — Visualization with Python seaborn seaborn is a high level interface for drawing statistical graphics with Matplotlib. It aims to make visualization a central part of exploring and understanding complex datasets. statistical dat.. 2023. 2. 19.
백준 Python 1302번 (베스트셀러) 문제 - 1302 김형택은 탑문고의 직원이다. 김형택은 계산대에서 계산을 하는 직원이다. 김형택은 그날 근무가 끝난 후에, 오늘 판매한 책의 제목을 보면서 가장 많이 팔린 책의 제목을 칠판에 써놓는 일도 같이 하고 있다. 오늘 하루 동안 팔린 책의 제목이 입력으로 들어왔을 때, 가장 많이 팔린 책의 제목을 출력하는 프로그램을 작성하시오. song = int(input('오늘 책이 얼마나 팔렸나요?')) books = {} # books를 딕셔너리형 {}으로 초기화 for _ in range(song): book = input('어떤 책이 팔렸나요?') if book not in books: books[book] = 1 # book이 기존 딕셔너리 books에 없다면 빈도를 1 else: books[boo.. 2023. 2. 19.
백준 - Python 1543번 문제 (문서 검색) 문제 - 1543 세준이는 영어로만 이루어진 어떤 문서를 검색하는 함수를 만들려고 한다. 이 함수는 어떤 단어가 총 몇 번 등장하는지 세려고 한다. 그러나, 세준이의 함수는 중복되어 세는 것은 빼고 세야 한다. 예를 들어, 문서가 abababa이고, 그리고 찾으려는 단어가 ababa라면, 세준이의 이 함수는 이 단어를 0번부터 찾을 수 있고, 2번부터도 찾을 수 있다. 그러나 동시에 셀 수는 없다. 세준이는 문서와 검색하려는 단어가 주어졌을 때, 그 단어가 최대 몇 번 중복되지 않게 등장하는지 구하는 프로그램을 작성하시오 hun = input('입력 값1') # 입력 값1 seop = input('입력 값2') # 입력 값2 cnt = 0 song = 0 while song 2023. 2. 19.
머신러닝 Iris 데이터셋 1. Iris DataSet 사이킷런 데이터페이지 https://scikit-learn.org/stable/modules/classes.html?highlight=datasets#module-sklearn.datasets API Reference This is the class and function reference of scikit-learn. Please refer to the full user guide for further details, as the class and function raw specifications may not be enough to give full guidel... scikit-learn.org sepal length in cm : 꽃받침의 길이 sepal width i.. 2023. 2. 18.
Python 데이터 분석 Data Preprecessing 1. 데이터 전처리(Data Preprecessing) 특정 분석에 적합하게 데이터를 가공하는 작업 업무에서 사용하는 데이터는 분석, 머신러닝(딥러닝)에 적합하지 않은 경우가 많기 때문에 이를 방지하기 위한 작업을 함 2. 공공데이터 * [공공데이터](https://bit.ly/ds-house-price) * [민간 아파튼 가격동향](https://bit.ly/ds-house-price) ✔ strip() : 공백이 있는 데이터의 해당 앞뒤 공백을 삭제하는 기능을 가지고 있다. 2023. 2. 18.
Python 백준 - 1966번 문제 - 큐 문제 -1 966 여러분도 알다시피 여러분의 프린터 기기는 여러분이 인쇄하고자 하는 문서를 인쇄 명령을 받은 ‘순서대로’, 즉 먼저 요청된 것을 먼저 인쇄한다. 여러 개의 문서가 쌓인다면 Queue 자료구조에 쌓여서 FIFO - First In First Out - 에 따라 인쇄가 되게 된다. 하지만 상근이는 새로운 프린터기 내부 소프트웨어를 개발하였는데, 이 프린터기는 다음과 같은 조건에 따라 인쇄를 하게 된다. 현재 Queue의 가장 앞에 있는 문서의 ‘중요도’를 확인한다. 나머지 문서들 중 현재 문서보다 중요도가 높은 문서가 하나라도 있다면, 이 문서를 인쇄하지 않고 Queue의 가장 뒤에 재배치 한다. 그렇지 않다면 바로 인쇄를 한다. 예를 들어 Queue에 4개의 문서(A B C D)가 있고, .. 2023. 2. 18.
머신러닝 - 사이킷런 1. Scikit-learn 모듈 대표적인 파이썬 머신러닝 모듈 다양한 머신러닝 알고히즘을 제공 다양한 샘플 데이터를 제공 머신러닝 결과를 검증하는 기능을 제공 BSD 라이선스이기 때문에 무료로 사용 및 배포가 가능 사이킷런 공식홈페이지 https://scikit-learn.org 2. LinearSVC 클래스를 구분으로 하는 분류문제에서 각 클래스를 잘 구분하는 선을 그려주는 방식을 사용하는 알고리즘 지도학습 알고리즘을 사용하는 학습 전용 데이터와 결과 전용 데이터를 함께 가지고 있어야 사용이 가능 2023. 2. 17.
백준 - Python - 11650문제 2차원 평면 위의 점 N개가 주어진다. 좌표를 x좌표가 증가하는 순으로, x좌표가 같으면 y좌표가 증가하는 순서로 정렬한 다음 출력하는 프로그램을 작성하시오. -11650 song = int(input()) hun = [] for i in range(song): # 반복을 돌리며 입력받은 [a, b] = map(int, input().split()) hun.append([a, b]) # hun 리스트 안에 a, b좌표를 저장 hun = sorted(hun) # 정장된 값을 정렬 for i in range(song): print(hun[i][0], hun[i][1]) # 위에 있는 출력식으로 출력 2023. 2. 17.