본문 바로가기

크롤링3

Python 데이터분석 크롤링(벅스뮤직, 멜론, 지니 차트) 크롤링(Crawling): 인터넷의 데이터를 활용하기 위해 정보들을 분석하고 활용할 수 있게 수집하는 행위 스크레이핑(Scraping): 크롤링 + 데이터를 추출해서 가공하는 최종 목표 4. 멜론 차트 robots.txt : 웹사이트에 웹 크롤러같은 로봇들의 접근을 제어하기 위한 규약. 권고안이라 꼭 지킬 의무는 없음 5. 지니 차트 200 2023. 2. 24.
Python 크롤링(서점) # 셀레니움 : 웹 브라우저를 이용하여 웹 사이트에서 자동적으로 제어할 수 있음 # 뷰티풀 숩 이란 HTML과 XML 문서들의 구문을 분석하기 위한 파이썬 패키지이다. # HTML로부터 데이터를 추출하기 위해 사용할 수 있는 파싱된 페이지의 파스 트리를 만드는데, # 이는 웹 스크래핑에 유용하다. ✔ 메인 페이지 -> 파이썬 (검색) -> 어디서 찾을지(HTML) ✔ yes24에서 내용 긁어오기 ✔ 엑셀로 저장 ✔ 결과 2023. 2. 15.
크롤링 (네이버 영화 리뷰 및 DB저장) REST(Reprsentational State Transfer) - 자원을 이름으로 구분하여 해당 자원의 상태를 주고 받는 모든 것을 의미 - 자원 : 소프트웨어가 관리하는 모든 것(문서, 이미지, 데이터..) - json, xml을 통해 데이터를 주고 받는 것이 일반적 장점 - HTTP 프로토콜의 인프라를 그대로 사용하므로 REST API 사용을 위한 별도의 인프라를 구축할 필요가 없음 - HTTP 표준 프로토콜에 따른 모든 플랫폼에서 사용이 가능 - 서버와 클라이언트의 역할을 명확하게 분리(프론트엔드 - 백앤드) 단점 - 표준이 존재하지 않음 - 사용할 수 있는 메소드의 형대가 제한적 - 구형 브라우저가 아직 지원하지 않는 부분이 존재할 수 있음 과제 네이버 영화에서 영화제목, 평점, 리뷰를 크롤링.. 2022. 12. 4.