스파르타코딩/스파르타코딩 3주차
-
지니 크롤링 문제스파르타코딩/스파르타코딩 3주차 2022. 6. 6. 17:42
위에 그림처럼 지니 차트가 출력되게 크롤링 하기. 지니 url : https://www.genie.co.kr/chart/top200?ditc=D&ymd=20200403&hh=23&rtm=N&pg=1 슬라이싱(slicing) 과 공백 제거(strip)를 이용해야 깔끔하게 한 줄에 정리되서 나온다. slicing 사용은 예를 들어 설명하자면 다음과 같은 배열을 가진 A가 있다. A = ['a','b','c','d','e'] A[start : end : step] 의 규칙으로 사용한다. start는 시작지점, end는 끝지점(끝지점은 포함하지 않고 그 앞까지), step 보폭(방향 및 몇개씩 끊어올지 등의 규칙) A[0:2] => 0번째 부터 시작이니 'a'부터 , 2번째 앞까지니깐 'c' 의 앞 까지가 해당..
-
pymongo 를 이용하여 API데이터 등록해보기(feat. 네이버 영화 평점순위)스파르타코딩/스파르타코딩 3주차 2022. 6. 6. 16:06
전에 보았던 네이버 영화 평점 API 데이터를 받아 입력해보자. 전에 썻던 내용에 약간 추가해주면 되서 매우 간단하다. 우선, 임포트 먼저 해주자! from pymongo import MongoClient client = MongoClient('localhost', 27017) db = client.dbsparta doc에 순위(numbers), 제목(title), 평점(grade) 순서로 담아주고 insert 해보자 import requests from bs4 import BeautifulSoup from pymongo import MongoClient client = MongoClient('localhost', 27017) db = client.dbsparta headers = { 'User-Agen..
-
pymongo 사용 (insert, find, update, delete)스파르타코딩/스파르타코딩 3주차 2022. 6. 6. 15:50
pymongo 기본 사용 코드 from pymongo import MongoClient client = MongoClient('localhost', 27017) db = client.dbsparta 조금 설명하자면 맨 첫줄은 import 하여 pymongo를 연결. 두번째줄은 mongodb에 접속 세번째는 dpsparta라는 db에 접속할 것입니다.(그런 db가 없다면 생성) 데이터 명령어 4가지 # insert 데이터 입력 # find 데이터 찾기 # update 데이터 수정 # delete 데이터 삭제 ### 1. insert 데이터 입력해보기 ### doc = {'name':'bobby','age':21} db.users.insert_one(doc) 첫째줄 - 입력할 데이터 내용 두번째줄 - db에..
-
데이터 베이스 정의 및 사용(MongoDB, Studio 3T)스파르타코딩/스파르타코딩 3주차 2022. 6. 6. 14:40
*참고 : robo 3T 가 Studio 3T로 통합되었다. * * 데이터 베이스의 종류 * SQL 과 NOSQL(not only sql) SQL 은 엑셀과 비슷하게 생각하면 된다. 우리가 데이터를 저장하기 전에 미리 양식을 준비해두고 그곳에 데이터들을 정리한다고 생각하면된다. NOSQL 은 그러한 어떤 양식이 없이 딕셔너리 형태로 데이터를 저장한다. 예를들면 SQL은 학생/이메일/연락처/주소 등과 같이 미리 쌓아놓을 데이터의 양식을 정하는 것이고, NOSQL은 A학생은 오늘 12시에 등교했다. C학생은 3일 연속 조퇴를 했다. 등과 같이 형식 없이 그때그때 상황에 맞는 데이터를 저장해두는 방식이다. 그렇기 때문에 SQL은 굉장히 일관적이고, 데이터를 분석하기 빠르다. NOSQL은 스타트업(초기에 데이터..
-
크롤링 QUIZ - 네이버 영화 평점(API)스파르타코딩/스파르타코딩 3주차 2022. 5. 31. 22:24
지난 시간과 연결된 퀴즈. (이전 페이지 참고) 다음과 같이 출력되게 만들어보자. 지난 시간에 찾아둔 trs 변숫값에서 순위, 제목, 평점 순으로 출력하면 될 것 같다. trs = soup.select('#old_content > table > tbody > tr') 1. 순위 - selector #old_content > table > tbody > tr:nth-child(2) > td:nth-child(1) > img https://ssl.pstatic.net/imgmovie/2007/img/common/bullet_r_r01.gif" alt="01" width="14" height="13"> 숫자 카운트는 alt =01 부분을 가져오면 되니깐 numbers = tr.select_one('td:nth..
-
requests 패키지 사용해보기스파르타코딩/스파르타코딩 3주차 2022. 5. 31. 19:10
requests 패키지를 install 했으니 사용법에 대해 알아보자! import requests # requests 라이브러리 설치 필요 r = requests.get('http://openapi.seoul.go.kr:8088/6d4d776b466c656533356a4b4b5872/json/RealtimeCityAir/1/99') rjson = r.json() print(rjson) 어디서 많이 본 낯익은 url 주소가 나온다. 지난 주 Ajax 에서 쓰던 느낌과 굉장히 비슷한대 엄청 코드가 짧다?? 고놈 참 편리하구먼! URL 주소: http://openapi.seoul.go.kr:8088/6d4d776b466c656533356a4b4b5872/json/RealtimeCityAir/1/99 그렇다면..