개발일지 (feat 스파르타코딩 웹개발 3주차)

개발일지

개발일지 (feat 스파르타코딩 웹개발 3주차)

JDI HAN 2022. 9. 19. 11:33

크롤링

import requests
from bs4 import BeautifulSoup

# 타겟 URL을 읽어서 HTML를 받아오고,
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('url입력',headers=headers)

# HTML을 BeautifulSoup이라는 라이브러리를 활용해 검색하기 용이한 상태로 만듦
# soup이라는 변수에 "파싱 용이해진 html"이 담긴 상태가 됨
# 이제 코딩을 통해 필요한 부분을 추출하면 된다.
soup = BeautifulSoup(data.text, 'html.parser')

#############################
# (입맛에 맞게 코딩)
#############################

원하는 부분에서 마우스 오른쪽 클릭 → 검사
원하는 태그에서 마우스 오른쪽 클릭
Copy → Copy selector로 선택자를 복사할 수 있음

예시

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.naver?sel=pnt&date=20210829',headers=headers)

soup = BeautifulSoup(data.text, 'html.parser')

#old_content > table > tbody > tr:nth-child(3) > td.title > div > a
#old_content > table > tbody > tr:nth-child(4) > td.title > div > a

movies = soup.select('#old_content > table > tbody > tr')

for movie in movies:
    a = movie.select_one('td.title > div > a')
    if a is not None:
        title = a.text
        rank = movie.select_one('td:nth-child(1) > img')['alt']
        star = movie.select_one('td.point').text
        print(rank, title, star)

DB는 저장된 자료를 잘 찾기 위해 쓰는 프로그램

SQL: 정형화로 효율적이나 유연하지 못함(정형화되어 있어 관리, 데이터 활용 편하고 빠르나 열 추가 등 형식 변경 어려움)

NoSQL: SQL과 반대(형식 변경이 많을 것으로 예상되는 스타트업에서 많이 사용)

MongoDB 사용코드: 아래만 알고 사용하면 됨

from pymongo import MongoClient
client = MongoClient('여기에 URL 입력')
db = client.dbsparta

# 저장 - 예시
doc = {'name':'bobby','age':21}
db.users.insert_one(doc)

# 한 개 찾기 - 예시
user = db.users.find_one({'name':'bobby'})

# 여러개 찾기 - 예시 ( _id 값은 제외하고 출력)
all_users = list(db.users.find({},{'_id':False}))

# 바꾸기 - 예시
db.users.update_one({'name':'bobby'},{'$set':{'age':19}})

# 지우기 - 예시
db.users.delete_one({'name':'bobby'})

저작자표시 비영리 변경금지 (새창열림)

'개발일지' 카테고리의 다른 글

개발일지 (feat 스파르타코딩 웹개발 2주차) (0)	2022.09.18
개발일지 (feat 스파르타코딩 웹개발 1주차) (0)	2022.09.15

현재글개발일지 (feat 스파르타코딩 웹개발 3주차)

자기계발과 하고 싶은 것에 대한 모든 것을 기록하고 공유합니다.

고위험가구, 아이브짱, 가계부실위험지수, 판매신용, 개발일지, 700선, 마사지볼 #회복운동 #트리거포인트, 웹개발, 가계대출, 가교은행, 경제금융용어, 가계신용통계, 신용공급, 가계순저축률, 스파르타코딩, 가계수지, 가계처분가능소득, 가계신용,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

JDI의 자기계발(개발, 독서, 운동, 재테크, 하고 싶은 것)

개발일지 (feat 스파르타코딩 웹개발 3주차)

'개발일지' 카테고리의 다른 글

'개발일지'의 다른글

티스토리툴바

개발일지 (feat 스파르타코딩 웹개발 3주차)

'개발일지' 카테고리의 다른 글

'개발일지'의 다른글

관련글

티스토리툴바