[파이썬으로 웹 스크래퍼 만들기] 6. (복습) 프로그래머스 코딩테스트 연습 문제 긁어오기
·
Side Project
프로그래머스 html 구조가 생각보다 복잡하다.. ㅠㅜ 우선 문제들을 긁어오기위한 get_problems.py를 선언하여 pagination의 마지막 숫자 즉 마지막 페이지 번호를 가져오자. get_problems.py import requests from bs4 import BeautifulSoup url = "https://programmers.co.kr/learn/challenges?tab=all_challenges" def get_max_page(): req = requests.get(url) # url에 요청하기 soup = BeautifulSoup(req.text,"html.parser") # 요청한 url의 html 긁어오기 pages = soup.find_all("li",{"class":"..
[파이썬으로 웹 스크래퍼 만들기] 5. 중간점검 및 복습
·
Side Project
이제 긁어오는 방법을 알았으니 이것을 토대로 복습을 해볼것이다. 프로그래머스 코딩테스트 문제 중 내가 푼문제와 안 푼 문제를 보고싶을때가 있는데 프로그래머스는 확인할 수 가 없다. 그래서 내가 직접 긁어와서 필터링을 해보겠다. Beautiful Soup 4 vscode에 설치하기 sudo apt-get update # 사용가능한 패키지들과 그 버전들의 리스트를 업데이트 하는 명령 sudo apt-get install python3-pip # python라이브러리 패키지 관리 시스템 pip3 install beautifulsoup4 # beautifulsoup4 설치 페이지 넘버를 우클릭하여 검사를 눌러보면 위와같이 pagination을 가진 태그를 찾을 수 있다. 그런데 문제가 생겼다. 분명 pagina..
[파이썬으로 웹 스크래퍼 만들기] 3. request 하고 extract하기
·
Side Project
지난 포스팅에 이어서 받아온 정보들을 이용해서 각 페이지를 request 해보자. 1페이지 말고 다른 페이지를 눌러보면 주소창에 &start= 해서 숫자가 입력된걸 볼 수 있다. 1페이지당 50개의 결과를 보여주고 그 페이지는 50 * page number -1 부터 시작한다. 예를들면 1페이지는 0이니까 없어도 되고, 2페이지는 start = 50, 3페이지는 start = 100 이런식이다. indeed에서 추출하는 역할을 하는 파일을 따로 생성하고 main.py 에서는 그 결과를 이용할 수 있게 바꿔보자. indeed.py라는 새로운 파일을 생성하고 아래와 같이 함수형태로 바꿔준다. indeed.py import requests from bs4 import BeautifulSoup INDEED_UR..
WONILLISM
'web scrapper' 태그의 글 목록