[파이썬으로 웹 스크래퍼 만들기] 7. Nomad Coders 웹 스크래퍼 만들기 챌린지 후기
·
Side Project
https://academy.nomadcoders.co/courses/enrolled/681401 Python으로 웹 스크래퍼 만들기 Python for Absolute Beginners academy.nomadcoders.co 드디어 2주간의 CODE CHALLENGE가 끝났다! 펑! 펑! 펑! 짧으면 짧다고 볼 수 있는시간. 2주간 니꼬쌤의 강의를 들으며 코드 챌린지를 완주했다. 토이 프로젝트를 진행하려고 고민하던 중 Python으로 웹 스크래퍼 만들기 코드 챌린지가 시작되는걸 봤다. 사실 리엑트에 입문하려고 준비중이었지만, 뭔가 동기부여가 필요하던 찰나에 딱 마주하게 됐다. 처음 기본적인 내용할땐 매일매일 주어지는 과제도 빨리 빨리 끝내고 다른것을 했지만, 하루가 지날때마다 난이도가 퐉퐉! ㅠㅜ 처..
[파이썬으로 웹 스크래퍼 만들기] 6. (복습) 프로그래머스 코딩테스트 연습 문제 긁어오기
·
Side Project
프로그래머스 html 구조가 생각보다 복잡하다.. ㅠㅜ 우선 문제들을 긁어오기위한 get_problems.py를 선언하여 pagination의 마지막 숫자 즉 마지막 페이지 번호를 가져오자. get_problems.py import requests from bs4 import BeautifulSoup url = "https://programmers.co.kr/learn/challenges?tab=all_challenges" def get_max_page(): req = requests.get(url) # url에 요청하기 soup = BeautifulSoup(req.text,"html.parser") # 요청한 url의 html 긁어오기 pages = soup.find_all("li",{"class":"..
[파이썬으로 웹 스크래퍼 만들기] 5. 중간점검 및 복습
·
Side Project
이제 긁어오는 방법을 알았으니 이것을 토대로 복습을 해볼것이다. 프로그래머스 코딩테스트 문제 중 내가 푼문제와 안 푼 문제를 보고싶을때가 있는데 프로그래머스는 확인할 수 가 없다. 그래서 내가 직접 긁어와서 필터링을 해보겠다. Beautiful Soup 4 vscode에 설치하기 sudo apt-get update # 사용가능한 패키지들과 그 버전들의 리스트를 업데이트 하는 명령 sudo apt-get install python3-pip # python라이브러리 패키지 관리 시스템 pip3 install beautifulsoup4 # beautifulsoup4 설치 페이지 넘버를 우클릭하여 검사를 눌러보면 위와같이 pagination을 가진 태그를 찾을 수 있다. 그런데 문제가 생겼다. 분명 pagina..
[파이썬으로 웹 스크래퍼 만들기] 4. csv파일 만들기
·
Side Project
이전까지 indeed의 정보들을 가지고왔다면 이번에는 stackoverflow의 정보들을 가져오고 main.py를 수정해서 csv파일을 만들 준비를 하자. main.py from indeed import get_jobs as get_indeed_jobs from so import get_jobs as get_so_jobs from save import save_to_file indeed_jobs = get_indeed_jobs() so_jobs = get_so_jobs() indeed.py import requests from bs4 import BeautifulSoup LIMIT = 50 URL = f"https://kr.indeed.com/jobs?q=python&limit={LIMIT}" def g..
[파이썬으로 웹 스크래퍼 만들기] 3. request 하고 extract하기
·
Side Project
지난 포스팅에 이어서 받아온 정보들을 이용해서 각 페이지를 request 해보자. 1페이지 말고 다른 페이지를 눌러보면 주소창에 &start= 해서 숫자가 입력된걸 볼 수 있다. 1페이지당 50개의 결과를 보여주고 그 페이지는 50 * page number -1 부터 시작한다. 예를들면 1페이지는 0이니까 없어도 되고, 2페이지는 start = 50, 3페이지는 start = 100 이런식이다. indeed에서 추출하는 역할을 하는 파일을 따로 생성하고 main.py 에서는 그 결과를 이용할 수 있게 바꿔보자. indeed.py라는 새로운 파일을 생성하고 아래와 같이 함수형태로 바꿔준다. indeed.py import requests from bs4 import BeautifulSoup INDEED_UR..
[파이썬으로 웹 스크래퍼 만들기] 2. html 가져오기
·
Side Project
우선 indeed의 파이썬 채용 공고를 스크래핑 할 것이다. https://github.com/psf/requests psf/requests A simple, yet elegant HTTP library. Contribute to psf/requests development by creating an account on GitHub. github.com 우선은 repl it 으로 진행할거라서 다른 방식으로 import 해야한다. 좌측의 박스모양인 packages를 누르고 requests *를 검색하고 *+ 버튼을 누르자. 주소창을 잘 보면 아래와 같이 되어있는데, api 호출하면서 많이 봤던것들이다. *_python의 검색 결과 중 50개씩 보여주기 *_라는 뜻으로 보인다. (맞춤검색에서 N개씩 보기를 ..
WONILLISM
'웹 스크래퍼' 태그의 글 목록