[파이썬으로 웹 스크래퍼 만들기] 4. csv파일 만들기
·
Side Project
이전까지 indeed의 정보들을 가지고왔다면 이번에는 stackoverflow의 정보들을 가져오고 main.py를 수정해서 csv파일을 만들 준비를 하자. main.py from indeed import get_jobs as get_indeed_jobs from so import get_jobs as get_so_jobs from save import save_to_file indeed_jobs = get_indeed_jobs() so_jobs = get_so_jobs() indeed.py import requests from bs4 import BeautifulSoup LIMIT = 50 URL = f"https://kr.indeed.com/jobs?q=python&limit={LIMIT}" def g..
[파이썬으로 웹 스크래퍼 만들기] 3. request 하고 extract하기
·
Side Project
지난 포스팅에 이어서 받아온 정보들을 이용해서 각 페이지를 request 해보자. 1페이지 말고 다른 페이지를 눌러보면 주소창에 &start= 해서 숫자가 입력된걸 볼 수 있다. 1페이지당 50개의 결과를 보여주고 그 페이지는 50 * page number -1 부터 시작한다. 예를들면 1페이지는 0이니까 없어도 되고, 2페이지는 start = 50, 3페이지는 start = 100 이런식이다. indeed에서 추출하는 역할을 하는 파일을 따로 생성하고 main.py 에서는 그 결과를 이용할 수 있게 바꿔보자. indeed.py라는 새로운 파일을 생성하고 아래와 같이 함수형태로 바꿔준다. indeed.py import requests from bs4 import BeautifulSoup INDEED_UR..
[파이썬으로 웹 스크래퍼 만들기] 2. html 가져오기
·
Side Project
우선 indeed의 파이썬 채용 공고를 스크래핑 할 것이다. https://github.com/psf/requests psf/requests A simple, yet elegant HTTP library. Contribute to psf/requests development by creating an account on GitHub. github.com 우선은 repl it 으로 진행할거라서 다른 방식으로 import 해야한다. 좌측의 박스모양인 packages를 누르고 requests *를 검색하고 *+ 버튼을 누르자. 주소창을 잘 보면 아래와 같이 되어있는데, api 호출하면서 많이 봤던것들이다. *_python의 검색 결과 중 50개씩 보여주기 *_라는 뜻으로 보인다. (맞춤검색에서 N개씩 보기를 ..
[파이썬으로 웹 스크래퍼 만들기] 1. Repl it
·
Side Project
Repl it은 웹에서 코드를 실행시켜주는 사이트다. 구름 IDE와 비슷한 것 같은데 훨씬 간편한 것 같다. 프로젝트 단위로 저장할 수 있으며, 저장하려면 회원가입을 해야한다. 나는 구글 계정으로 sign up! 로그인하게 되면 몇 가지 설문조사? 같은걸 한다. C++, Python, [HTML, CSS, JS] 클릭 뭐 여러가지를 보여주는데 귀찮으니 패스~ 우측 상단의 +new Repl을 클릭하여 Python을 실행해보자. 새로운 Repl 생성 잘 작동하는 것을 볼 수 있다. 음... 자주 쓸진 모르겠지만 깃헙이랑 연동도 되고 나중에 테블릿을 산다면 ? 쓰지않을까 싶다.
WONILLISM
'Side Project' 카테고리의 글 목록 (5 Page)