Side Project
-
프로그래머스 html 구조가 생각보다 복잡하다.. ㅠㅜ 우선 문제들을 긁어오기위한 get_problems.py를 선언하여 pagination의 마지막 숫자 즉 마지막 페이지 번호를 가져오자. get_problems.py import requests from bs4 import BeautifulSoup url = "https://programmers.co.kr/learn/challenges?tab=all_challenges" def get_max_page(): req = requests.get(url) # url에 요청하기 soup = BeautifulSoup(req.text,"html.parser") # 요청한 url의 html 긁어오기 pages = soup.find_all("li",{"class":"..
[파이썬으로 웹 스크래퍼 만들기] 6. (복습) 프로그래머스 코딩테스트 연습 문제 긁어오기프로그래머스 html 구조가 생각보다 복잡하다.. ㅠㅜ 우선 문제들을 긁어오기위한 get_problems.py를 선언하여 pagination의 마지막 숫자 즉 마지막 페이지 번호를 가져오자. get_problems.py import requests from bs4 import BeautifulSoup url = "https://programmers.co.kr/learn/challenges?tab=all_challenges" def get_max_page(): req = requests.get(url) # url에 요청하기 soup = BeautifulSoup(req.text,"html.parser") # 요청한 url의 html 긁어오기 pages = soup.find_all("li",{"class":"..
2020.06.03 -
이제 긁어오는 방법을 알았으니 이것을 토대로 복습을 해볼것이다. 프로그래머스 코딩테스트 문제 중 내가 푼문제와 안 푼 문제를 보고싶을때가 있는데 프로그래머스는 확인할 수 가 없다. 그래서 내가 직접 긁어와서 필터링을 해보겠다. Beautiful Soup 4 vscode에 설치하기 sudo apt-get update # 사용가능한 패키지들과 그 버전들의 리스트를 업데이트 하는 명령 sudo apt-get install python3-pip # python라이브러리 패키지 관리 시스템 pip3 install beautifulsoup4 # beautifulsoup4 설치 페이지 넘버를 우클릭하여 검사를 눌러보면 위와같이 pagination을 가진 태그를 찾을 수 있다. 그런데 문제가 생겼다. 분명 pagina..
[파이썬으로 웹 스크래퍼 만들기] 5. 중간점검 및 복습이제 긁어오는 방법을 알았으니 이것을 토대로 복습을 해볼것이다. 프로그래머스 코딩테스트 문제 중 내가 푼문제와 안 푼 문제를 보고싶을때가 있는데 프로그래머스는 확인할 수 가 없다. 그래서 내가 직접 긁어와서 필터링을 해보겠다. Beautiful Soup 4 vscode에 설치하기 sudo apt-get update # 사용가능한 패키지들과 그 버전들의 리스트를 업데이트 하는 명령 sudo apt-get install python3-pip # python라이브러리 패키지 관리 시스템 pip3 install beautifulsoup4 # beautifulsoup4 설치 페이지 넘버를 우클릭하여 검사를 눌러보면 위와같이 pagination을 가진 태그를 찾을 수 있다. 그런데 문제가 생겼다. 분명 pagina..
2020.05.21 -
이전까지 indeed의 정보들을 가지고왔다면 이번에는 stackoverflow의 정보들을 가져오고 main.py를 수정해서 csv파일을 만들 준비를 하자. main.py from indeed import get_jobs as get_indeed_jobs from so import get_jobs as get_so_jobs from save import save_to_file indeed_jobs = get_indeed_jobs() so_jobs = get_so_jobs() indeed.py import requests from bs4 import BeautifulSoup LIMIT = 50 URL = f"https://kr.indeed.com/jobs?q=python&limit={LIMIT}" def g..
[파이썬으로 웹 스크래퍼 만들기] 4. csv파일 만들기이전까지 indeed의 정보들을 가지고왔다면 이번에는 stackoverflow의 정보들을 가져오고 main.py를 수정해서 csv파일을 만들 준비를 하자. main.py from indeed import get_jobs as get_indeed_jobs from so import get_jobs as get_so_jobs from save import save_to_file indeed_jobs = get_indeed_jobs() so_jobs = get_so_jobs() indeed.py import requests from bs4 import BeautifulSoup LIMIT = 50 URL = f"https://kr.indeed.com/jobs?q=python&limit={LIMIT}" def g..
2020.05.19 -
지난 포스팅에 이어서 받아온 정보들을 이용해서 각 페이지를 request 해보자. 1페이지 말고 다른 페이지를 눌러보면 주소창에 &start= 해서 숫자가 입력된걸 볼 수 있다. 1페이지당 50개의 결과를 보여주고 그 페이지는 50 * page number -1 부터 시작한다. 예를들면 1페이지는 0이니까 없어도 되고, 2페이지는 start = 50, 3페이지는 start = 100 이런식이다. indeed에서 추출하는 역할을 하는 파일을 따로 생성하고 main.py 에서는 그 결과를 이용할 수 있게 바꿔보자. indeed.py라는 새로운 파일을 생성하고 아래와 같이 함수형태로 바꿔준다. indeed.py import requests from bs4 import BeautifulSoup INDEED_UR..
[파이썬으로 웹 스크래퍼 만들기] 3. request 하고 extract하기지난 포스팅에 이어서 받아온 정보들을 이용해서 각 페이지를 request 해보자. 1페이지 말고 다른 페이지를 눌러보면 주소창에 &start= 해서 숫자가 입력된걸 볼 수 있다. 1페이지당 50개의 결과를 보여주고 그 페이지는 50 * page number -1 부터 시작한다. 예를들면 1페이지는 0이니까 없어도 되고, 2페이지는 start = 50, 3페이지는 start = 100 이런식이다. indeed에서 추출하는 역할을 하는 파일을 따로 생성하고 main.py 에서는 그 결과를 이용할 수 있게 바꿔보자. indeed.py라는 새로운 파일을 생성하고 아래와 같이 함수형태로 바꿔준다. indeed.py import requests from bs4 import BeautifulSoup INDEED_UR..
2020.05.16 -
우선 indeed의 파이썬 채용 공고를 스크래핑 할 것이다. https://github.com/psf/requests psf/requests A simple, yet elegant HTTP library. Contribute to psf/requests development by creating an account on GitHub. github.com 우선은 repl it 으로 진행할거라서 다른 방식으로 import 해야한다. 좌측의 박스모양인 packages를 누르고 requests *를 검색하고 *+ 버튼을 누르자. 주소창을 잘 보면 아래와 같이 되어있는데, api 호출하면서 많이 봤던것들이다. *_python의 검색 결과 중 50개씩 보여주기 *_라는 뜻으로 보인다. (맞춤검색에서 N개씩 보기를 ..
[파이썬으로 웹 스크래퍼 만들기] 2. html 가져오기우선 indeed의 파이썬 채용 공고를 스크래핑 할 것이다. https://github.com/psf/requests psf/requests A simple, yet elegant HTTP library. Contribute to psf/requests development by creating an account on GitHub. github.com 우선은 repl it 으로 진행할거라서 다른 방식으로 import 해야한다. 좌측의 박스모양인 packages를 누르고 requests *를 검색하고 *+ 버튼을 누르자. 주소창을 잘 보면 아래와 같이 되어있는데, api 호출하면서 많이 봤던것들이다. *_python의 검색 결과 중 50개씩 보여주기 *_라는 뜻으로 보인다. (맞춤검색에서 N개씩 보기를 ..
2020.05.16 -
Repl it은 웹에서 코드를 실행시켜주는 사이트다. 구름 IDE와 비슷한 것 같은데 훨씬 간편한 것 같다. 프로젝트 단위로 저장할 수 있으며, 저장하려면 회원가입을 해야한다. 나는 구글 계정으로 sign up! 로그인하게 되면 몇 가지 설문조사? 같은걸 한다. C++, Python, [HTML, CSS, JS] 클릭 뭐 여러가지를 보여주는데 귀찮으니 패스~ 우측 상단의 +new Repl을 클릭하여 Python을 실행해보자. 새로운 Repl 생성 잘 작동하는 것을 볼 수 있다. 음... 자주 쓸진 모르겠지만 깃헙이랑 연동도 되고 나중에 테블릿을 산다면 ? 쓰지않을까 싶다.
[파이썬으로 웹 스크래퍼 만들기] 1. Repl itRepl it은 웹에서 코드를 실행시켜주는 사이트다. 구름 IDE와 비슷한 것 같은데 훨씬 간편한 것 같다. 프로젝트 단위로 저장할 수 있으며, 저장하려면 회원가입을 해야한다. 나는 구글 계정으로 sign up! 로그인하게 되면 몇 가지 설문조사? 같은걸 한다. C++, Python, [HTML, CSS, JS] 클릭 뭐 여러가지를 보여주는데 귀찮으니 패스~ 우측 상단의 +new Repl을 클릭하여 Python을 실행해보자. 새로운 Repl 생성 잘 작동하는 것을 볼 수 있다. 음... 자주 쓸진 모르겠지만 깃헙이랑 연동도 되고 나중에 테블릿을 산다면 ? 쓰지않을까 싶다.
2020.05.13