What is Web Scraping?
:Website에서 원하는 정보를 자동으로 수집하는 것
* 웹 크롤링이란?
인터넷을 이용하다가 '아, 이 홈페이지 참 잘 만들었다. 어떻게 구성을 했는지 알아보고 싶다!' 하는 생각이 든다면, 웹 크롤링을 이용해서 소기의 목적을 달성할 수 있다. 웹 크롤링이란 내 컴퓨터가 인터넷이 되지 않아도 웹 사이트를 다운로드 받아서 구조를 살펴볼 수 있다. 필자는 Website를 통채로 자신의 컴퓨터에 다운로드할 수 있는 툴을 이용할 것이다.
우리가 코드를 짜거나 분석할 때 IDE(통합 개발 환경)을 사용하는 것처럼, 웹 크롤링을 할 때에도 쉽게 환경을 제공해 주는 툴들이 존재한다. 우리는 그 중에서 HTTrack라는 툴을 이용하려고 한다. 추가로 HTTrack Website Copier 홈페이지 명세를 보면, 뒷부분에 free software offline browser(GNU GPL)라고 적혀있다. HTTrack은 한국어 지원을 하지 않기 때문에 간단하게 사용법까지 알아보도록 하자.
홈페이지에 들어가면 상단 카테고리에 있는 Download를 클릭한다.
그러면 위와 같은 창이 뜨는데, 본인은 64bit를 이용하고 있으므로
We rcommend: 라고 적혀있는 항목을 클릭한다.
Next 버튼을 클릭한다.
I accept the agreement
나는 약관에 동의합니다! 하고
Next 버튼을 클릭한다.
경로 설정하는 란인데,
특별한 경우가 아니라면 기본값 그대로 둔 채
Next 버튼을 클릭한다.
시작 메뉴 설정 화면이다.
이것 역시 특별한 경우가 아니라면
그냥 Next 버튼을 클릭한다.
필자는 Default 값으로 되어 있던
Create a desktop icon 체크박스를 해제한 채로
Next 버튼을 클릭하였다.
이제 Install 버튼만 살포시 눌러준다.
설치중 뜨뜨뜨든~!
history.txt 파일은 필요하지 않으므로 체크 해제한 후
바로 테스트하기 위해
Launch WinHTTrack Website Copier 체크 후 Finish 클릭한다.
우리는 세계 공용어 English로 OK를 누를 것이다.
New project name: 내가 가져올 프로젝트명
Base path: 가져올 자료의 경로
설정 후 다음을 눌러준다.
Scan Rules 에서 체크 다 해준다.
Add URL을 눌러서 내가 크롤링 하고 싶은 URL 주소를 입력 후
OK 누른다
기본 설정 그대로 마침 버튼을 누른다.
그럼 크롤링이 진행중인걸 알 수 있다.