코락 CoRock
코딩하는 락스타
코락 CoRock
  • 분류 전체보기 (393)
    • frameworks (19)
      • spring (19)
      • spring-boot (0)
      • testing (0)
    • languages (94)
      • java (39)
      • kotlin (0)
      • python (42)
      • r (13)
    • libraries (0)
    • programming (239)
      • android (13)
      • c (17)
      • cpp (22)
      • database (18)
      • design-pattern (4)
      • data-structures (11)
      • git (8)
      • hadoop (6)
      • html-css (7)
      • issue (4)
      • javascript (26)
      • jsp (34)
      • os (29)
      • php (6)
      • preferences (19)
      • etc (15)
    • discography (37)
      • k-pop (18)
      • pop (19)
    • blog (3)

블로그 메뉴

  • Programming
  • Java
  • JavaScript
  • Discography
  • K-Pop Songs
  • Pop Songs
  • Blog
  • Guestbook

공지사항

인기 글

태그

  • r
  • javascript
  • Android
  • Java
  • 자바스크립트
  • 파이썬
  • jsp
  • oracle
  • CentOS
  • linux
  • Spring
  • python

최근 댓글

최근 글

티스토리

반응형
hELLO · Designed By 정상우.
코락 CoRock

코딩하는 락스타

[JSP] HTTrack Website Copier Manual
programming/jsp

[JSP] HTTrack Website Copier Manual

2018. 5. 8. 10:41
반응형




What is Web Scraping?

 :Website에서 원하는 정보를 자동으로 수집하는 것


* 웹 크롤링이란?


 인터넷을 이용하다가 '아, 이 홈페이지 참 잘 만들었다. 어떻게 구성을 했는지 알아보고 싶다!' 하는 생각이 든다면, 웹 크롤링을 이용해서 소기의 목적을 달성할 수 있다. 웹 크롤링이란 내 컴퓨터가 인터넷이 되지 않아도 웹 사이트를 다운로드 받아서 구조를 살펴볼 수 있다. 필자는 Website를 통채로 자신의 컴퓨터에 다운로드할 수 있는 툴을 이용할 것이다.


 우리가 코드를 짜거나 분석할 때 IDE(통합 개발 환경)을 사용하는 것처럼, 웹 크롤링을 할 때에도 쉽게 환경을 제공해 주는 툴들이 존재한다. 우리는 그 중에서 HTTrack라는 툴을 이용하려고 한다. 추가로 HTTrack Website Copier 홈페이지 명세를 보면, 뒷부분에 free software offline browser(GNU GPL)라고 적혀있다. HTTrack은 한국어 지원을 하지 않기 때문에 간단하게 사용법까지 알아보도록 하자.




 ▷ HTTrack Website Copier - Free Software Offline Browser (GNU GPL)






홈페이지에 들어가면 상단 카테고리에 있는 Download를 클릭한다.

그러면 위와 같은 창이 뜨는데, 본인은 64bit를 이용하고 있으므로

We rcommend: 라고 적혀있는 항목을 클릭한다.





Next 버튼을 클릭한다.





I accept the agreement

나는 약관에 동의합니다! 하고

Next 버튼을 클릭한다.





경로 설정하는 란인데,

특별한 경우가 아니라면 기본값 그대로 둔 채

Next 버튼을 클릭한다.





시작 메뉴 설정 화면이다.

이것 역시 특별한 경우가 아니라면

그냥 Next 버튼을 클릭한다.






필자는 Default 값으로 되어 있던

Create a desktop icon 체크박스를 해제한 채로

Next 버튼을 클릭하였다.





이제 Install 버튼만 살포시 눌러준다.





설치중 뜨뜨뜨든~!





history.txt 파일은 필요하지 않으므로 체크 해제한 후

바로 테스트하기 위해

Launch WinHTTrack Website Copier 체크 후 Finish 클릭한다.





우리는 세계 공용어 English로 OK를 누를 것이다.





New project name: 내가 가져올 프로젝트명

 Base path: 가져올 자료의 경로


설정 후 다음을 눌러준다.





Scan Rules 에서 체크 다 해준다.







Add URL을 눌러서 내가 크롤링 하고 싶은 URL 주소를 입력 후

OK 누른다




기본 설정 그대로 마침 버튼을 누른다.






그럼 크롤링이 진행중인걸 알 수 있다.






반응형
저작자표시 비영리 변경금지 (새창열림)
    'programming/jsp' 카테고리의 다른 글
    • [JSP] JSP의 내장 객체
    • [JSP] JSP의 개요, JSP 페이지의 구성 요소
    • [JSP] 데이터베이스와 웹의 콜라보레이션! 2
    • [JSP] 데이터베이스와 웹의 콜라보레이션!
    코락 CoRock
    코락 CoRock
    A COder dreaming of being a ROCKstar

    티스토리툴바