programming/hadoop
[Hadoop] 데이터 분석 실습(Hive)
6. 데이터 분석 실습(Hive) 6.1 Hadoop 기반의 기술들 6.1.1 MapReduce 6.1.2 Hadoop streaming 펄, 파이썬 등의 다른 언어로 개발 6.1.3 Hive HiveQL로 개발 (페이스북) 6.1.4 Pig pig script로 개발 (트위터) 6.2 Hive 6.2.1 하둡 기반에서 실행되는 라이브러리 6.2.2 자바 코드 대신 SQL 구문을 사용(HiveQL) Hive 2에서 MapReduce 방식의 실행은 아직 가능하나 향후 버전에서는 더이상 지원되지 않을 수 있으므로 Tez, Spark 등의 다른 분산처리 라이브러리를 사용하거나 Hive 1 버전 사용을 권고하고 있음. 6.3 Hive 설치 6.3.1 다운로드 hive-2.3.2-bin.tar.gz 압축파일을 /..
[Hadoop] 데이터분석 실습(항공운항데이터)
5. 데이터분석 실습(항공운항데이터) 5.1 분석용 데이터 다운로드 http://stat-computing.org/dataexpo/2009 1987~2008 21년간 미국 항공 운항 데이터를 활용하여 항공기 출발 지연, 도착 지연, 결항 등의 통계를 분석 전체자료는 11GB이며 전체 자료를 모두 분석하려면 많은 시간이 소요되므로 2006~2008 3년간의 자료만 다운로드하여 실습 다운로드받은 파일의 압축을 해제한 후 /home/centos/data/airline 디렉토리에 복사(2006.csv, 2007.csv, 2008.csv 3개의 파일) 5.2 mysql 설치(윈도우즈에서 작업) HDFS에서 분석하는 방법과 비교하기 위하여 다운로드받은 csv 파일을 mysql 데이터베이스 테이블로 import my..
[Hadoop] 맵리듀스
4. 맵리듀스 4.1 MapReduce의 실행 과정 맵 : (k1, v1) → list(k2, v2) 리듀스 : (k2, list(v2)) → list(k3, v3) 4.1.1 입력데이터 read a book write a book 4.1.2 맵으로 변환(key: line number, value: 문장) 1, read a book 2, write a book 4.1.3 정렬과 병합(key: 단어, value: 단어수) 4.1.4 Reduce(key: 단어, value: 단어수의 리스트) 4.1.5 실행 결과(key: 단어, value: 리스트의 합계) 4.2 맵리듀스 프로그래밍 요소 4.2.1 데이터 타입 맵리듀스 프로그램에서 키와 값으로 사용되는 모든 데이터 타입은 반드시 WritableCompara..
[Hadoop] 하둡 분산 파일 시스템(HDFS)
3. 하둡 분산 파일 시스템(HDFS) 3.1 하둡 분산 파일 시스템(Hadoop Distributed File System) 3.1.1 대용량의 파일을 분산된 서버에 저장하고 저장된 데이터를 빠르게 처리할 수 있게 하는 파일 시스템 3.1.2 저사양의 서버를 이용해서 구성할 수 있음 3.1.3 블록 구조의 파일 시스템 블록의 크기는 기존에는 64MB였으나 하둡 2.0부터 128MB로 증가됨 3.2 하둡 분산 파일 시스템의 시작과 종료 3.2.1 하둡 분산 파일 시스템을 시작하는 명령어 start-dfs.sh - HDFS를 구동함 start-yarn.sh - 맵리듀스를 구동함start-dfs.shstart-yarn.sh 3.2.2 하둡 분산 파일 시스템을 중지시키는 명령어stop-dfs.shstop-ya..
[Hadoop] 하둡 설치
2. 하둡 설치 2.1 VMPlayer 설치 VMPlayer에는 Hadoop Multi Cluster 구축 실습에 필요한 네트워크 설정 기능이 없으므로 VMware workstation Pro의 30일 평가판을 다운로드받아 실습 VMware workstation Pro(정식버전)을 설치하면 기존에 설치한 VMPlayer는 삭제됨(VMPlayer가 포함되어 있음) 멀티 클러스터를 구축해야 하므로 에러가 나거나 가상머신을 복제하여 작업해야 할 경우가 생기므로 Centos를 설치한 후 백업본을 만들어둘 것 2.2 하둡 개발 환경 설정 2.2.1 VMWare player를 이용하여 가상머신에 Centos 7 설치 2.2.2 Multi Cluster를 구성하기 위해 가상머신 복제 CPU i5, RAM 16GB 기..
[Hadoop] 빅데이터와 하둡
1. 빅데이터와 하둡 1.1 Big Data의 정의 1.1.1 서버 한 대로 처리할 수 없는 규모의 데이터(2012, John Rauser, 아마존 수석 엔지니어) 1.1.2 기존의 소프트웨어(DBMS 등)로 처리할 수 없는 규모의 데이터 1.1.3 3V 가) Volume - 데이터의 크기(Tera Byte, Peta Byte 단위) 1 Tera Byte = 1024 GB 1 Pera Byte : 약 100만 GB(6GB DVD 영화를 17만 4000편을 저장할 수 있는 분량) 나) Velocity - 데이터의 생성 속도 다) Variety - 데이터의 다양성 구조화, 비구조화된 데이터를 모두 포함 1.2 Big Data의 예 1.2.1 웹 검색엔진 데이터 1.2.2 웹 페이지 데이터 구글의 경우 수 조..