본문 바로가기

Data engineering

(5)
MapReduce 1. MapReude의 개념 Hadoop은 HDFS와 MapReduce로 구성되며, MapReduce는 HDFS에 저장된 파일을 분산 배치 분석을 할 수 있게 도와주는 프레임워크이다. MapReduce 프로그래밍 모델은 Map과 Reduce라는 두 가지 단계로 데이터를 처리한다. Map은 입력 파일을 한 줄씩 읽어서 데이터를 변형(transformation)하며, Reduce는 Map의 결과 데이터를 집계(aggregation)한다. 다음은 MapReduce 문서의 단어를 카운트하는 예제이다. 위 예제의 입력 데이터는 다음과 같다. Welcome to Hadoop Class Hadoop is good Hadoop is bad 최종 결과는 다음과 같다. bad1 Class1 good1 Hadoop3 is2..
HDFS(Hadoop Distributed File System) 1. HDFS 기초 HDFS는 수십 테라바이트 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고, 많은 클라이언트가 저장된 데이터를 빠르게 처리하 ㄹ수 있게 설계된 파일 시스템이다. 기존 대용량 파일 시스템과 가장 큰 차이점은 저사양 서버를 이요해 스토리지를 구성할 수 있다는 것이다. 그러나 완전 대체 가능한 것은 아니다. 다음은 HDFS의 설계에 있어 4가지 목표이다. 장애복구: 분산 서버에는 다양한 장애가 발생할 수 있는데, 이때 데이터가 유실되는 심각한 상황이 발생할 수 있다. HDFS는 이러한 장애를 빠르게 감지하고, 대처할 수 있게 설계되어있다. HDFS에 데이터를 저장하면, 복제 데이터도 함께 저장되어 데이터 유실을 방지한다. 또한, 분산 서버 간에는 주기적으로 상태를 체크해 빠른 ..
Apache Hadoop1 설치 1. 실행 모드 결정 Hadoop 설치하기 전에 우선 이를 어떤 방식으로 실행할지를 결정해야한다. 실행 모드는 Standalone, Pseudo-distributed, Fully distributed가 있다. Standalone(독립실행모드): Hadoop의 기본 실행 모드이다. 환경설정 파일에 아무런 설정을 하지 않고 실행하면 로컬 장비에서만 실행되기 때문에 로컬 모드라고도 한다. Hadoop에서 제공하는 데몬을 구동하지 않기 때문에 분산환경을 고려한 테스트는 불가능하다(본 블로그에서는 이를 다루지 않을 예정). Pseudo-distributed(가상분산모드): 하나의 장비에 모든 환경설정을 하고, Hadoop 서비스도 이 장비에서만 제공하는 방식을 말한다. HDFS와 MapReduce와 관련된 데몬을..
Apache Hadoop 개요 본 블로그의 모든 Hadoop 관련 포스팅은 정재화님의 "시작하세요! 하둡 프로그래밍: 빅데이터 분석을 위한 하둡 기초부터 YARN까지" 저서를 참고하여 작성되었다. 아래는 책 구매 사이트다. https://product.kyobobook.co.kr/detail/S000001766268 1. 빅데이터 1.1 빅데이터란? 맥킨지와 IDC에서는 다음과 같이 빅데이터를 정의한다. 데이터의 규모에 초점을 맞춘 정의 기존 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘어서는 데이터 업무 수행 방식에 초점을 맞춘 정의 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 빠른 수집, 발국, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처 위 두 가지 정의만으로는 빅데..
Cluster information Enviroment Host OS: Window 10 Guest OS: Ubuntu 18.0.4LTS Server VirtualBox 7.0 Cluster architecture Master: Hadoop의 NameNode 및 이와 유사한 역할을 하는 component 할당/구동 SN01/SN02/SN03: Hadoop의 Datanode와 유사한 역할을 하는 component 할당/구동 Virtual server specs Processor: 2 Memory: 4096MB Disk: 25GB Virtual server network infomation Adapter NAT 호스트 전용 어탭터 IP information Master: 192.168.0.100 SN01: 192.168.0.101 SN02: ..