본문 바로가기

전체 글

(6)

MapReduce 1. MapReude의 개념 Hadoop은 HDFS와 MapReduce로 구성되며, MapReduce는 HDFS에 저장된 파일을 분산 배치 분석을 할 수 있게 도와주는 프레임워크이다. MapReduce 프로그래밍 모델은 Map과 Reduce라는 두 가지 단계로 데이터를 처리한다. Map은 입력 파일을 한 줄씩 읽어서 데이터를 변형(transformation)하며, Reduce는 Map의 결과 데이터를 집계(aggregation)한다. 다음은 MapReduce 문서의 단어를 카운트하는 예제이다. 위 예제의 입력 데이터는 다음과 같다. Welcome to Hadoop Class Hadoop is good Hadoop is bad 최종 결과는 다음과 같다. bad1 Class1 good1 Hadoop3 is2..

HDFS(Hadoop Distributed File System) 1. HDFS 기초 HDFS는 수십 테라바이트 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고, 많은 클라이언트가 저장된 데이터를 빠르게 처리하 ㄹ수 있게 설계된 파일 시스템이다. 기존 대용량 파일 시스템과 가장 큰 차이점은 저사양 서버를 이요해 스토리지를 구성할 수 있다는 것이다. 그러나 완전 대체 가능한 것은 아니다. 다음은 HDFS의 설계에 있어 4가지 목표이다. 장애복구: 분산 서버에는 다양한 장애가 발생할 수 있는데, 이때 데이터가 유실되는 심각한 상황이 발생할 수 있다. HDFS는 이러한 장애를 빠르게 감지하고, 대처할 수 있게 설계되어있다. HDFS에 데이터를 저장하면, 복제 데이터도 함께 저장되어 데이터 유실을 방지한다. 또한, 분산 서버 간에는 주기적으로 상태를 체크해 빠른 ..

Apache Hadoop1 설치 1. 실행 모드 결정 Hadoop 설치하기 전에 우선 이를 어떤 방식으로 실행할지를 결정해야한다. 실행 모드는 Standalone, Pseudo-distributed, Fully distributed가 있다. Standalone(독립실행모드): Hadoop의 기본 실행 모드이다. 환경설정 파일에 아무런 설정을 하지 않고 실행하면 로컬 장비에서만 실행되기 때문에 로컬 모드라고도 한다. Hadoop에서 제공하는 데몬을 구동하지 않기 때문에 분산환경을 고려한 테스트는 불가능하다(본 블로그에서는 이를 다루지 않을 예정). Pseudo-distributed(가상분산모드): 하나의 장비에 모든 환경설정을 하고, Hadoop 서비스도 이 장비에서만 제공하는 방식을 말한다. HDFS와 MapReduce와 관련된 데몬을..

이전 1 2 다음

티스토리툴바