본 블로그의 모든 Hadoop 관련 포스팅은 정재화님의 "시작하세요! 하둡 프로그래밍: 빅데이터 분석을 위한 하둡 기초부터 YARN까지" 저서를 참고하여 작성되었다. 아래는 책 구매 사이트다.
https://product.kyobobook.co.kr/detail/S000001766268
1. 빅데이터
1.1 빅데이터란?
맥킨지와 IDC에서는 다음과 같이 빅데이터를 정의한다.
- 데이터의 규모에 초점을 맞춘 정의
기존 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘어서는 데이터
- 업무 수행 방식에 초점을 맞춘 정의
다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 빠른 수집, 발국, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
위 두 가지 정의만으로는 빅데이터를 이해하기에는 다소 부족한 감이 있다. 따라서 빅데이터를 이해하기 위해 도움되는 빅데이터의 3대 요소(3V)를 추가로 설명하겠다.
3V란?
크기(Volume), 속도(Velocity), 다양성(Variety)을 의미하며, 각 요소의 특징은 다음과 같다.
- 크기(Volume)
일반적으로 수십 테라바이트(terabyte), 페타바이트(petabyte) 이상이 빅데이터에 해당된다. 이러한 빅데이터는 기존 파일 시스템에 저장하기 어려울뿐더러 데이터 분석을 위해 사용하는 기존 데이터 웨어하우스 같은 솔루션에서 소화하기 어려울 정도로 급격하게 데이터의 양이 증가하고 있다. 이러한 문제를 극복하려면 확장 가능한 방식으로 데이터를 저장하고 분석하는 분산 컴퓨팅 기법으로 접근해야한다. 대표적인 분산 컴퓨팅 솔류선에는 구글의 GFS(Google File System)을 이용한 Apache Hadoop이 있다.
- 속도(Velocity)
오늘날 데이터는 매우 빠른 속도로 생성되기 때문에 데이터의 생산, 저장, 유통, 수집, 분석이 실시간으로 처리돼야 한다. 물론 모든 데이터가 실시간 성을 요구하는 것은 아니지만, 얼마나 빠르게 이를 처리할 수 있느냐가 관건이다.
- 다양성(Variety)
빅데이터의 종류에는 정형, 반정형, 비정형 데이터가 있다. 정형 데이터는 정형화된 데이터로, 고정된 필드에 저장되는 데이터를 의미한다.비정형 데이터는 고정된 필드에 저장돼 있지 않은 데이터로 정형 데이터와 반대의 개념이다. 반정형 데이터는 고정된 필드로 저장돼 있지는 않지만 XML이나 HTML 같이 메타데이터나 스키마 등을 포함하는 데이터를 의미한다.
1.2 Aapche Hadoop이란?
Apache Hadoop은 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈소스 프레임워크이며, 2005년 더그 커딩이 GFS와 MapReduce를 구현한 결과물이고 2008년에 Aapche 최상위 프로젝트로 승격되었다. Hadoop은 분산 파일 시스템 HDFS(Hadoop Distributed File System)에 데이터를 저장하고, 분산 처리 시스템인 MapReduce를 이용해 데이터를 처리한다.


Hadoop이 주목받게 된 것은 기존에는 정형 데이터만 대부분 생성되어 기존의 RDBMS에 저장할 수 있었지만, 현 시대에는 웹 로그 같은 비정형 데이터가 쏟아져 나오기 때문에 RDBMS에 이를 저장하기에는 데이터의 크기가 매우 크기 때문이다. 만약 이를 RDBMS에 저장한다면 막대한 라이센스와 장비에 대한 비용이 생성될 것이다. 이에 반해 Hadoop은 오픈소스 프로젝트이기에 소프트웨어 라이센스 비용에 대한 부담이 없고 속도 또한 기존 시스템에 비해 빠르다(요즘에는 옛날 이야기이며 Apache Spark, Apahce Flink등등 훠어얼씬 빠른 분산 병렬 처리 시스템이 무수히 존재).
1.3 Hadoop Ecosystem
Hadoop은 비즈니스에 효율적으로 적용할 수 있게 다양한 서브 프로젝트를 제공한다. 즉 Hadoop 기반 여러 오픈소스 시스템들을 아울러 Hadoop Ecosystem이라 한다. 다음은 Hadoop Ecosystem에 관한 것이다. 그림에 나와있지 않지만 Apche Spark, Apache HBase 등도 이에 해당한다.

'Data engineering > Apache Hadoop' 카테고리의 다른 글
| MapReduce (0) | 2023.03.31 |
|---|---|
| HDFS(Hadoop Distributed File System) (0) | 2023.03.24 |
| Apache Hadoop1 설치 (0) | 2023.03.24 |