MapReduce
-
하둡 hdfs 정리카테고리 없음 2025. 2. 15. 16:39
하둡의 내부 설계까지는 아니더라도 사용자 입장에서 인지해야 할 핵심 개념에 대해 정리하고,실제로 어떤 효용을 주는지까지 정리해본다. 1. HDFSHadoop Distributed File System (분산 파일 시스템) 전통적인 파일 시스템과 유사한 계층을 가지지만, 실제 데이터가 저장되는 물리 머신(노드)은 여러 대로 분산되어 있음.여러 대로 분산하여 구성할 수 있기 때문에 대량의 데이터를 저장할 수 있음. 동적으로 새로운 노드를 추가할 수도 있음. (단일 서버 스토리지에는 한계가 있는데 빅데이터를 어떻게 저장하지? -> 분산 저장하자) 주요 컴포넌트는 네임노드, 데이터노드가 있음.네임노드는 메타데이터를 관리하는 중앙서버 역할데이터노드는 실제 데이터를 저장하는 노드. 파일을 일정 크기(기본 128MB..