하둡 예제 실행

By agosto 2, 2019Sem categoria

일반 옵션의 유틸리티를 보여 줍니다일반 Hadoop 명령줄 옵션을 처리 하는 파서. 약어 YARN은 YARN이 실제로 수행하는 일에 대한 좋은 설명인 “또 다른 리소스 협상가”의 약자입니다. 기본적으로 YARN은 기존 및 새로운 Hadoop 클러스터에서 작동하도록 설계된 리소스 스케줄러입니다. MapReduce 데이터 흐름에서 리소스 스케줄링의 사소한 분할은 Hadoop 및 빅 데이터 처리에 대한 완전히 새로운 가능성을 열어줍니다. 별도의 스케줄러를 사용하면 클러스터의 사용률과 확장성을 높이는 동시에 다른 비MapReduce 응용 프로그램이 Hadoop 분산 파일 시스템 및 런타임 환경을 활용할 수 있는 플랫폼을 제공합니다. 새로운 Hadoop YARN 기능에 대한 자세한 설명은 3장 “아파치 하두롭 YARN 핵심 개념”에서 확인할 수 있습니다. Map 클래스는 이 에 공급되는 텍스트 줄을 취합니다(텍스트 파일은 자동으로 Hadoop에 의해 줄로 세분화됩니다.). 각 튜플은 각 단어의 첫 번째 발생에 해당하므로 각 단어의 초기 빈도는 1이므로 양식(“일부 단어”, 1)의 각 단어에 대한 데이터그램을 출력합니다. 예를 들어 “코끼리는 동물입니다”라는 문장을 고려하면 됩니다. WordCount 예제의 매퍼 단계는 문자열을 개별 토큰 즉, 단어로 분할합니다. 이 경우 전체 문장은 아래와 같이 값 1이 있는 5개의 토큰(각 단어마다 하나씩)으로 나뉩니다 – 일반적으로 계산 노드와 스토리지 노드는 동일합니다.

uide)는 동일한 노드 집합에서 실행되고 있습니다. 이 구성을 통해 프레임워크는 데이터가 이미 있는 노드에서 작업을 효과적으로 예약할 수 있으므로 클러스터 전체에서 매우 높은 집계 대역폭을 사용할 수 있습니다. Hadoop 스트리밍은 사용자가 모든 실행 및 (예 : 쉘 유틸리티)을 매퍼 및 / 또는 감속기로 사용하여 작업을 만들고 실행할 수있는 유틸리티입니다. 이 섹션에서는 디렉터리에서 단어 수 프로그램의 복사본을 얻고, 수정하고, 컴파일하고, 항아리에 저장하고, Hadoop 클러스터에서 실행합니다. 프로덕션 클러스터 설정에 필요한 것과 같은 다른 설치 옵션에 대한 보다 자세한 설명은 5장 “아파치 하두롭 YARN 설치”에 명시되어 있습니다. 우리는 빠른 시작으로 시작하기 전에, 우리는 설치에 도움이 될 것입니다 몇 가지 배경 세부 사항을 언급 할 것이다. 이러한 항목에는 Linux, 패키지 설치 및 기본 시스템 관리 명령에 대한 기본적인 지식이 포함됩니다. 이 기능은 맵 작업이 특정 입력에서 결정적으로 충돌할 때 사용할 수 있습니다.

이는 일반적으로 맵 함수의 버그로 인해 발생합니다. 일반적으로 사용자는 이러한 버그를 수정해야 합니다. 그러나 이것은 때때로 불가능합니다. 버그가 소스 코드를 사용할 수 없는 타사 라이브러리에 있을 수 있습니다. 이러한 경우 작업이 여러 번 시도한 후에도 성공적으로 완료되지 않으며 작업이 실패합니다. 이 기능을 사용하면 불량 레코드를 둘러싼 데이터의 극히 일부만 손실되며, 일부 응용 프로그램(예: 매우 큰 데이터에 대한 통계 분석을 수행하는 응용 프로그램)에서는 허용될 수 있습니다. 기본 아파치 하두롭 버전 2 시스템에는 두 가지 핵심 구성 요소가 있습니다: MapReduce 프레임워크는 디버깅을 위해 사용자가 제공한 스크립트를 실행하는 기능을 제공합니다. MapReduce 작업이 실패하면 사용자는 디버그 스크립트를 실행하여 작업 로그를 처리할 수 있습니다.

스크립트는 작업의 stdout 및 stderr 출력, syslog 및 jobconf에 대한 액세스 권한이 부여됩니다.