SparkSQL은 SQL을 통해 또는 Hive 쿼리 언어를 통해 데이터 쿼리를 지원하는 Spark 구성 요소입니다. 이 포트는 맵Reduce 대신 스파크 위에서 실행되는 아파치 하이브 포트로 시작되었으며 이제 스파크 스택과 통합됩니다. 다양한 데이터 원본에 대한 지원을 제공할 뿐만 아니라 매우 강력한 도구를 만드는 코드 변환을 사용하여 SQL 쿼리를 가져올 수 있습니다. 다음은 Hive 호환 쿼리의 예입니다: Spark의 변환은 “지연”이므로 즉시 결과를 계산하지 않습니다. 대신 수행할 작업과 작업을 수행할 데이터 집합(예: 파일)만 “기억”합니다. 변환은 작업이 호출되고 결과가 드라이버 프로그램에 반환될 때만 실제로 계산됩니다. 이 설계를 통해 스파크를 보다 효율적으로 실행할 수 있습니다. 예를 들어 큰 파일이 여러 가지 방법으로 변환되어 첫 번째 작업으로 전달된 경우 Spark는 전체 파일에 대한 작업을 수행하는 대신 첫 번째 줄에 대한 결과만 처리하고 반환합니다. 금융 또는 보안 업계에서 Spark 스택은 사기 또는 침입 탐지 시스템 또는 위험 기반 인증에 적용될 수 있습니다.

방대한 양의 보관된 로그를 수집하여 데이터 유출 및 손상된 계정(예: https://haveibeenpwned.com/) 및 정보와 같은 외부 데이터 원본과 결합하여 최고 수준의 결과를 얻을 수 있습니다. IP 위치 정보 또는 시간과 같은 연결/요청. sc로 사용할 수 있는 스파크 컨텍스트를 의미하므로 셸의 스파크 컨텍스트에 `sc`라는 변수로 액세스할 수 있습니다. 다음 예제에서는 Spark 배포판에 있는 README.md 파일의 단어를 계산하고 README.count 디렉터리 아래에 결과를 저장합니다. 이 예제에서는 각 단어의 발생 횟수를 찾아 표시합니다. 예제 응용 프로그램은 표준 MapReduce 예제인 WordCount의 향상된 버전입니다. WordCount의이 버전에서 목표는 코퍼스에서 가장 인기있는 단어의 문자 분포를 배우는 것입니다. 응용 프로그램 : 이 예제에서는 데이터베이스에 저장된 테이블을 읽고 모든 연령대의 인원수를 계산합니다. 마지막으로 계산된 결과를 JSON 형식으로 S3에 저장합니다. 간단한 MySQL 테이블 “사람”이 예제에서 사용되며 이 테이블에는 “이름” 및 “나이”라는 두 개의 열이 있습니다. 이 예제에서는 레이블 및 특징 벡터의 데이터 집합을 수행합니다. 로지스틱 회귀 알고리즘을 사용하여 피처 벡터에서 레이블을 예측하는 방법을 배웁니다.

아파치 스파크의 어떤 버전을 사용 하느냐에 따라 다릅니다. 이 문서 (2.11)와 같은 동일한 버전을 사용하는 경우 이터레이터가 필요하지 않습니다. 2.12를 사용하려면 이터레이터를 추가해야 합니다. Spark 단어 수 예제에서는 특정 파일에 각 단어의 빈도가 있는지 확인합니다. 여기서는 스칼라 언어를 사용하여 Spark 작업을 수행합니다. 이러한 예제는 Spark API에 대한 간략한 개요를 제공합니다.

Categories: Sin categoría