빅데이터 특징, 아키텍처 및 기술 :: 다분정(다양한 분야의 정보)

ABOUT ME

-

Today: -

Yesterday: -

Total: -

빅데이터 특징, 아키텍처 및 기술

카테고리 없음 2023. 5. 2. 21:09

빅데이터 특징

빅데이터의 주요 특징인 볼륨, 속도 및 다양성 증가를 나타냅니다. 빅데이터는 다음과 같은 특징으로 설명할 수 있습니다.

용량

생성 및 저장된 데이터의 양입니다. 데이터의 크기에 따라 가치와 잠재적 통찰력 및 빅데이터로 간주할 수 있는지 여부가 결정됩니다. 빅데이터의 크기는 일반적으로 테라바이트와 페타바이트보다 커집니다.

다양성

데이터의 종류와 성질입니다. RDBMS와 같은 이전 기술은 구조화된 데이터를 효율적이고 효과적으로 처리할 수 있었습니다. 그러나 유형과 성질이 구조화에서 반구조화 또는 비정형화로 변화한 것은 기존 도구와 기술에 도전했습니다. 빅데이터 테크놀로지는 고속(속도)과 대규모(볼륨)로 생성된 반구조화 및 비정형(다양성) 데이터를 캡처, 저장 및 처리하는 것을 주된 목적으로 진화했습니다. 그런 다음 이러한 도구와 기술을 조사하고 구조화 데이터 처리에도 사용했지만 스토리지에 적합합니다. 결국 구조화 데이터 처리는 빅데이터 또는 기존 RDBMS 중 하나를 사용하여 옵션으로 유지되었습니다. 이는 소셜 미디어, 로그 파일, 센서 등을 통해 수집된 데이터에서 드러난 숨은 통찰력을 효과적으로 사용하기 위해 데이터를 분석하는 데 도움이 됩니다. 빅데이터는 텍스트, 이미지, 오디오, 비디오에서 추출되며 데이터 융합으로 누락된 부분을 보완합니다.

속도

성장과 개발의 길에 있는 요구와 과제를 충족시키기 위해 데이터가 생성되고 처리되는 속도입니다. 빅데이터는 종종 실시간으로 이용 가능합니다. 작은 데이터에 비해 빅 데이터는 더 지속적으로 생성됩니다. 빅데이터와 관련된 속도에는 생성 빈도와 처리, 기록, 출판 빈도의 두 종류가 있습니다.

정확성

데이터의 진실성 또는 신뢰성입니다.데이터의 품질과 값을 가리킵니다. 빅데이터 분석에서 가치를 달성하기 위해서는 빅데이터의 크기가 클 뿐만 아니라 신뢰성도 높아야 합니다. 캡처된 데이터의 데이터 품질은 크게 달라 정확한 분석에 영향을 미칩니다.

값

대규모 데이터 세트의 처리와 분석을 통해 얻을 수 있는 정보의 가치입니다. 가치는 빅데이터의 다른 품질을 평가함으로써도 측정할 수 있습니다. 가치는 빅데이터 분석에서 취득되는 정보의 수익성을 나타내기도 합니다.

가변성

빅데이터 포맷, 구조 또는 소스 변화의 특징입니다. 빅데이터에는 구조화 데이터, 비정형 데이터 또는 구조화 데이터와 비정형 데이터의 조합이 포함됩니다. 빅데이터 분석은 여러 소스의 가공되지 않은 데이터를 통합할 가능성이 있습니다. 미가공 데이터의 처리에는 비구조화 데이터에서 구조화 데이터로의 변환도 포함될 수 있습니다. 빅데이터의 기타 특징은 다음과 같습니다

철저한

시스템 전체에 영향이 있습니다(즉,기록되어 있거나 기록되어 있지 않거나 둘 중 하나입니다. 빅데이터에는 소스에서 입수 가능한 모든 데이터가 포함되어 있는 경우도 포함되어 있지 않은 경우도 있습니다.

섬세하고 독특한 어휘력

각각 수집된 각 요소의 특정 데이터 비율 및 요소와 그 특성이 적절하게 인덱스화되거나 식별되는지 여부를 나타냅니다.

관계형

수집된 데이터에, 다른 데이터 세트의 결합(메타 분석)을 가능하게 하는 공통 필드가 포함되어 있는 경우입니다.

확장

수집된 데이터의 각 요소의 새 필드를 쉽게 추가하거나 변경할 수 있습니다.

확장성

빅데이터 스토리지 시스템의 규모가 급속히 확대될 가능성이 있습니다.

빅데이터 아키텍처

빅데이터 저장소는 많은 형태로 존재하며, 종종 특별한 요구를 가진 기업에 의해 구축됩니다. 상업 벤더는 1990년대부터 빅데이터를 위한 병렬 데이터베이스 관리 시스템을 제공해 왔습니다. 오랜 세월 동안 Winter Corporation은 최대 데이터베이스 보고서를 발표해 왔습니다.

Teradata Corporation은 1984년 병렬 처리 DBC 1012 시스템을 판매했습니다. 테라 데이터 시스템은 1992년에 처음으로 1테라바이트의 데이터를 저장 및 분석했습니다. 1991년 하드 디스크 드라이브는 2.5GB였기 때문에 빅 데이터의 정의는 끊임없이 진화하고 있습니다. Teradata는 2007년에 최초의 페타바이트 클래스인 RDBMS 기반 시스템을 도입했습니다.

2017년 현재 수십 페타바이트급 테라 데이터 관계형 데이터베이스가 설치되어 있으며, 그 중 가장 큰 데이터베이스는 50PB가 넘습니다. 2008년까지의 시스템은 100% 구조화된 관계형 데이터였습니다. 이후 Teradata는 XML, JSON, Avro 등의 비정형 데이터 유형을 추가하고 있습니다.

2000년 Seisint Inc.(현 Lexis Nexis Risk Solutions)는 HPCC Systems 플랫폼으로 알려진 데이터 처리 및 쿼리용 C+ 기반 분산 플랫폼을 개발했습니다. 이 시스템은 구조화 데이터, 준구조화 데이터 및 비정형 데이터를 여러 상품 서버 간에 자동으로 분할, 배포, 저장 및 배포합니다. 사용자는 ECL이라고 불리는 선언적인 데이터 흐름 프로그래밍 언어로 데이터 처리 파이프라인과 쿼리를 쓸 수 있습니다.

ECL에서 작업하는 데이터 분석가는 데이터 스키마를 사전에 정의할 필요 없이 솔루션을 개발할 때 가능한 최적의 방법으로 데이터를 재구성하는 데 중점을 둘 수 있습니다. 2004년 Lexis Nexis는 Seisint Inc.를 인수했습니다. 고속 병렬 처리 플랫폼은 2008년에 회사를 인수했을 때 이 플랫폼을 사용하여 Choicepoint Inc.의 데이터 시스템을 통합하는 데 성공했습니다.

2011년 HPCC 시스템 플랫폼은 Apache v2.0 라이센스 하에 오픈 소스화되었습니다. CERN 및 기타 물리학 실험은 수십 년에 걸쳐 빅데이터 세트를 수집해 왔습니다.이러한 데이터 세트는 일반적으로 현재의 '빅 데이터' 이동에 의해 의미되는 맵 리덕션 아키텍처가 아닌 하이스루풋 컴퓨팅에 의해 분석됩니다.

2004년 구글은 MapReduce라는 유사한 아키텍처를 사용하는 프로세스에 관한 논문을 발표했습니다. MapReduce 컨셉은 병렬 처리 모델을 제공하고 대량의 데이터를 처리하기 위한 관련 구현이 출시되었습니다. MapReduce를 사용하면 쿼리는 병렬 노드 간에 분할 및 분산되어 병렬로 처리됩니다("맵" 스텝). 그 후, 결과가 수집되어 전달됩니다(「삭감」단계). 프레임워크는 매우 성공했기 때문에 다른 사람들은 알고리즘을 복제하고 싶어했습니다.

따라서 MapReduce 프레임워크 구현은 "Hadoop"이라는 이름의 Apache 오픈 소스 프로젝트에 의해 채택되었습니다. Apache Spark는 2012년 MapReduce 패러다임의 제한에 대응하여 개발되었습니다.이것은, 메모리 내 처리와 많은 조작을 셋업하는 기능이 추가되어 있기 때문입니다(맵 후에 축소하는 것만이 아닙니다).

MIKE 2.0은 '빅데이터 솔루션 제공'이라는 기사에서 특정된 빅데이터의 영향으로 인한 개정의 필요성을 인식하는 정보관리에 대한 개방적 접근입니다. 이 방법론은 빅데이터 취급에 대해 데이터 소스의 유용한 순열, 상호관계 복잡성, 개별 레코드 삭제(또는 변경)의 어려움이라는 점에서 대처합니다.

2012년 연구에서는 다층 아키텍처가 빅데이터가 가져오는 문제에 대처하기 위한 하나의 선택사항임을 보여주었습니다. 분산 병렬 아키텍처에 의해 여러 서버로 데이터가 분산됩니다.이러한 병렬 실행 환경에서는 데이터 처리 속도가 크게 향상됩니다. 이러한 유형의 아키텍처는 데이터를 병렬 DBMS에 삽입하고 MapReduce 및 Hadoop 프레임워크 사용을 구현합니다. 이러한 유형의 프레임워크는 프론트 엔드 애플리케이션 서버를 사용하여 최종 사용자에게 처리 능력을 투과적으로 만듭니다.

데이터 레이크를 통해 조직은 중앙 집중식 관리에서 공유 모델로 초점을 옮겨 정보 관리의 변화하는 역학에 대응할 수 있습니다. 이렇게 하면 데이터를 신속하게 데이터 레이크로 분리할 수 있어 오버헤드 시간이 단축됩니다.

빅데이터 기술

McKinsey Global Institute의 2011년 보고서는 빅 데이터의 주요 구성 요소와 생태계를 다음과 같이 설명합니다.

⊙ A/B 테스트, 기계학습, 자연어 처리 등의 데이터를 분석하는 기술입니다.

⊙ 비즈니스 인텔리전스, 클라우드 컴퓨팅, 데이터베이스 등의 빅 데이터 기술입니다.

⊙ 그래프, 그래프 및 기타 데이터 표시 등의 시각화를 실시합니다.

다차원 빅데이터는 OLAP 데이터 큐브 또는 수학적으로 텐서로 표현할 수도 있습니다. 어레이 데이터베이스 시스템은 이 데이터 유형에 대한 스토리지 및 고급 쿼리 지원을 제공하도록 설정되어 있습니다. 빅데이터에 적용되는 기타 기술로는 효율적인 텐서 기반 계산, 멀티라인 서브스페이스 학습, 대량 병렬 처리(MPP) 데이터베이스, 검색 기반 애플리케이션, 데이터 마이닝, ] 분산 파일 시스템, 분산 캐시(예: 버스트 버퍼와 Memcached), 분산 데이터베이스, 클라우드 및 HPC 기반 인프라(애플리케이션, 스토리지 및 컴퓨팅 리소스),

및 인터넷입니다. 많은 접근법과 기술이 개발되고 있지만 빅데이터로 기계 학습을 수행하는 것은 여전히 어렵습니다.

일부 MPP 릴레이셔널 데이터베이스에는 페타바이트 단위의 데이터를 저장 및 관리하는 기능이 있습니다. 암묵적으로는 RDBMS 대용량 데이터 테이블의 로드, 감시, 백업 및 사용 최적화가 가능합니다. DARPA의 토폴로지 데이터 분석 프로그램은 대규모 데이터 세트의 기본 구조를 추구하며 2008년 'Ayasdi'라는 회사가 출범하면서 이 기술이 공개되었습니다.

빅데이터 분석 프로세스 실무자들은 일반적으로 저속 공유 스토리지에 적대적이며 솔리드 스테이트 드라이브(SSD)부터 병렬 처리 노드에 내장된 대용량 SATA 디스크까지 다양한 형태의 직접 연결 스토리지(DAS)를 선호합니다. 공유 스토리지 아키텍처(스토리지 에어리어 네트워크(SAN)와 네트워크 접속 스토리지(NAS)는 비교적 저속으로 복잡하고 비용이 많이 든다는 인식이 있습니다. 이러한 품질은 시스템 성능, 상품 인프라스트럭처 및 저비용으로 번영하는 빅데이터 분석 시스템과 정합성이 없습니다.

실시간 또는 거의 실시간 정보 전달은 빅데이터 분석의 특징 중 하나입니다. 따라서 지연은 가능한 한 언제 어디서나 회피됩니다. 직접 연결된 메모리 또는 디스크 데이터는 정상이지만 FC SAN 연결 반대편 메모리 또는 디스크 데이터는 비정상적입니다. 분석 애플리케이션에 필요한 규모의 SAN 비용은 다른 스토리지 기술보다 훨씬 높아집니다.

저작자표시 비영리 변경금지 (새창열림)

댓글

인기포스트

ABOUT ME

여러 분야의 정보에 대해서 소개하는 블로그입니다.

LINK

ADMIN

티스토리툴바