본문 바로가기

Business Data

[업무지식] 빅데이터(Big Data) 개념 이해하기

반응형

안녕하세요 서후아빠입니다. ^_^

이번 세션은 빅데이터에 대해서 업무적으로 필요한 최소한의 개념에 대해서 간단히 정리해 보았습니다.

빅데이터를 살펴보면 IoT에서도 언급한 것처럼 머신러닝, 인공지능으로 이어지는 기술적인 연결성이 보입니다.


Big Data 개요

기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트 이상)의 데이터 
  - 정형 데이터 : 구조화된 데이터로 관리 간단, 규모가 크더라도 정형 데이터만으로는 빅데이터라고 할 수 없음
  - 비정형 데이터 : 비구조화된 데이터로 관리 어려움 
  - 반정형 데이터 : 이메일(정형(수/발신자, 제목 등)+비정형(내용))같이 하이브리드 구조

빅데이터 소스 

  - 소셜 데이터 : 댓글, 게시글, 이미지, 동영상 등
  - 머신 데이터 : IoT 기기와 머신에 장작된 센서에서 발생되는 디지털 데이터
  - 거래 데이터 : 도소매, 금융 등 거래에서 발생하는 데이터
※ 스몰 데이터 : 마케팅 설문조사, 프세레드시트, 이메일, 회의록 등 

Big Data 특징 (5V)

https://ikkison.tistory.com/66

  - 규모(volume) : 관리/활용을 위해서는 고급 알고리즘/AI 기반 분석 필요, 안전/신뢰를 위해서는 저장/검색 방법 필요
  - 속도(velocity) : 저장과 동시에 처리, 분석, 구성 등을 할 수 있는 속도 중요
  - 다양성(variety) : 정형, 비정형, 반정형 데이터의 조합으로 구성 
  - 정확성(Veracity) : 비정형 데이터에서 발생하는 진실성(편견, 노이즈 등) 문제 해결 필요 
  - 가치(Value) : 빅데이터 분석 통해 기업에 가치있는 결과를 확보

 

Big Data 관련 기술 

기하급수적으로 증가하는 데이터 관리 및 효율적인 사용에 대한 과제를 해결하기 위해 아래와 같은 기술이 필요

  - 인공지능(AI) : 빅데이터 정리 및 분석, 데이터 학습으로 AI 향상, 상호 필요한 관계 

  - 머신러닝(ML) : 머신러닝 알고리즘으로 데이터 분석하여 패턴 식별, 식별된 정보는 비즈니스 의사결정에 중요 
  - 인메모리 데이터베이스(IMDB) : 처리와 분석이 RAM에서 수행되며, 분산 아키텍처 기반으로 병렬 처리 활용하여 빠름
  - 데이터 레이크 : 아직 처리되지 않은 대규모의 원시 데이터 저장소 
  - 데이터 웨어하우스 : 특정 목적을 위해 이미 처리된 데이터 저장소
  - NoSQL 데이터베이스 : 처리 시점에 데이터의 특성에 맞게 수정할 수 있는 유연한 스키마 제공
  - Apache Hadoop : 여러 대의 컴퓨터를 거의 무한 확장 가능한 네트워크로 클러스터링하고 데이터를 병렬로 분석

Sqoop(SQL to Hadoop) : Hadoop과 관계형 데이터베이스(SQL) 간에 데이터를 전송할 수 있도록 설계된 오픈소스
Flume : 대량의 로그 데이터를 여러 소스에서 수집하여 저장하기 위한 목적으로 개발하여 오픈소스
병렬 데이터베이스(parallel database) : 데이터 적재, 색인 빌드, 쿼리 평가 등을 병렬 컴퓨팅을 통해 구현
Data Mining : 보유한 데이터를 다양한 관점에서 분석하고 그 결과를 유용한 정보로 조합하는 일
ML : 미래 사건의 결과를 예측하는 컴퓨터 프로그램

Big Data 적용 사례

구분 내용
기업 제조업 : 설비예지보전, 예실관리, 제품 트래킹
의료업 : 유행병 예측
은행업 : 리스크 관리 
소매업 : 고객 맟춤 마케팅, 재고 보유 관리

Big Data의 장단점

구분 내용
장점 정확한 현황 파악 
미래 예측 
문제점 식별 및 해결책 혹은 개선 방향 제시
신규 비즈니스 기회 발견
단점 무분별한 개인정보 수집
수집한 데이터의 신뢰도에 따른 분석 결과의 신뢰성 

AWS Big Data 서비스

카테고리 구분 내용
분석 Amazon Athena 표준 SQL을 사용하여 S3에 있는 데이터를 분석할 수 있는 대화형 쿼리 서비스
Amazon EMR (구. Elastic Map Reduce) Apache Hadoop 및 Apache Spark와 같은 빅 데이터 프레임워크 실행을 간소화하여 방대한 양의 데이터를 처리하고 분석하는 관리형 클러스터 플랫폼
Amazon Redshift 페타바이트급 데이터웨어하우스 서비스
Amazon Kinesis Data Analytics Apache Flink를 사용하여 실시간으로 스트리밍 데이터를 변환하고 분석
Amazon OpenSearch Service OpenSearch 클러스터를 손쉽게 배포, 운영 및 확장
OpenSearch는 분산형 커뮤니티 기반의 오픈 소스 검색 및 분석 제품(구. Elasticsearch)
Amazon QuickSight 대시보드 및 시각화하는 BI 서비스 
AWS Glue DataBrew 시각적 데이터 준비 도구, 코드 작성 없이 데이터를 정리 및 정규화
데이터 이동 AWS Glue 데이터를 쉽게 검색, 준비, 이동, 통합할 수 있도록 하는 서버리스 데이터 통합 서비스
Amazon Managed Streaming for Apache Kafka(MSK) 고가용성 Apache Kafka 서비스를 통해 안전하게 데이터를 스트리밍
Amazon Kinesis Data Streams 스트리밍 데이터에 최적화된 고도의 확장성 및 내구성을 갖춘 데이터 수집 및 처리 서비스
Amazon Kinesis Data Firehose 안정적으로 실시간 스트림을 데이터 레이크, 웨어하우스, 분석 서비스에 로드
Amazon Kinesis Video Streams 재생, 분석 및 기계 학습을 위해 미디어 스트림을 캡처, 처리 및 저장
AWS Database Migration Service 가동 중지 시간을 최소화하면서 데이터베이스를 클라우드로 마이그레이션하는 솔루션
데이터 레이크 S3, AWS Lake Formation 객체 스토리지
S3 Glacier, AWS Backup 백업 및 아카이브
AWS Glue,  AWS Lake Formation 데이터 카탈로그
AWS Data Exchange 클라우드에서 쉽게 서드 파티 데이터 검색, 구독 및 사용
예측 분석 및 기계학습 AWS Deep Learning AMI 미리 구성된 환경에서 확장 가능하고 안전한 딥 러닝 애플리케이션을 빠르게 구축하도록 하는 서비스
Amazon SageMaker AWS의 20년 개발 경험을 기반으로 만든 머신 러닝 플랫폼

 

반응형