cool hamsters never sleep

07 빅데이터 시각화 / 방법론 이해 본문

2022 Bigdata Class/기존 노트 (삭제예정)

07 빅데이터 시각화 / 방법론 이해

슈슈 susu 2022. 7. 6. 11:18

1. 빅데이터 시각화 개요

1) 활용 목적

- 탐색적 문제 해결 (EDA) : 데이터 분석 위한 데이터 패턴, 주요 변수, 특징 확인

- 현상의 해석 (Description) : 현상을 시각적으로 표현하고 데이터로부터 인사이트 발굴

- 시각적 스토리텔링 : 분석된 데이터의 효과적인 전달/설득을 위한 시각적 스토리텔링 목적

 

2) 특징

- 데이터를 기반으로 객관적 표현에 초점

- 정보형 메세지를 전달하기 위한 데이터시각화 작업 경향

- 양적 정보 디자인으로 정보의 내용과 환경이 복잡

- 데이터를 기초로 해석된 의미의 설득형 메세지 전달의 경우 유용

 

3) 요건

- 표현이 다차원적이어야 함

- 통계적 차원의 시각화 방법과 함께 시각 표현이 병행되어야 함

 

4) 단계

- 정보의 구조화 : 데이터를 수집하고 정제, 데이터셋 만들기

- 정보의 시각화 : 분석 도구의 그래프 등을 이용한 시각화

- 정보 시각 표현 : 의도를 정확히 전달하기 위한 그래픽 요소 추가

 

5) 방법

- 시간, 비율, 관계, 비교, 공간 시각화로 구분

- 분석과 함께 제공하는 시각화 도구에 의해 결정되는 경향 강함

- 차트와 분석의 내용을 반영하기 위해 어떤 방식으로 써야 하는지 쓰임새 익히고, 적절한 데이터와 정보 시각화 하기 위한 수단으로 사용해야 함

- 분석내용을 어떻게 효율적으로 전달할 것인가를 고려해 그래프 선택하는 것이 매우 중요

 

"좋은 Bigdata Visualization은 Data Analysis를 가시화해서 Data Insight를 쉽게 얻을 수 있도록 하는 것"

 

6) 원리 1 - 전주의적 속성 (Pre-attentive Atrribute)

- 정의 : 의식적으로 노력하지 않아도 한 눈에 패턴을 알아채는 시각적 속성

- 속성 요소 : Color (색상, 색조), Form (방향, 길이, 너비, 크기, 형태, 곡률, 표시 추가, 둘러싸기), Spatial Positioning (공간적 그룹핑), Movement (이동)

 

7) 원리 2 - 데이터 유형의 이해

- 수치형 데이터 / 정량적 데이터 (Quantitative / Numeric Data)

- 연속형 데이터 (Continuous data) : 측정해서 얻을 수 있음

- 이산형 데이터 (Discrete data) : 헤아려서 얻을 수 있음

 

- 범주형 데이터 (Category Data)

- 순서형 데이터 (Ordered Data) : 범주 간 순서가 주어짐

- 명목형 데이터 (Nominal Data) : 범주 간 순서가 없고 동등한 우선순위 가짐

 

8) 그래프 (차트)에 대한 이해

- Visual Mask : 표현되는 차원에 따라 점, 선, 면으로 표현되는 시각적 기호로 그 각각에 대해 시각적 속성을 변화시켜가며 데이터 표현

- 시각적 속성 : 위치, 색, 모양, 크기, 각도 (위치, 길이, 각도가 더 효과적)

 

- 점 그래프 (산포도, 점 도표)

- X축에 범주형과 수치형 데이터 모두 사용 가능

- 각 척도는 수평축과 수직축 상의 위치를 사용하여 규약화

- 산포도는 서로 다른 두 척도를 비교하는데 사용하며, 두 가지 변수 간의 관계를 관찰할 때 유용

 

- 선 그래프

- 연속되는 데이터의 변화, 즉 트렌드를 보는데 주로 쓰임

- 수평축 : 주로 시계열 데이터 사용

- 수직축 : 척도인 수치형 데이터 표현

- 선의 높이와 경사로 추세 확인

- 점과 함께 쓰이는 점선 그래프로 표현할 수도 있음

 

- 막대 그래프

- X축에 따라 Y축 길이로 척도를 나타냄

- 각 막대는 동일한 폭의 막대를 동일한 간격으로 배치함 (여러 값의 상대적인 차이를 한 눈에 알아볼 수 있음)

- 막대 정렬 : 범주형 데이터가 상호 동등한 레벨의 명목형 데이터일 경우, 값축의 값을 순서대로 정렬하는 것이 한 눈에 데이터 간 비교를 쉽게 해줌. 순서형 데이터일 경우, 명목형 데이터의 순서에 따라 막대 배치

- 최소/최대 항목을 찾을 때 흔히 사용 (값의 순서대로 정렬했을 때 의미 찾기 용이)

 

- 데이터 분포를 확인할 수 있는 그래프

- Boxplot (분포)

- Histogram (빈도) 

 

 

 

2. 빅데이터 시각화 기법

1) 시간 시각화

- 시간에 걸쳐 진행되는 변화 또는 트렌드 추적에 사용

- 시간의 전후 관게를 감안하면 값의 의미를 더 분명하게 이해 가능

 

- 분절형 : 데이터의 특정 시점 또는 특정 시간 구간 값 (예 : 연도별 현황)

- 연속형 : 기온  변화 같은 데이터 (예 : 시간 간격이 짧은 기온 변화)

 

- 막대 그래프 (Bar Chart)

- 누적 막대 그래프

- 점 그래프

- 점, 선 그래프

 

2) 비율 (분포) 시각화

- 전체의 관점에서 부분 간의 관계 분석

- 비율 데이터는 부분을 전부 합치면 1 또는 100%가 됨

 

- 원 그래프

- 도넛 차트

- 트리맵 차트

- 누적 연속 그래프

 

3) 관계 시각화

- 변수간의 상관 관계를 시각적으로 보여주는 시각화 기법

- 인자 (변수)간의 상관관계를 이용하여 한 수치의 변화를 모니터링하여 다른 수치의 변화 예측에 이용

 

- 산점도

- 멀티플 산점도

- 히스토그램

- 버블차트

 

4) 비교 시각화

- 데이터를 전체적으로 한 눈에 볼 수 있도록 값을 색으로 나타내는 방법으로 시각화

- 여러 변수의 비교가 가능

 

- 히트맵

- 히트 행렬

- 체르노프페이스

- 스타차트/나이팅게일차트

- 평행좌표계

 

 

 

3. 빅데이터 시각화 활용

1) 보는 사람 관점에서 데이터 시각화 원리 이해

2) 데이터 속성과 활용 목적에 따른 그래프 선택

3) 그래프는 보는 사람마다 다르게 해석하므로 강조점 표현

4) 해석과 시사점이 바진 그래프는 무의미

5) 지도 그래프가 항상 좋은 것은 아니므로 통계 그래프와 같이 사용

 

 

 

4. 데이터 분석

1) 활용 방향

- Before : Reactive (문제발생이후 처리)

- Data 분석, 활용 과정을 거쳐서

- After : Predictive (예측적), Preventive (예방적)

 

2) 과정

- 1단계 : 분석 주제 기획 단계

- 해결하고자 하는 업무의 문제 정의

- 데이터로 확인해야 하는 사항 (항목) 결정

- 핵심 데이터 식별 및 확보 방법 확인

 

- 2단계 : 데이터 분석 단계

- 3단계 : 업무 적용 단계

 

 

 

5. 데이터 사이언스 이해

- 데이터 마이닝, 데이터 사이언스는 데이터의 활용과 목적이 유사 ('사람'이 실행해서 사람에게 보고)

- 반면 인공지능, 머신러닝은 자동화가 목적인 경우가 일반적

 

1) Data Mining

- 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 것

- KDD (데이터베이스 속의 지식 발견, Knowledge-Discovery in Databases) 라고도 일컫음

- 데이터에서 숨겨진 의미를 추출하는 컴퓨터 처리

- 자료가 현실을 충분히 반영하지 못한 상태에서 정보를 추출한 모델을 개발할 경우 잘못된 모델을 구축하는 오류를 범할 수 있음

 

2) Data Science

- 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합 분야

- 데이터를 통해 실제 현상을 이해하고 분석하는데 통계학, 데이터 분석, 기계학습과 연관된 방법론을 통합하는 개념

- 데이터에서 의미 있는 지식이나 통찰 얻기

- 데이터를 생서한 프로세스 이해하기

- 데이터에서 추출한 가치로 상품 만들기

 

3) 기계학습 (머신러닝)

- 인공지능의 한 분야로 경험을 통한 학습을 하여 스스로 자신을 발전시키려는 시스템/알고리즘 연구 개발

 

4) 데이터 과학자의 역량

- 지식

- 기술

- 경험

 

5) Augmented Analysis

- 데이터 전처리부터 피쳐엔지니어링 과정까지의 일련의 프로세스를 사람의 판단이 아닌 기계학습을 통한 머신러닝으로 자동 처리

- 더 많은 양의 데이터와 숨겨진 패턴을 찾아냄으로써 예측하여 분석하고, 대안을 제시해주는 기술

 

6) Citizen Data Scientist (CDS)

- 전문지식 없이 자동화된 기술을 통해 데이터 분석을 하는 개인

 

 

 

6. 데이터 분석 방법론 이해

1) 개념

- 주어진 목표를 효율적, 효과적으로 수행하기 위한 수행 활동의 절차, 방법, 산출물, 기법/도구 등을 체계화한 것

- 데이터 분석의 효과적 진행을 위해 필요

- 통계적 방법론은 통계적 이론을 발굴하는 데 중점을 두기 때문에 비즈니스적 분석 목적 활용에 한계

 

2) 데이터 마이닝 방법론

- 비즈니스 활용을 목적으로 만들어진 방법론으로 대용량의 자료로부터 패턴을 파악해 유의미한 정보를 추출하는 방법론

- 데이터를 통해 비즈니스 인사이트 도출

- 데이터가 크고 다양할수록 보다 활용하기 유리한 방법론

 

- KDD (Knowedge Discovery in Database : 지식 탐색 중심)

- 프로파일링 기술 기반

- 통게적 패턴, 지식 발견

- Selection 단계

- Preprocessing 단계

- Transformation 단계

- Data Mining 단계

- Interpretation/Evaluation 단계 : 타당성 확보

 

- SEMMA (반복적 사이클 적용)

- 데이터 중심

- 이상 현상, 주요 변수 추출 등

- Sample 단계 : 대량 센서 데이터를 분석하는 경우는 샘플링 기법 등이 중요

- Explore 단계 : 데이터 조감을 통한 데이터 오류 검색, 데이터 현황을 통해 비즈니스 이해, 아이디어를 위해 이상 현상과 변화 등을 탐색

- Modify 단계

- Model 단계

- Assess 단계

 

- CRISP-DM (도메인 이해 중심)

- 계층적 프로세스 모델

- 6단계 구성, 단계 간 피드백

- 1. 비즈니스 이해 단계 : FGI

- 2. 데이터 이해 단계

- 3. 데이터 준비 단계

- 4. 모델링 단계

- 5. 평가 단게

- 6. 배포 단계 

 

3) 데이터 분석 프로젝트의 분석 프로세스 (업무와 데이터의 이해를 바탕으로 추진됨)

- 분석 요건 정의 (분석 요구사항 분석)

- 분석 주제 정련

- 분석 모델링 (분석 논리 모델 정의)

- 분석 및 검증

 

4) 데이터 분석/개발 프로젝트 방법론 5단계 절차

- 분석 프로젝트 수행 시에는 3Level 정도의 WBS (Work Breakdown Structure)를 작성 후 일정 계획 등 관리 수행

- WBS : 시작과 끝이 있으며, 목표가 있음

 

- Planning (분석 기획) 단계

- Preparing (데이터 준비) 단계

- Analyzing (데이터 분석) 단계

- Dveloping (시스템/서비스 구현) 단계

- Deploy (평가 및 전개) 단계

 

5) 데이터 분석 목적에 따른 분석 단계의 분석 기법 적용

- 탐색적 단계 (Exploration Stage) : 탐색적으로 데이터의 패턴, 특징을 찾는 중심으로 진행

- DDA (Descriptive Data Analysis) : 주어진 데이터를 요약/집계하여 현재 모습을 묘사/기술하는 것이 목표, 단순 계산 및 집계에 의한 Fact 전달

- EDA (Exploratory Data Analysis) : 여러 변수 간의 관계, 패턴, 트렌드 등을 찾음, 데이터 분석 초기에 가설 수립에 유용, 그래프를 통한 사실 확인이 주된 분석 작업

 

- 확증 단계 (Confirmation Stage) : 분석 모델의 정확도를 높이기 위한 방향으로 진행

- CDA (Confirmatory Data Analysis) : 도출된 가설 검증, 샘플에서 구한 통계량을 모집단에도 적용할 수 있는지 검토하는 분석 유형, 설명력을 요하는 통계적 분석 접근 방법

- PDA (Predictive Data Analysis) : 발생하지 않은 어떤 사건에 대한 예측이 주요 목표

 

6) 분석 목적에 따른 분석 접근 방법

- Bottom-Up 방식 (출발점 : 데이터) : 데이터 분석 -> 패턴 확인

- Insight : 원인은 모르지만, 기존의 문제해결 방법을 통해서 새로운 지식을 찾아내기

- Discovery : 원인과 해결방법 모두 모름

 

7) 데이터 분석 결과보고서 목적

- 1차 : 분석 결과의 타당성 검증 및 분석 결과의 업무 적용

- 2차 : 개발된 분석 모델과 분석 코드의 재활용을 통해 분석 모델 고도화, 유지보수

 

8) 데이터 분석 결과물의 이해

- 분석 프로세스에서는 반드시 개념도가 선행되어야 함

 

9) 분석 결과물 형태

- 수학적 모델 (수리적 모델) : 모델의 검증 및 해석 중요 (수치 값들의 의미에 대한 해석)

- 시각화 그래프 : 그래프 해석 (의미 있게 해석되었는지 업무적 검증)

 

'2022 Bigdata Class > 기존 노트 (삭제예정)' 카테고리의 다른 글

09 SQL 응용  (0) 2022.07.08
08 빅데이터 방법론 이해 (2)  (0) 2022.07.07
04 SQL 기본  (0) 2022.07.05
Comments