cool hamsters never sleep

[Part 4. 분석역량] 요약본 본문

2022 Bigdata Class/Note

[Part 4. 분석역량] 요약본

슈슈 susu 2022. 9. 23. 16:47

 

 

GitHub - 2022shushu/BigData2022

Contribute to 2022shushu/BigData2022 development by creating an account on GitHub.

github.com

1장. 데이터 분석 알고리즘의 이해

1. 데이터 분석 모델 개요

1)  데이터 탐색

- 탐색적 데이터 분석 (EDA) : 새로운 가설 생성 및 통찰을 얻어 방향성 설정

- 확증적 데이터 분석 (CDA) : 가설 검정의 유효성 검정. 행동에 대한 평가로 채택 여부 결정

 

2) 분석 모델 구축 절차 : 요건 정의 -> 모델링 (알고리즘) -> 검증 및 테스트 -> 적용

 

3) 분석 모델 정의 시 고려사항

- 모델 선택 오류 : 적합하지 않은 함수 모델 생성

- 변수 누락 : 종속변수와 하나 또는 둘 이상의 독립변수 사이에 관계는 있지만 모델을 생성할 때 누락되는 경우

- 부적합 변수 생성 : 관련이 없는 변수가 모델에 포함된 경우. 편향을 발생시키지는 않지만 과대적합을 발생시켜 예측 성능 저하

- 동시편향 : 종속변수가 연립 방정식의 일부인 경우 동시편향 발생 (편향은 학습 알고리즘에서 잘못된 가정을 했을 때 발생, 분산은 트레이닝셋에 내재된 작은 변동때문에 발생)

 

2. 데이터 분석 모델 종류

1) 통계 기반 분석 모델 : 기술 통계, 상관분석, 회귀분석, 분산분석, 주성분분석, 판별분석, 시계열분석

2) 데이터 마이닝 기반 분석 모델 : 분류 모델, 예측 모델, 군집화 모델, 연관규칙 모델

3) 기계학습 기반 분석 모델 : 지도학습, 비지도학습, 강화학습

 

3. 통계 기반 데이터 분석 알고리즘

1) 상관관계 분석

2) 회귀분석

3) 범주형 자료 분석 : 도수분포표, 히스토그램, 교차표 분석

4) 분산분석

5) 주성분분석

6) 시계열분석

 

4. 기계학습 기반 데이터 분석 알고리즘

 

2장. 탐색적 데이터 분석

1. 통계학의 개요

1) 통계

2) 통계학

 

2. 기술통계

 

GitHub - 2022shushu/BigData2022

Contribute to 2022shushu/BigData2022 development by creating an account on GitHub.

github.com

 

3장. 통계 기반 데이터 분석

1. 확률

2. 추론 통계

 

GitHub - 2022shushu/BigData2022

Contribute to 2022shushu/BigData2022 development by creating an account on GitHub.

github.com

3. 통계적 분석 방법

 

4장. 공간 분석 시각화 이해

구분 래스트 데이터 모델 벡터 데이터 모델
장점 - 상대적으로 단순한 자료 구조
- 중첩 연산 간단하게 구현 가능
- 위성 영상 등 디지털 자료와 호환
- 영상 처리, 모델링 등에 효율적
- 실세계의 연속적인 현상 표현에 효과적
- 객체의 위치, 형상을 보다 사실적으로 표현 가능 (직관적 이해에 유리함)
- 속성 정보의 입력, 검색, 갱신이 용이
- 실세계의 이산적 현상 표현에 효과적
- 공간해상도에 좌우되지 않음
단점 - 정확한 위치 정보 파악 어려움
- 해상도에 따라 객체의 형상 왜곡
- 객체가 존재하지 않는 격자에도 값을 할당해야 하므로 비효율적
- 복잡한 자료 구조
- 중첩 연산 등 공간 분석 기법의 구현이 어려움
- 공간 분석 함수의 프로그래밍이 다소 복잡함

 

5장. QGIS 공간 분석 실습 기초

1. 벡터 데이터 파일 구조

1) shp : 기하학 정보 저장

2) shx : 색인 (index) 저장

3) dbf : 속성 정보 저장

 

2. 속성 질의 연습 - 산술/논리 연산

1) 인구가 30,000명 이상인 동을 검색하는 연산 : "동별 인구 필드명" >= 30000

2) 이름이 '목'으로 시작하는 동을 검색하는 연산 : "동 이름 필드명" LIKE '목%' 

3) 송파구와 강남구에 소속되어 있으면서 동시에 인구가 4만명 이상인 동을 검색하는 연산 : "동별 인구 필드명" >= 30000 AND "구 이름 필드명" IN ('송파구', '강남구')

Comments