cool hamsters never sleep
[Part 4. 분석역량] 요약본 본문
GitHub - 2022shushu/BigData2022
Contribute to 2022shushu/BigData2022 development by creating an account on GitHub.
github.com
1장. 데이터 분석 알고리즘의 이해
1. 데이터 분석 모델 개요
1) 데이터 탐색
- 탐색적 데이터 분석 (EDA) : 새로운 가설 생성 및 통찰을 얻어 방향성 설정
- 확증적 데이터 분석 (CDA) : 가설 검정의 유효성 검정. 행동에 대한 평가로 채택 여부 결정
2) 분석 모델 구축 절차 : 요건 정의 -> 모델링 (알고리즘) -> 검증 및 테스트 -> 적용
3) 분석 모델 정의 시 고려사항
- 모델 선택 오류 : 적합하지 않은 함수 모델 생성
- 변수 누락 : 종속변수와 하나 또는 둘 이상의 독립변수 사이에 관계는 있지만 모델을 생성할 때 누락되는 경우
- 부적합 변수 생성 : 관련이 없는 변수가 모델에 포함된 경우. 편향을 발생시키지는 않지만 과대적합을 발생시켜 예측 성능 저하
- 동시편향 : 종속변수가 연립 방정식의 일부인 경우 동시편향 발생 (편향은 학습 알고리즘에서 잘못된 가정을 했을 때 발생, 분산은 트레이닝셋에 내재된 작은 변동때문에 발생)
2. 데이터 분석 모델 종류
1) 통계 기반 분석 모델 : 기술 통계, 상관분석, 회귀분석, 분산분석, 주성분분석, 판별분석, 시계열분석
2) 데이터 마이닝 기반 분석 모델 : 분류 모델, 예측 모델, 군집화 모델, 연관규칙 모델
3) 기계학습 기반 분석 모델 : 지도학습, 비지도학습, 강화학습
3. 통계 기반 데이터 분석 알고리즘
1) 상관관계 분석
2) 회귀분석
3) 범주형 자료 분석 : 도수분포표, 히스토그램, 교차표 분석
4) 분산분석
5) 주성분분석
6) 시계열분석
4. 기계학습 기반 데이터 분석 알고리즘
2장. 탐색적 데이터 분석
1. 통계학의 개요
1) 통계
2) 통계학
2. 기술통계
GitHub - 2022shushu/BigData2022
Contribute to 2022shushu/BigData2022 development by creating an account on GitHub.
github.com
3장. 통계 기반 데이터 분석
1. 확률
2. 추론 통계
GitHub - 2022shushu/BigData2022
Contribute to 2022shushu/BigData2022 development by creating an account on GitHub.
github.com
3. 통계적 분석 방법
4장. 공간 분석 시각화 이해
구분 | 래스트 데이터 모델 | 벡터 데이터 모델 |
장점 | - 상대적으로 단순한 자료 구조 - 중첩 연산 간단하게 구현 가능 - 위성 영상 등 디지털 자료와 호환 - 영상 처리, 모델링 등에 효율적 - 실세계의 연속적인 현상 표현에 효과적 |
- 객체의 위치, 형상을 보다 사실적으로 표현 가능 (직관적 이해에 유리함) - 속성 정보의 입력, 검색, 갱신이 용이 - 실세계의 이산적 현상 표현에 효과적 - 공간해상도에 좌우되지 않음 |
단점 | - 정확한 위치 정보 파악 어려움 - 해상도에 따라 객체의 형상 왜곡 - 객체가 존재하지 않는 격자에도 값을 할당해야 하므로 비효율적 |
- 복잡한 자료 구조 - 중첩 연산 등 공간 분석 기법의 구현이 어려움 - 공간 분석 함수의 프로그래밍이 다소 복잡함 |
5장. QGIS 공간 분석 실습 기초
1. 벡터 데이터 파일 구조
1) shp : 기하학 정보 저장
2) shx : 색인 (index) 저장
3) dbf : 속성 정보 저장
2. 속성 질의 연습 - 산술/논리 연산
1) 인구가 30,000명 이상인 동을 검색하는 연산 : "동별 인구 필드명" >= 30000
2) 이름이 '목'으로 시작하는 동을 검색하는 연산 : "동 이름 필드명" LIKE '목%'
3) 송파구와 강남구에 소속되어 있으면서 동시에 인구가 4만명 이상인 동을 검색하는 연산 : "동별 인구 필드명" >= 30000 AND "구 이름 필드명" IN ('송파구', '강남구')
'2022 Bigdata Class > Note' 카테고리의 다른 글
[Part 1. 데이터역량] 요약본 (3장, 4장) (0) | 2022.09.23 |
---|---|
[Part 1. 데이터역량] 요약본 (1장, 2장) (0) | 2022.09.23 |
[Part 3. SW역량] 요약본 (0) | 2022.09.23 |
[Part 2. 기획역량] 요약본 (0) | 2022.09.17 |