목록Machine Learning (13)
cool hamsters never sleep
콘텐츠 기반 필터링 추천 시스템 : 사용자가 특정한 아이템을 매우 선호하는 경우, 그 아이템과 비슷한 콘텐츠를 가진 다른 아이템을 추천하는 방식 최근접 이웃 협업 필터링 : 사용자 행동 양식만을 기반으로 추천 수행 잠재 요인 협업 필터링 : 사용자 - 아이템 평점 매트릭스 속에 숨어 있는 잠재 요인 추출해 추천 예측 GitHub - 2022shushu/BigData2022 Contribute to 2022shushu/BigData2022 development by creating an account on GitHub. github.com
1) 데이커 값이 왜곡되어 분포한다면 2) 정규 분포 형태로 유도하기 위해서 3) 로그 값으로 변환한다. -> 로그 변환이 되면, 기존의 수가 지수가 되어 값이 작아진다.
1. 텍스트 분류 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법 지도학습 적용 2. 감성 분석 텍스트에서 나타나는 감정/판단/믿음/의견/기분 등의 주관적인 요소 분석하는 기법 텍스트 분석에서 가장 활발하게 사용 지도학습, 비지도학습 적용 3. 텍스트 요약 텍스트 내에서 중요한 주제나 중심 사상을 추출하는 기법 대표적으로 토픽 모델링 4. 텍스트 군집화 비슷한 유형의 문서에 대해 군집화를 수행하는 기법 텍스트 분류를 비지도학습으로 수행하는 방법의 일환으로 사용가능 유사도 측정 역시 문서들간의 유사도를 측정해 비슷한 문서끼리 모을 수 있는 방법 텍스트 분석 수행 프로세스 1. 텍스트 사전 준비작업 (텍스트 전처리) 2. 피처 벡터화/추출 3. ML 모델 수립 및 학습/예측/평가 텍스트 사전 준..
K-평균 장점 : 가장 많이 활용되는 알고리즘, 쉽고 간결함 단점 : 속성 개수가 많을수록 군집화 감소 (PCA로 차원 감소 적용해야 할 수 있음), 느린 수행 시간 (반복), 몇 개의 군집을 선택해야 할 지 가이드가 어려움 실루엣 분석 각 군집간의 거리가 얼마나 효율적으로 분리되어 있는가? (다른 군집과의 거리는 떨어져 있고, 동일 군집끼리의 데이터는 서로 가깝게 잘 뭉쳐 있다는 것) 평균 이동 K-평균이 중심에 소속된 데이터의 평균 거리 중심으로 이동하는 데 반해, 평균이동은 중심을 데이터가 모여 있는 밀도가 가장 높은 곳으로 이동시킴 (데이터의 분포도를 이용해 군집 중심점을 찾고, 이를 위해 확률 밀도 함수 이용) DBSCAN (밀도 기반 군집화의 대표적인 알고리즘) 데이터의 분포가 기하학적으로 복..
GitHub - 2022shushu/BigData2022 Contribute to 2022shushu/BigData2022 development by creating an account on GitHub. github.com
- 회귀는 회귀 계수와 선형/비선형 여부, 독립변수의 개수, 종속변수의 개수에 따라 여러 가지 유형으로 나눌 수 있다. - 독립변수 개수가 1개이면 단일 회귀, 여러 개면 다중 회귀 - 선형 회귀 : 실제 값과 예측값의 차이 (오류의 제곱 값)를 최소화하는 직선형 회귀선 최적화하는 방식 (규제 방법에 따라 별도 유형으로 나눌 수 있음 : 릿지, 라쏘, 엘라스틱넷, 로지스틱 회귀) GitHub - 2022shushu/BigData2022 Contribute to 2022shushu/BigData2022 development by creating an account on GitHub. github.com GitHub - 2022shushu/BigData2022 Contribute to 2022shushu/B..