STUDY-LOG

[패스트 캠퍼스] 데이터 분석 부트캠프(BDA) 11기 2주차 본문

데이터분석 부트캠프/학습일지

[패스트 캠퍼스] 데이터 분석 부트캠프(BDA) 11기 2주차

dyo_33 2023. 11. 3. 01:59

📌EXCEL로 하는 데이터분석 / 기초수학 &통계

 

더보기

🙋🏻‍♀️지난주에 이어 이번주도 Excel을 활용해 데이터를 분석해보는 시간이었다.

수많은 엑셀 함수들 중 데이터 분석에 유용하게 쓰이는 함수들과 분석한 데이터를 내가 표현하고자하는데로 나타낼 수 있는 다양한 시각화 방법을 배웠고, 또한 데이터 분석에 빠질 수 없는 통계학에 관하여 deep하진 않을정도(?)로 배워보았다.

 

+) 부트캠프 시작한지 2주차인데 Peer Session도 가져보았고 한 챕터를 마무리하는 너낌으로 퀴즈(객관식 15문제로 이루어진 퀴즈는 가벼운 마음으로 봤지만 긴장되었고 걱정했지만 다 맞아서 놀랬다는..ㅎ)도 봐서 그런지 알찬 5일이었다🙃

 

 

< 탐색적 데이터 분석(EDA, Exploratory Data Analysis) >

: 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 하는 자료 분석 방법

 

✔ 결측치 (Missing Value)

✔ 이상치 (Outlier)

  상관분석

 

 

결측치 (Missing Value) : 데이터에 값이 없는 것 

NA Not Available, 유효하지 않는
NaN Not a Number, 숫자가 아닌
Null 아무것도 존재하지 않음을 의미
빈칸 데이터가 입력되지 않음 ⇒ 대부분의 엑셀의 경우

 

>> 결측치 처리

  • 제거: 결측치가 발생한 행, 열을 삭제하는 가장 쉽고, 단순한 방식
  • 치환: 결측치를 적당한 방법으로 대체하는 것
  • 모델 기반 처리: 결측치를 예측하는 새로운 모델을 구성해, 결측치를 해워 나가는 방식

 

 


 

 

 

이상치(Outlier) : 특정 지정된 그룹에 분류되지 못하는 값으로, 정상군의 상한과 하한의 범위를 벗어나 있거나 패턴에서 벗어난 수치

⇒ 일반적으로 -3σ (표준편차) 미만, +3σ 초과인 값을 이상치로 판정

이상치를 설명하는 정규분포

 

💡 어떤 데이터를 관측했을 때(실험했을 때), 평균을 기준으로 평균에 가장 가까운 데이터가 나올 확률이 높은 OR 평균에서 멀어질수록 극단적인 값이 나올 확률이 적은 분포가 정규분포

 

>> 이상치는 반드시 제거해야 하는가

 이상치는 분석 결과의 질을 떨어뜨리거나 왜곡시킬 수 있으므로 제거하거나 다른 값으로 대체하는 경우가 많지만, 상황에 따라서는 제거하지 않고 분석해야 하는 경우도 있을 수 있음

 

 

>> Z-Score

: 자료가 평균으로부터 표준편차의 몇 배만큼 떨어져 있는지를 나타내는 지표

>>>Z-Score의 특징

  • Z-Score  > 0 : 자료값이 평균보다 높음
  • Z-Score < 0 : 자료 값이 평균보다 낮음
  • 0에 가까운 Z-Score은 자료 값이 평균과 비슷함
  • 일반적으로 Z-Score ≥ 3 이거나 Z-Score ≤ -3이면 이상치로 판단 (절대적인 기준X)

 

 

>> 사분위수 (Quartile)

  • 제1사분위수(1Q, 25%):  ( (N-1) X 0.25 ) + 1
  • 제2사분위수(2Q, 중앙값) 
  • 제3사분위수(3Q, 75%): ( (N-1) X 0.75 ) + 1
  • IQR (Interquartile Range)IQR = 3Q - 1Q 
    • 보통 1Q지점에서 아래로 1.5IQR 떨어져 있거나, 3Q 지점에서 위로 1.5IQR 더 떨어져 있는 지점
    • 이상치 < 1Q -1.5IQR, 3Q +1.5IQR < 이상치 
  • Box Plot 

 

 


 

 

 

상관분석 : 두 변수가 어떤 선형적 관계를 갖고 있는지를 분석하는 방법

>> 상관관계

: 한쪽이 증가하면 다른 쪽도 증가하거나 반대로 감소되는 경향을 인정하는 두 양(量) 사이의 통계적 관계

⇒ 상관 계수를 통해 파악

 

>> 상관계수 (Pearson Correlation Coefficient)

  • 상관 계수 r은 두 변수 사이의 상관성을 나타내며 일반적으로 피어슨(Pearson) 상관 계수를 사용
  • -1 ≤  r  ≤ 1
  • 상관 계수가 1에 가까울 수록 양의 상관 관계(정비례), 일반적으로 +0.7 이상이면 강한 양의 상관 관계
  • 상관 계수가 -1에 가까울수록 음의 상관 관계(반비례), 일반적으로 -0.7 이하이면 강한 음의 상관 관계
  • EDA에서 상관 분석의 역할
    • 인과 관계가 있을 것으로 예상되는 변수들을 선별해 분석의 우선순위를 정할 수 있음 → 시간과 비용의 효율성 증대
    • but, 강한 상관 관계를 가지고 있다해서 두 변수가 반드시 인과 관계를 가지는 것은 아님 

 

 

 

 


 

 

 

 

 

< 데이터 전처리 >

: 데이터의 분석 목적과 방법에 맞게 데이터를 가공 또는 처리하는 과정

 

✔ 데이터 전처리 함수

✔ 데이터 전처리 기능

 

 데이터 전처리 함수

>> IF 함수

if함수 엑셀식

 

 

>> VLOOKUP, MATCH, IDEX, COUNT, SUMIF, FIND, LEFT, RIGHT, MID 함수

지난 포스팅에 다뤄봤으므로,, 👉참고하기

 

 

 

 데이터 전처리 기능

>> 텍스트 나누기

  [데이터]탭 → [텍스트 나누기] → [구분 기호로 분리됨] → [기타] 체크 → “-” 입력 → [마침]

 

>> 중복 항목 제거

    [데이터]탭  → [중복된 항목 제거] → 중복 값을 제거할 기준 열 선택 → [확인]

 

>> 필터와 고급필터

:필터는 필터링(필요한 데이터만 선택 or 필요하지 않은 데이터 제외) 기능과 데이터 정렬(오름차순, 내림차순) 기능을 가지고 있음

⇒    필터 단축키: [Alt] + [D] + [F] + [F], [Alt] + [A] + [T], [Ctrl] + [Shift] + [L]

⇒    고급필터: 조건을 한 행에 쓰면 AND 조건, 여러 행에 쓰면 OR 조건 

 

>> 데이터 유효성 검사

 : 특정 셀이나 범위, 상황에 따라 유요하다고 인정하는 데이터만 입력하는 기능

    조건설정: 셀/범위 지정 → [데이터] → [데이터 유효성 검사] → [제한 대상], [제한 방법] 지정

 

 

 

 



 

 

 

< 통계학 (Statistics) >

  • 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야
  • 연구 목적에 필요한 자료 및 정보를 최적한 방법으로 수집하고, 수집한 자료를 과학적이고 논리적인 이론에 의하여 정리 분석하는 학문
  • 통계학은 관심 또는 연구의 대상이 되는 모집단(population)으로 부터 자료를 수집, 정리, 요약을 하고 표본(수집한 자료, sample) 정보로부터 자료를 추출했던 대상 전체인 모집단에 대한 최적의 의사 결정을 내릴 수 있도록 정확한 정보를 제공하는 방법론을 연구하는 학문

 

✔ 기술통계학

✔ 추론통계학

  통계적 데이터 분석

 

 

 

 기술 통계학 (Descriptive Statistics)

  • 요약 통계량, 그래프, 표 등을 이용해 데이터를 정리, 요약하여 데이터의 전반적인 특성을 파악하는 방법
  • 표, 그래프 등을 활용해 데이터를 시각적으로 표현하고 통계량 등으로 수치를 요약
  • 데이터의 특징을 파악하는 관점 -- EDA 단계에서 주요하게 사용됨

 

 

 

 추론 통계학 (Inference Statistics)

  • 데이터가 모집단으로부터 나왔다는 가정하에 모집단으로부터 추출된 표본을 사용하여 모집단의 특성을 파악하는 방법
  • 전체 모집단을 조사할 수 없을 때 유용
  • 점 추정, 구간 추정을 하거나 가설을 검정함

 

>> 모집단

: 아직 가지고 있지 않은 모르는 데이터를 포함한 모든 데이터 = 관심의 대상이 되는 집단

 

>> 표본

: 모집단의 전체 데이터를 분석하기 위해 수집된 일부 데이터

 

>> 가설검정 (Hypothesis Testing)

: 통계적 추론으로, 모집단 실제의 값이 얼마가 된다는 주장과 관련해 표본의 정보를 사용해 가설의 합당성 여부를 판단하는 과정

  • 귀무 가설(H0, null hypothesis): 기본적으로 참으로 추정되며 처음부터 버릴 것으로 예상하는 가설 (차이가 없거나, 의미 있는 차이가 없는 경우)
  • 대립 가설(H1, 연구 가설): 귀무 가설에 대립하는 명제, 보통 독립 변수와 종속 변수 사이에 어떤 특정한 관련이 있다는 결과가 도출됨, 귀무가설을 기각하는 반증의 과정을 거쳐 참이라고 받아들여질 수 있음

 

>> p-value (유의 확률)

: 가설 검정의 기준, 귀무가설(H0)이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 ‘같거나 더 극단적인’ 통계치가 관측될 확률

  • p-value는 관계나 집단들 사이에 차이가 생겨나는 것이 우연한 것인지, 변수에 의한 것인지 여부를 밝히는 것
  • 하지만, 효과나 변화의 정도, 또는 관계의 강도나 크기 등을 설명하는 것은 아님

>> t-test

: 두 집단(또는 한 집단의 전,후)의 평균에 통계적으로 유의미한 차이가 있는지를 검정

  • 시행단계: 변수(집단) 선택F-testt-test결과 해석
  • t-test H0:  두 집단의 평균에 유의미한 차이가 없다 (p > 유의수준)
  • t-test H1:  두 집단의 평균에 유의미한 차이가 있다 (p < 유의수준)

>>> F-test

: 두 집단의 분산에 통계적으로 유의미한 차이가 있는지를 검정

  • F-test H0:  두 집단의 분산에 유의미한 차이가 없다 (p > 유의수준)
  • F-test H1:  두 집단의 분산에 유의미한 차이가 있다 (p < 유의수준)
  • *유의수준 = 0.05

 

 

 


 

 

 

통계적 데이터 분석

>> 회귀분석 (Regression Analysis)

: 두 개 이상의 연속형 변수(수치)인 종속 변수와독립 변수 간의 관계를 파악하여 우리가 알고 싶은 값을 예측하는 것이 목적인 분석

y = 종속변수, x = 독립변수

  • 종속변수: 우리가 알고 싶은 값
  • 독립변수: 우리가 알고 있는 값, 종속변수를 설명하기 위한 변수
  • 종류:
회귀분석 선형회귀분석
함수식이 선형함수 식
단순선형회귀분석
독립변수(x)가 1개
다중선형회귀분석
독립변수(x)가 여러개
비선형회귀분석
함수식이 선형함수 식 X
 

 

>>> 단순선형회귀 (Simple Linear Regression)

: 독립변수(x)가 변할 때, 종속변수(y)값이 어떻게 변하는지를 가장 잘 설명해주는 직선을 찾아 그 직선이 x와 y의 관계를 얼마나 설명하고 있는지 분석하는 방법 ⇒ y와 x사이의 1차 방정식

  • 결정계수: 0~1의 값을 가지며 1에 가까울수록 회귀 모형이 실제 값을 잘 설명
  • F값: 0.05 > F 이면 회귀 모형이 유의미하므로 사용 가능함
  • y절편(b의 값)과 x의 계수(a, 기울기)
  • 실습

단순선형회귀분석의 평가와 해석

 

 

>>> 다중선형회귀 (Multiple Linear Regression)

: 독립 변수가 x_1, x_2, x_3 등으로 2개 이상일 때 독립 변수들과 종속 변수 간의 관계를 파악하는 분석

  • 조정된 결정 계수: 0~1의 값을 가지며 1에 가까울수록 회귀 모형이 실제 값을 잘 설명
  • F값: 0.05 > F 이면 회귀 모형이 유의미하므로 사용 가능함
  • y절편(b의 값)과 각 독립변수의 p-value 
  • 실습

다중선형회귀분석의 평가와 해석

 

 

 


 

 

>> 시계열 분석 (Time Series Analysis)

: 시간의 흐름에 따라 발생된 데이터를 분석하는 기법

  • 시계열 데이터의 유형: 정상성을 가지고 있는 정상 시계열 데이터와 정상성을 가지고 있지 않은 비정상 시계열 데이터로 구분
  • 정상성: 추세나 계절성을 가지고 있지 않으며, 관측된 시간에 무관한 성질
  • 정상 시계열: 규칙적인 패턴을 가진 시계열 데이터
  • 비정상 시계열: 불규칙적인 패턴을 가진 데이터
    • 대부분의 시계열 데이터는 비정상 시계열 데이터
    • 비정상 시계열 데이터인 상태로는 분석이 어렵기 때문에 차분이나 다른 방법을 활용해 비정상 시계열 데이터를 정상 시계열 데이터로 변환해 분석
  • 지수 평활법 (Exponential Smoothing)
    • 현재 시점에 가까운 시계열 자료에 큰 가중치를 주고, 과거 시계열 데이터일수록 작은 가중치를 주어 미래 시계열 데이터를 예측하는 기법
    • 단순 지수 평활법 (Simple Exponential Smoothing) ⇒ 미래 예측 값 = 과거의 실제 값 x α + 과거의 예측 값 x (1 - α)
    • 엑셀에서 사용할 수 있는 지수 평활법 관련 예측 함수: FORECAST.ETS(target_date, values, timeline, [seasonality], [data_completion], [aggregation]) ⇒ 비교적 뚜렷한 계절성이 있는 데이터 예측에 사용