○ 통계 및 수학
■ 고유값(eigen value)와 고유벡터(eigen vector)에 대해 설명해주세요. 그리고 왜 중요할까요?
정방 행렬 A를 선형 변환으로 봤을 때, 선형 변환 A에 의한 변환 결과가 자기 자신의 상수 배가 되는 0이 아닌 벡터를 고유벡터(eigenvector)라고 하고, 이 상수배 값을 고유값(eigenvalue)이라고 합니다. 고유값, 고유 벡터는 정방 행렬에 대해서만 정의됩니다.
고유값과 고유벡터는 정방행렬의 대각화와 밀접한 관련이 있다. 행렬을 고유벡터와 고유값으로 이루어진 행렬들로 대각화 분해하면 (eigen decomposition) 이를 이용하여 해당 행렬의 거듭제곱, 역행렬, 대각합, 행렬의 다항식 등을 매우 효율적으로 계산할 수 있기 때문에 중요하다.
■ 샘플링(Sampling)과 리샘플링(Resampling)에 대해 설명해주세요. 리샘플링은 무슨 장점이 있을까요?
샘플링은 표본추출을 뜻하는 것으로, 모집단에서 임의의 sample을 뽑는 것을 뜻합니다.
리샘플링은 샘플링을 통해 뽑은 sample 들에서 또다시 sample의 부분집합을 뽑는 것입니다.
리샘플링을 하게 되면, 같은 샘플을 여러 번 사용 하게 되는데 이를 이용하여 성능 측정 시 통계적인 신뢰도를 높일 수 있습니다.
■ 확률 모형과 확률 변수는 무엇일까요?
확률 변수는 표본(사건)의 특성을 숫자로 변환하는 단계를 의미하며, 실제 공간에서 일어나는 표본(사건)을 discrete 혹은 continuous한 숫자로 할당한다.
확률 모형은 확률 변수를 이용하여 데이터의 분포를 수학적으로 정의하는 방법을 말하며, 확률 함수들의 조합으로 구성될 수 있다.
■ 베르누이 분포 / 이항 분포 / 카테고리 분포 / 다항 분포 / 가우시안 정규 분포 / t 분포 / 카이제곱 분포 / F 분포에 대해 설명해주세요.
1. 베르누이 분포 :성공이면 1의 값을 갖고, 실패이면 0의 값을 갖는 확률변수 X를 베르누이(Bernoulli) 확률변수라고 하고, 그 분포를 베르누이 분포라고 합니다.
2. 이항 분포 : 연속된 n번의 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산 확률 분포
3. 카테고리 분포 : k 개의 카테고리 중 하나를 선택하는 실험을 의미한다. 예를 들어 주사위를 던지는 행위는 k=6인 카테고리 시행으로 볼 수 있다.
4. 다항 분포 : 성공확률이 θ=(θ1...θk) 인 카테고리 시행을 n번 반복했을 때의 카테고리별 성공횟수는 다항분포(Multinomial distribution)를 따르게 된다.
5. 가우시안 정규 분포 : 가우시안 정규 분포 (Gaussian normal distribution) 라고도 한다. 자연 현상에서 나타나는 숫자를 확률 모형으로 나타낼 때 사용한다.
6. t 분포 : 모 표준편차는 모를 때 소 표본(n<30)으로도 모평균을 추정하려고 정규분포 대신에 사용되는 확률분포
7. 카이제곱 분포 : 카이제곱 분포 또는 χ2 분포는 k개의 서로 독립적인 표준 정규 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포이다. 이때 k를 자유도라고 하며, 카이제곱 분포의 매개변수가 된다. 카이제곱 분포는 신뢰구간이나 가설검정 등의 모델에서 자주 등장한다.
8. F 분포 : F-분포(F-Distribution)는 정규분포를 이루는 모집단에서 독립적으로 추출한 표본들의 분산비율이 나타내는 연속 확률 분포입니다.
■ 조건부 확률은 무엇일까요?
조건부 확률(Conditional probability)은 주어진 사건이 일어났다는 가정하에, 다른 한 사건이 일어날 확률이다.
■ 공분산과 상관계수는 무엇일까요?
공분산(Covariance, Cov)는 2개의 확률변수의 상관 정도를 나타내는 값이다.
상관계수는 확률 변수의 절대적 크기에 영향을 받지 않도록 공분산을 단위화 시킨 것이다.
■ 신뢰 구간의 정의는 무엇인가요?
신뢰 구간은 모수를 포함하는 구간을 생성하므로 모집단 모수에 대한 좋은 추정치로 사용합니다.
SEM=σ√n 신뢰 구간은 표본의 평균을 기준으로 -2SEM에서부터 +2SEM까지를 말하며, 모집단에서 선택한 어떤 표본이 해당 구간 안에 들어올 확률인 신뢰 수준과 함께 쓰인다.
■ P-value란?
P-value는 Probability-value의 줄임말로 확률 값을 뜻하며 어떤 사건이 우연히 발생할 확률을 말합니다.
■ P-value의 한계는?
1. 관측치를 증가시켜, 억지로 유의하게 만들 수 있음
: 표본이 커지면 표본 오차가 작아지기 때문이다. 빅데이터 시대에는 데이터의 양이 늘어나면서 p-value가 기존 관행처럼 5% 이하이더라도 유의미하지 않을 수 있다.
2. 유의한 P-value를 제시하여 눈속임할 수도 있음
: 종속변수에 영향을 끼칠 만한 독립변수들을 한꺼번에 조사하여 그것들 중 유의한 결과가 나온 것만 제시할 수 있다.
■ A/B Test 등 현상 분석 및 실험 설계 상 통계적으로 유의미함의 여부를 결정하기 위한 방법에는 어떤 것이 있을까요?
A/B 테스트를 통해 통계적으로 유의미함을 찾아내려면
1. 두 집단을 나눌 때 random으로 나누기
2. 참가한 두 집단에 속하는 표본들이 random 추출을 통해 샘플링되어야 한다.
이외에 도 통계적으로 유의미함의 여부를 결정하는 방법에는 AA test, p-value가 있다.
○ AA test는 A와 B를 비교하기 전에 분산된 트래픽에 모두 A 안을 보여주고, 같은 Variation이 관측되는지 확인하는 방법
○ p-value는 통계적 가설이 재현되지 않는 예외 경우의 비율이다.
■ R square의 의미는 무엇인가요?
결정 계수로서, 가설의 설명력을 의미한다. (설명력은 Y의 총 변동량 중에서 X에 의해서 설명된 분량을 의미)
3.5 결정계수(R2)와 p-value
낮은 R2 & 낮은 p-value (p-value<0.05) | 모델의 설명력이 낮지만, 모델이 유의미함(better than not having a model) |
낮은 R2 & 높은 p-value (p-value>0.05) | 설명력이 낮고, 모델이 유의미하지 않음(worst scenario) |
높은 R2 & 낮은 p-value (p-value<0.05) | 모델 설명력이 높고, 모델이 유의미함(best scenario) |
높은 R2 & 높은 p-value (p-value>0.05) | 모델 설명력이 높지만, 모델이 유의미하지 않음(worthless) |
■ 평균(mean)과 중앙값(median)중에 어떤 케이스에서 뭐를 써야할까요?
일반적으로는 평균을 사용하지만 데이터의 분포가 고르고 정규분포에 근사하면 중앙값이든 평균값이든 상관없다. 하지만 이상치에 영향을 크게 받는 경우, 평균보다 중앙값을 사용하는 것이 더 효과적이다.
■ 중심극한정리는 왜 유용한걸까요?
중심극한정리 : “모집단이 「평균이 μ이고 표준편차가 σ인 임의의 분포」을 이룬다고 할 때, 이 모집단으로부터 추출된 표본의 「표본의 크기 n이 충분히 크다」면 표본 평균들이 이루는 분포는 「평균이 μ이고 표준편차가 σ√n인 정규분포」에 근접한다.
모집단의 분포에 상관없이 표본이 크면 표본 평균들의 분포가 정규 분포로 수렴한다는 점을 이용하여 수학적 확률 판단이 가능해진다.
■ 엔트로피(entropy)에 대해 설명해주세요.
엔트로피(entropy)는 확률분포가 가지는 정보의 확신도 혹은 정보량을 수치로 표현한 것이다. 확률분포에서 특정한 값이 나올 확률이 높아지고 나머지 값의 확률은 낮아진다면 엔트로피가 작아진다. 빈대로 여러 가지 값이 나올 확률이 대부분 비슷한 경우에는 엔트로피가 높아진다.
■ 어떨 때 모수적 방법론을 쓸 수 있고, 어떨 때 비모수적 방법론을 쓸 수 있나요?
표본의 개수가 n>=30으로 충분히 크거나, 10=<n<30 이면서 정규성 검정에서 정규분포로 간주되는 연속형 자료의 경우 모수적 방법을 사용할 수 있으며, 그 외는 비모수적 방법을 사용한다.
일반적으로 비모수적 방법보다 모수적 방법을 선호하는 이유는 모수적 방법의 검정력이 다소 높고, 두 군 사이에 크기의 차이가 있는 경우 차이의 정도를 함께 제시해 줄 수 있는 장점 때문이다. 비모수적 방법은 검정력이 다소 떨어지고, 크기의 차이를 보여주지 못하는 대신에 표본수가 작은 경우이거나, 순위 척도인 경우를 비롯하여 숫자로 되어 있는 모든 경우에 적용할 수 있는 장점이 있다.
■ “likelihood”와 “probability”의 차이는 무엇일까요?
확률(Probability) : 어떤 시행(trial, experiment)에서 특정 결과(sample)가 나올 가능성. 즉, 시행 전 모든 경우의 수의 가능성은 정해져 있으며 그 총합은 1(100%)이다.
가능도(Likelihood) : 어떤 시행(trial, experiment)을 충분히 수행한 뒤 그 결과(sample)를 토대로 경우의 수의 가능성을 도출하는 것. 아무리 충분히 수행해도 어디까지나 추론(inference)이기 때문에 가능성의 합이 1이 되지 않을 수도 있다.
■ 통계에서 사용되는 bootstrap의 의미는 무엇인가요?
부트스트래핑(Bootstrapping)은 무작위 복원 추출을 사용하여 표집 분포를 추정하는 통계적 방법입니다. 확률 변수의 정확한 확률분포를 모르는 경우나 측정된 샘플이 부족한 경우에 사용합니다.
■ 베이지안과 프리퀀티스트간의 입장차이를 설명해주실 수 있나요?
빈도주의자들은 현재의 객관적인 사건으로 현상을 판단하지만, 베이지안은 과거의 사건이 현재 사건에 영향을 미친다고 생각합니다. 즉, 빈도주의자에게는 참된 확률값이 존재하지만, 베이지안은 참인 확률값은 없다고 생각하고, 확률값의 참된 분포가 있다고 생각합니다.
■ 검정력(statistical power)은 무엇일까요?
검정력은 대립가설이 사실일 때, 이를 사실로서 결정할 확률이다. 검정력이 90%라고 하면, 대립가설이 사실임에도 귀무가설을 채택할 확률(2종 오류, β error)의 확률은 10%이다.
■ 널값이 채우는 방법은?
1. 아무것도 하지 않기
: 일부 알고리즘(xgboost)은 결측 값을 고려해서 잘 학습한다. 그러나 처리하는 로직이 없는 알고리즘(sklearn의 LinearRegression)은 누락된 데이터 때문에 엉망진창이 된다. 그런 모델에는 데이터셋을 넣기 전에 누락된 데이터를 처리해야 한다.
2. 누락된 데이터 제거하기
: 중요한 정보를 가진 데이터를 잃을 위험이 있다. 상황에 따라 데이터 tuple을 제거하기도 하고 missing value가 많은 feature(column)를 제거하기도 한다.
3. 평균/중앙값으로 대체
: 숫자형 데이터에만 사용할 수 있다.
4. Most Frequent Value / Zero / Constant Imputation
: Most Frequent Value Imputation : 가장 빈번히 나온 값으로 대체한다. 이건 범주형 feature에도 잘 동작한다.
Zero Imputation : 말 그대로 0으로 대체한다.
Constant Imputation : 지정한 상수값으로 대체한다.
5. K-NN Imputation
: mean, median이나 most frequent 보다 정확할 때가 많다.(데이터셋에 따라 다르다.)
6. MICE(Multivariate Imputation by Chained Equation) Imputation
: 이 방식은 누락된 데이터를 여러 번 채우는 방식으로 작동한다.
7. Deep Learning을 이용한 Imputation / Datawig
8. Stochastic regression imputation
: 동일 데이터셋에 있는 관련된 다른 피쳐에서 missing value를 예측하는 것이다.
9. Extrapolation and Interpolation
: 1살 때부터 현재 나이까지의 키를 보고 앞으로 10년 후의 키를 예측하는 것은 extrapolation이다. 또 다른 예로는 한 달간의 주가 동향을 보고 내일의 주가를 예측하는 것이 extrapolation이다.
10. Hot-Deck imputation
: 관련된 비슷한 데이터 셋에서 랜덤 하게 선택한다.(비슷한 것 중 랜덤)
■ 아웃라이어의 판단하는 기준은 무엇인가요?
이상치란 대부분의 값들의 범위에서 크게 벗어난 값을 의미한다.
이상치를 판단하는 기준은 z-score, IQR(Interquantile Range), Isolation Forest, DBScan 방식들이 있다.
1. z-score
: 데이터가 평균으로부터 얼마의 표준 편차만큼 벗어나 있는지를 의미한다. 보통 절댓값을 기준으로 3을 초과하면 이상치로 분류한다.
2. IQR(Interquantile Range)
: 데이터의 분포가 정규 분포를 이루지 않거나 한쪽으로 치우친(skewed) 경우 사용한다. 이때 Q1-1.5?IQR보다 작거나 Q3+1.5?IQR보다 크면 이상치로 간주한다. 1.5 대신 다른 수를 곱할 수도 있다.
3. Isolation Forest
: 결정 트리 계열의 비지도 학습 알고리즘으로 이상치를 탐지하는 방식이다. High dimensional 데이터셋에서 이상치를 탐지할 때 효과적이다.
4. DBScan
: DBScan은 밀도 기반의 클러스터링 알고리즘으로 어떠한 클러스터에도 포함되지 않는 데이터를 표시해준다는 특징이 있다. 따라서 DBScan 방식을 통해 어떠한 클러스터에도 포함되지 않는 데이터를 이상치로 간주하는 방식이다.
■ Bias와 Variance의 차이는 무엇인가?
Bias란 데이터 내에 있는 모든 정보를 고려하지 않음으로 인해 지속적으로 잘못된 것들을 학습하는 경향을 의미한다.
Variance란 데이터 내에 있는 에러까지 모두 고려함으로 인해 실제 현상과 관련없는 것까지 학습하는 경향을 의미한다.
⇒ Bias(편향)가 높다는 것은 실측치와 예측치 간의 오차가 벌어진 것을 의미하며, Variance(분산)가 높다는 것은 예측의 범위가 높다는 것을 의미한다. 즉, Bias가 높다는 것은 과소적합(underfitting, 꾸준히 틀리는 상항)이며 Variance가 높다는 것은 과대 적합(Overfitting, 예측의 분포가 큰 상황)임을 의미한다. Bais와 Variance는 trade-off 관계
■ 로그 함수를 사용하는 이유는 무엇인가?
- 정규성을 높이고 분석(회귀분석 등)에서 정확한 값을 얻기 위함이다.
- 데이터 간 편차를 줄여 왜도1(skewness)와 첨도2(Kurtosis)를 줄일 수 있기 때문에 정규성이 높아진다.
- log의 역할은 큰 수를 같은 비율의 작은 수로 바꿔 주는 것이다.
- 데이터 간의 편차가 큰 경우에 로그를 취하면 의미 있는 결과를 얻을 가능성이 높아진다.
'면접' 카테고리의 다른 글
딥러닝 및 심화 내용 면접 질문&답변 (0) | 2023.07.18 |
---|---|
분석 및 머신러닝 면접 질문&답변 (0) | 2023.07.13 |
2021 하반기 경남은행 (0) | 2022.10.09 |
2021 상반기 우리은행 (0) | 2022.10.03 |
2021 상반기 삼화페인트 (0) | 2022.10.02 |