[ADsP] 오답노트 + 개념 정리 – 16회 기출

오늘 첫날이라 벌써 몇년전에 들었던 데이터과학 수업을 떠올리면서 간단하게 요약집으로 복습하고, 나머지 중요표시 된 내용만 공부하고 나서 바로 18년도 16회 기출문제를 풀었다.
1과목과 2과목은 난이도가 어려운것 같지 않고, 1과목에서 3문제, 2과목에서 2문제, 3과목에서 13개 틀렸다.
3과목이 문제수도 많긴 하지만, 워낙 공부한지 시간도 많이 흘러서 하나씩 복습할 필요가 있는 것 같다.
일단은 뭐 과락 나온 과목도 없고, 첫 기출연습에 64점이면 나쁘진 않은 것 같은데, 다음번 기출을 또 풀어봐야겠다.

기출이 3개정도 남았고, 예상문제들이 남아있는데, 내일 기출문제만 다 풀어보고 80점 이상이 나오면 ADsP는 잠시 접어두고 클라우드 솔루션 아키텍트나 SQLD 문제를 좀 풀어봐야겠다.
클라우드는 아직 접수할 엄두가 안나서 계속 공부중이다.

오답노트 시작


과목: 데이터의 이해

문제 : 빅데이터 활용에 필요한 3요소
고른답 : 인력, 데이터, 알고리즘
정답 : 데이터, 기술, 인력
틀린 이유 : 알고리즘과 기술을 헷갈렸다.

문제 : 빅데이터의 위기 요인과 해결방안 매칭
고른답 : 사생활 침해 -> 동의제를 책임제로 전환, 책임훼손의 원칙 -> 알고리즘 허용, 데이터의 오용 -> 결과 기반 책임 원칙
정답 : 책임훼손의 원칙 -> 알고리즘 허용, 데이터의 오용 -> 결과 기반 책임 원칙
틀린 이유 : 동의제를 책임제로 전환한다는 보기를 책임훼손의 원칙과 동일한 것으로 착각했다..

문제 : 어떤 산업의 데이터의 일차원적인 분석 애플리케이션 사례인가? ( 트레이딩, 공급, 수요 예측)
고른답 : 제조업
정답 : 에너지
틀린 이유 : 중요하지 않은 부분이라 생각해서 그냥 넘어갔다. -정리 완료


과목: 데이터 분석 기획

문제 : 빅데이터 분석 방법론중 추가적인 데이터 확보가 필요한 경우 반복적인 피드백을 수행하는 구간
고른답 : 분석 기획~데이터 준비
정답 : 데이터 준비~ 데이터 분석
틀린 이유: 공부를 안했다. – 정리 완료

문졔 : KDD에서 데이터셋 정제작업과 유사한 CRISP-DM 프로세스 단계
정답 : 데이터 준비
틀린 이유: CRISP-DM KDD를 안외웠다. – 머리에 안들어온다.


과목: 데이터 분석

문제: 버블 상관분석 결과 분석
틀린이유: 버블상관분석을 읽는 법을 모른다. – 공부해야함

문제: 의사결정나무에 대한 설명 중 틀린것?
고른답: 가지치기란 최종마디가 너무 많으면 모형이 과대적합된 상태로 현실문제에 적용할 수 있는 적절한 규칙이 나오지 않게 된다.
정답: 의사결정나무를 위한 알고리즘은 CHAID, CART, ID3, C4.5 가 있으며 상향식 접근 방법을 사용한다.
틀린이유: 가지치기란 이라고 되어있어 보기문장이 어색하다고 생각해서 그냥 2번을 골라버렸다. 3번을 제대로 읽었으면 맞았을 수도.
CHAID, CART, C5 알고리즘 이다.

문제: Lasso 회귀분석에 대한 설명 중 틀린것
고른답: 몰라서 찍었다.
정답 : Lasso Regression 은 L2 norm을 사용해서 패널티를 주는 방식이다.
틀린이유: 개념을 잘 몰랐다. 이참에 정리

정규화 선형 회귀
Ridge 회귀 = MSE를 최소화 하면서 L2 norm을 최소화 하는 기법
Lasso회귀 = 릿지와 동일하지만 L1 norm 을 제약한다. 가중치의 절대값의 합을 최소화하는것을 추가적인 제약조건으로 한다.
엘라스틱넷 회귀모형 = 제약식에 norm 모두를 쓰는 기법


릿지회귀 = 변수선택 불가능, 변수간 상관관계가 높아도 성능이 좋음
라소회귀 = 변수선택 가능, 변수간 상관관계가 높으면 성능이 떨어짐
엘라스틱넷 = 변수 간 상관관계를 반영한 정규화

문제 : 가설검정에 대한 설명중 적절하지 않은 것
고른답 : 귀무가설이 옳은데도 귀무가설을 기각하게 되는 오류를 제 1종 오류라고 한다.
정답 : 비모수추론은 가정된 분포가 없으므로 아무런 가정을 하지 않고 검정을 실시해 모수를 추정한다.
틀린이유: 제1종 오류와 제2종오류를 헷갈렸다. – 정리완료

1종 오류: 귀무가설 H0가 옳은데도 불가하고 H0를 기각하게 되는 오류
2종오류: 구무가설 H0가 옳지 않은데도 H0를 채택하는 오류

모수적 검정 – 검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정하에 검정통계량과 검정 통계량의 분포를 유도해 검정을 실시하는 것.
비모수적 검정 – 자료가 추출된 모집단의 분포에 대해 아무 제약을 가하지 않고 검정을 실시하는 검정방법. 분포의 형태가 동일하다는 가정이나 동일하지 않다는 가정을 설정한다.

문제: K-평균 군집에서 단점을 해결하기 위한 방안은?
정답: 이상값 자료에 민감한 k-평균 군집의 단점을 보완하기 위해 군집을 형성하는 매 단계마다 평균 대신 중앙값을 이용하는 k-중앙강 군집을 사용한다.
틀린이유: K-means를 잘 몰랐다. – 나중에 다시 공부

문제: 분해 시계열에 대한 설명 중 적절하지 않은 것은?
정답 : 순환요인 : 물가 상승률, 급격한 인구 증가 등의 이유로 인하여 주기를 가지고 변화 하는 자료
틀린이유: 분해 시계열 공부 X
순환요인은 알려지지 않은 주기를 가지고 변화할때를 말한다.

문제: 연관규칙의 향상도에 대한 문제
내답:0.75
정답: 1.5
틀린이유: 향상도랑 신뢰도랑 헷갈려서 신뢰도를 계산했다.

지지도 : A와 B가 전체 거래중 동시에 포함된 거래수 = 0.5
신뢰도 : A를 포함하는 거래중 A와 B가 동시에 거래되는 비중 =0.75
향상도: 신뢰도 / 전체 상품중 B가 거래된 비율 =0.75/0.5 = 1.5

문제 : 결측값 처리에 대한 imputation에 관한 설명으로 틀린것은?
내답 : 단순확률 대치법은 평균대치법에서 추정량 표준오차의 과소추정 문제를 보완하고자 고안된 방법이다.
정답 : 다중대치법은 추정량의 과소추정이나 계산의 난해성 문제를 보완하는 방법이다.
틀린이유 : 보기를 잘 안읽은 것 같다. 단순확률 대치법 말고 다른 대치법이 하나 더있다고 생각했다. – 이걸 다중대치법이라고 생각했던 것 같다.

다중대치법은 추정량 표준오차의 과소추정 또는 계산의 난해성의 문제를 여전히 가지고 있다.

문제: 로지스틱 회귀모형에서 exp(x1)의 의미는 나머지 변수가 주어질 때 x1이 한 단위 증가할 때마다 성공(Y=1)의 (빈칸) 가 몇 배 증가하는지를 나타낸다. (빈칸에 들어가는 내용)
정답: 오즈
틀린 이유: 아예 몰랐다.

로지스틱 회귀모형
반응변수가 범주형인 경우에 적용되는 회귀분석 모형 반응 변수가 두가지 범주로 되어있을 때 종속변수와 독립변수 사시의 관계식을 이용해서 집단을 분류한다.

오즈비 = 성공률 / 실패율 = Pi(1-Pi)

문제 : 시계열 자료에서 모든 시점에 대해 일정한 평균을 가지는 것을 어떤 특성이라고 하는가?
정답: 정상성
틀린이유 : 시계열 공부를 안해서 ㅋㅋ

문제: 군집분석에 중요한 지표로서, 거리가 가까울수록 높고 멀수록 낮은 지표이자 완벽히 분리된 경우 1이 되는 지표는?
정답: 실루엣
틀린이유 : 군집분석 복습 .. 책에 없는 내용이었따.