티스토리 뷰

ML - Generation

- 출생률(natality) 대한 데이터셋의 소개

완벽히 제어되는 세상이라면 모든 신생아/영아들은 건강 상태에 따라 적절한 의료 케어를 받을 있을

하지만 태어난 직후, 의료진의 부족 확인에 따른 대처 시간 소요 어려운 점이 있다

만일 태어나기 건강 상태를 예측한다면? 적절한 조치가 수월하게 이뤄질 것이다

Q. 아기들의 건강 상태를 태어나기 전에 예측할 있을까?

모델에 사용될 법한 Feature

  • 산모의 나이
  • 아기의 몸무게

-> 특정 문제의 해결은 특정 분야에 대한 지식 필요

 

 

- BigQuery 플랫폼에서는 출생률 데이터셋을 개방하여 제공함

아래 링크의 out[3]: 나타나는 Scatter Plot 보면 무수히 많은 점들이 보여진다

출처  http://www.becomingadatascientist.com 

출처 : http://www.becomingadatascientist.com/wp-content/uploads/2015/10/datalab/First%20Datalab%20Project%20-%20Natality%201980-1984%20Google%20Charts.html

그래프를 통해 산모 나이와 아가의 몸무게는 미세하게 서로 증가하는 관계를 갖는 것을 있다

 

 

일단 선을 하나 그어보면 선이 제일 좋은 선인지 어떻게 있나?, 다른 선을 그어도 마찬가지임

최소평방회귀의 문제점은 특정 크기의 데이터셋에 대해서만 작동함

엄청나게 데이터셋을 다뤄야하는 경우 분석학적인 방법으로 최고의 모델을 찾아내는 것은 비현실적, 대신에 경사하강법이라는 것을 사용

 

경사하강법이란 최고/최적의 파라메터 값의 조합을 찾아나가는 기법

선형모델의 파라메터는 개로 기울기(가중치) bias 존재

파라메터 값의 조합을 다른 조합과 비교하기 위해서는 조합을 비교 측정하기 위한 어떤 수단이 필요

사용되는 측정 수단으로 손실함수라는 것이 사용

 

 

도움이 되셨다면.. Buy me a coffeeBuy me a coffee
댓글
댓글쓰기 폼