4기(20200711) 39

소프트맥스 회귀와 클러스터링

소프트맥스 회귀 소프트맥스 회귀는 3개 이상의 다중클래스 분류에서 주로 사용된다. 참고로 앞서 공부했던 로지스틱 회귀는 이진 분류기에서 많이 사용된다. 소프트 맥스는 다중 클래스 문제의 각 클래스에 소수 확률을 할당해준다. 이 때 소소 확률의 합은 1이다. 소프트맥스 회귀의 가설은 다음과 같다. x1, x2, x3의 값을 3, 4, 1을 입력했을 때 이것들을 소프트맥스 회귀식을 이용하면 각 값들의 차이가 확연하게 드러난다. 또한 위 그래프를 보면 값이 클수록 확률값도 크게 나타난다. 소프트맥스 회귀식을 통해 도출해낸 s1, s2, s3의 총 합은 1이다. 소프트맥스 함수는 이와 같은 형태로 출력된다. 분류하고자 하는 클래스가 k개일때, k차원의 벡터를 입력받아서 모든 벡터 원소의 값을 0과 1 사이의값으..

4기(20200711)/1팀 2020.07.25

소프트맥스 회귀와 군집분석

발표자 : 김연주 소프트맥스 회귀 소프트맥스 회귀에 대해 알아보기 전에 로지스틱 함수에 대해 명확히 아는 것이 도움이 되기 때문에 먼저 로지스틱 회귀에 대해 간단히 알아보겠다. 1. 로지스틱 회귀 로지스틱 회귀에서는 Z의 값을 WX + B로 둔 뒤 이 Z를 sigmoid함수에 대입힌다. sigmoid함수는 예측값을 0에서 1사이의 값으로 만들어 주기 때문에 만약 이 예측값이 0.5보다 크면 class 1으로, 작으면 class 2로 분류된다. 아래의 그림에선 예측값이 0.75로, 0.5보다 크기 때문에 class 1으로 분류되었다. 그렇다면 3개 이상의 클래스로 분류하는 소프트맥스 회귀에서는 어떤 과정을 거쳐 분류하게 되는지 알아보자. 2. 소프트맥스 회귀 소프트맥스 회귀는 이진 분류가 아닌 여러 개의 ..

4기(20200711)/2팀 2020.07.25

라즈베리파이를 이용한 Auto Driving

주제변경 1주동안 팀워들끼리 고민한 결과, 수치예측은 상당히 어려운 주제라 생각되어 자율주행 자동차로 주제를 바꿨다(근데 주식보다 어려워진 느낌...). 저번학기 드론 주행의 연장선상이라 생각하면 될 것 같다. 훈련환경 아무 훈련 없이 바로 모델을 훈련시키는 것은 너무 어려울 것 같아, Airsim에서 Pre-training이후 실제 모델을 제작할 것 같다. 라즈베리파이를 통해 이미지 인식과 강화학습 에이전트를 돌리게 될텐데, 실제 라즈베리파이의 연산이 부족하지 않을지 염려스러운 부분도 있다. 다만 이부분은 실제로 해봐야 아는 부분이라 일단 프로젝트는 진행하기로 했다. 사용할 알고리즘 -DQN -Stereo RCNN 구글 딥마인드가 개발한 알고리즘으로 해당 알고리즘의 논문을 바탕으로 간략하게 설명해보자면..

국토교통 빅데이터 온라인 해커톤 경진대회

작성자 : 최웅준 지금 현실적으로 참여할 수 있는 대회가 2개 있습니다. 저희 조는 투표를 통해서 국토교통 빅데이터 온라인 해커톤 경진대회에 참가하기로 했습니다. 1. 주제 및 배경 - 국토교통 데이터와 코로나 데이터 등을 융합분석하여, 국민의 안전한 이동을 위한 새로운 통찰과 창의적 아이디어 도출 - 국토교통 데이터 활용 저변을 넓히고 국민적 관심도 제고 - 교통빅데이터 플랫폼을 통한 데이터 이용 활성화 2. 주최/주관/운영 - 주최 : 국토교통부 - 주관 : 한국도로공사, 한국철도공사, 한국교통안전공단, 한국교통연구원 - 데이터 협조 : KT - 운영 : DACON 3. 참가대상 - 데이터 활용 능력과 기획력으로 새로운 문제를 해결하려는 열정을 가진 대한민국 국민이면 누구나 (외국인 참가자는 심사 대..

수학 스터디 [확률과 통계] [확률의 naive definition][표본추출][birthday problem] [포함배제 원리]

수학팀:김정민 박형준 최웅준 구예인 확률의 naïve 한 정의 각각이 일어날 가능성이 모두 같다고 한다면 특정 사건에 대한 확률을 구할 때 단순히 몇 번 발생하는지 세서 전체로 나누면 되는것 ==>naive definition 만족 시켜야할 조건 - 모든 사건이 발생할 확률은 같다 - 유한한 표본공간 셈 원리(Counting Principle) 곱의 법칙: 발생 가능한 경우의 수가 n1,n2,...,nr 가지인 1,2,...r 번의 시행에서 발생 가능한 모든 경우의 수는 n1 x n2 x...x nr 이다. 이항계수(Binomial Coefficient): Non-naïve definition of probability Birthday Problem k가 몇 명 이상이어야 같은 생일을 가진 사람들이 있을..

선형회귀&로지스틱 회귀

선형 회귀는 종속변수(y)와 독립변수(x)와의 선형상관관계를 모델링 하는 분석기법이다. 변수가 하나일 경우에는 단순 선형 회귀, 변수가 둘 이상 여러개일 경우에는 다중 선형 회귀라고 한다. 선형회귀는 선형 예측 함수를 사용하여 회귀식을 모델링하고 아직 알려지지 않은 사건에 대해 기존에 얻은 데이터들을 통해 추정해 볼 수 있다. 이를 더 쉽게 이해하기 위해 선형회귀의 예시를 들어보겠다. 시간에 따른 방문자수가 아래의 표대로 주어졌다고 보면 시간 방문자 수 1 2 2 7 3 10 4 8 5 13 1 5 우리는 이러한 그래프분포를 생각해볼 수 있다. 5시간 이후에 방문하는 방문자 수를 제일 정확하게 예측하기 위해서는 그래프 분포 점들을 고르게 지나가는 직선이어야만 할 것이다. 그러기 위해 우리는 하나의 가설을..

4기(20200711)/2팀 2020.07.18

[지도 학습] Linear Regression 과 Logistic Regression ( Logistic Regression에서 cross entropy를 사용하는 이유 )

1. Linear Regression 1) 개념 - 지도 학습(supervised learning)의 한 종류 - 학습 데이터(training data set)를 이용한 학습(training) 과정을 거쳐 데이터에 가장 잘 맞는 선형 모델의 매개변수(parameter)를 찾아 예측하는데 여기서 예측의 범위는 연속적인 범위를 가집니다. 다시 말해, 종속변수 y와 한 개 이상의 독립변수 x와의 선형 상관관계를 모델링하는 회귀분석 기법입니다. 한 개의 독립 변수(또는 설명 변수)에 기반한 경우에는 단순 선형 회귀, 둘 이상의 독립 변수에 기반한 경우에는 다중 선형 회귀라고 합니다. 실제로 많은 데이터들이 아래의 그래프와 같이 선형(linear)으로 분포하는 경향이 있기 때문에 선형 회귀를 통해 예측이 가능합니..

4기(20200711)/1팀 2020.07.17

강화학습과 RNN을 이용한 주식 프로그램 개요

-발표자 조민성 주식예측 머신러닝을 공부하다보면, 주식가격 예측에 관한 글들을 많이 보게 됩니다. ANN의 꽃이라고도 불리는 RNN 기법은 Linear Regression으로 해결하지 못했던 시퀀스데이터 예측을 가능케 하는데요, 이번 프로젝트에서는 단순 시세 예측이 아닌, 매수/매도 프로그램을 만들어볼 계획입니다. NN Architecture 갑자기 왜 강화학습이 나왔는지 의아해 하실 수도 있을 것 같습니다. 그 이유는, 매수 / 매도때문입니다. 주식 시세는 RNN만으로도 해결 가능합니다. 지금도 구글에 검색하면, RNN으로 주식 시세를 예측한 글들이 상당히 많이 보이죠. 하지만, RNN만으로는 매크로를 만들기가 힘듦니다. 왜냐면 RNN은 수치 예측을 할 뿐, 행동을 결정하지 못하기때문입니다. 예를 들어..

수학 스터디 활동 계획

참여자:김정민 박형준 최웅준 구예인 확률론은 기본적으로 수학, 사회학, 경제학, 공학 모두에서 사용하는 수학의 한 분야입니다. 때문에 자연계는 물론 인문사회계의 학생에게도 가장 중요한 수학과목의 하나로 여겨집니다. 우리 사회의 여러 문제를 수학적으로 모델링해서 해결 할 수 있습니다. 특히 많은 기계학습 알고리즘, 딥러닝을 이해하고 사용하기 위해서 '확률'에 대한 이해는 필수적입니다. 기계가 결정하는 모든 것은 확률에 기반하고 최적화 알고리즘와 소프트맥스 등 비롯한 많은 부분에서 확률론이 사용됩니다. 하버드 대학에서 제공하는 본 강좌는 조건부 확률, 공분산과 상관계수, 마르코프 체인 등 확률 기초를 배울 수 있습니다. 선형대수는 기본적으로 과학과 공학 모두에서 사용하는 수학의 한 분야입니다. 선형대수학 없..