목록전체 글 (222)
꺼내먹는지식 준

Naive Bayes Model은 Generative Model 이고 Logistic Regression 은 Discrimitive Model 이다. Generative Model은 GAN 과 Diffusion 으로 접해봤는데 Naive Bayes 가 Generative 라니 어떤 의미인지 직관적으로 와닿지 않았다. 이에 따라 Generative Model 과 Discrimitive Model 을 기본개념부터 비교해보며 정리해본다. Discriminative Model & Generative Model Discriminative Model 해당 모델들은 training data 중 클래스들을 구별하는데 도움이 되는 unique features 들만 학습한다. 이러한 특성으로 인해 주로 classifica..

지금까지 Traditional 한 기법인 Decision Tree, Linear Regression, Rule base 기법 등을 알아보았다. 그리고, 가장 최근 글에서는 conditional independence 를 가정한 Naive Bayes Classifier 를 알아보았다. Navie Bayes Classifier 는 MAP 기법으로 간단하게 구현된다. 하지만 Navie Bayes Classifier 는 Naive 한 가정으로 인해 feature 간의 interaction을 전혀 반영하지 못한다는 점에서 문제가 있었다. 이러한 문제를 탈피한 여러 방법론들을 앞으로 알아보려고 한다. 그 중, 가장 기본적인 것 부터 알아보자. Logistic Regression Logisitc Regression ..

Gradient Descent 에 대해 이론적으로 살펴볼 기회는 정말 많다. 하지만, 이게 정말 잘 동작하는지 눈으로 직접 비교하며 확인할 기회는 잘 없다. 그런 의미에서 간단하게 정리해놓는다. 본 내용은 모두 카이스트 문일철 교수님의 수업을 기반으로 하고 있음을 밝힌다. 다음의 Rosenbrock 함수가 있다. 워낙 간단한 함수라 미분으로 극점을 찾을 수 있다. 편미분 결과 global minimum = 0 at (1,1) 을 알 수 있다. 비교를 위해 위 함수를 approximation 인 gradient descent 방법을 통해 알아낼 수 있을지 확인해 보자. 먼저 초기 parameter 값을 정한다. x0=(x01,x02)=(−1.3,0.9) derivative 의 반대방..

UX 를 벗어난 영역에서 공부를 하다보니 소통 시 용어부터 부족하다는 것을 점점 깨닫게 된다. 이에 따라 오늘부터 UX 용어들을 follow up 하고 정리하는 시간을 종종 가지려한다. 넛지 (Nudge) 행동경제학에서 파생 된 용어로 '어떤 행동을 하도록 옆구리를 슬쩍 찌르는' 용어에서 파생되었다. 넛지를 활용한 기획을 통해 인간의 행동을 더 선한 쪽으로 유도하자는 선택 설계의 의미이다. [넛지 사용의 세가지 원칙] 1. 모든 넛지는 투명해야 하고 절대로 상대방을 오도해서는 안 된다. 2. 넛지에 참여하고 싶지 않다면 쉽게 빠져나올 수 있어야 하고, 마우스 클릭 한번만으로 그럴 수 있다면 가장 좋다. 3. 넛지를 통해 유도된 행동이 그 영향을 받은 사람들의 삶을 더 낫게 만들 수 있다고 믿을 만한 충분..

Optimal Classification Concept Navie Bayes classifier Supervised Learning supervised learning: 데이터와 레이블이 주어진 상태에서 학습을 진행 많은 경우 데이터와 동시에 레이블이 주어진다. 이 경우 레이블이 존재하므로 마치 주입식 학습처럼 데이터에 따른 레이블의 대세를 학습한다고 이해하면 좋다. 보통 Classificaion 과 Regression 문제로 많이 나뉘는데, 현재 linear regression 을 한번 다루기도 했고 보통 classificaion 을 할줄 알면 regression은 따라오므로 본글은 classification을 위주로 내용이 전개된다. Optimal Classification Classificaion:..

문제 설명 개발자를 희망하는 죠르디가 카카오에 면접을 보러 왔습니다. 코로나 바이러스 감염 예방을 위해 응시자들은 거리를 둬서 대기를 해야하는데 개발 직군 면접인 만큼 아래와 같은 규칙으로 대기실에 거리를 두고 앉도록 안내하고 있습니다. 대기실은 5개이며, 각 대기실은 5x5 크기입니다. 거리두기를 위하여 응시자들 끼리는 맨해튼 거리1가 2 이하로 앉지 말아 주세요. 단 응시자가 앉아있는 자리 사이가 파티션으로 막혀 있을 경우에는 허용합니다. 예를 들어, 위 그림처럼 자리 사이에 파티션이 존재한다면 맨해튼 거리가 2여도 거리두기를 지킨 것입니다. 위 그림처럼 파티션을 사이에 두고 앉은 경우도 거리두기를 지킨 것입니다. 위 그림처럼 자리 사이가 맨해튼 거리 2이고 사이에 빈 테이블이 있는 경우는 거리두기를..

머신러닝은 궁극적으로 우리가 찾고자 하는 함수를 근사하는 것이다. Linear Regression 은 그 중 아주 간단하고, 강력한 방법론 중 하나이다. 이름 그대로 linear 한 형태로 함수를 근사한다. 우리의 가설은 아래와 같다. h:ˆf(x;θ)=θ0+∑ni=1θixi=∑ni=0θixi n 은 feature value 의 개수이다. linear를 유지해야 하기 때문에 x 는 건들지 않고 θ 값을 잘 조정하여 함수를 근사한다. (x를 건들지 않고에 대해 이해가 잘 안간다면 일단 x 는 관측 데이터라 생각만 하고 넘어가자.) 그 전에 공식을 정리해보자. $ \the..

현실 세계에서는 rule base 가 완벽하게 동작하기 어렵다. 모든 결정이 consistent 한 것이 아니다. (오늘은 비가 오지만 나가고 싶을 수 있다.) error 가 관측치에 있기도 하다. 모든 정보를 다 보기도 어렵다. (놓친 feature) 그렇다면 우선, error 가 있는 경우에 통계적 기법을 가미해서 learning 을 할 수 있는 방법은 무엇이 있을까? Decision Tree 를 통해 가능하다. 사전 version space를 통해 만들어진 결과물로 decision tree 를 만들 수 있다. http://archive.ics.uci.edu/ml/datasets/Credit+Approval UCI Machine Learning Repository: Credit Approval Dat..

머신러닝이란? 경험에 의해 배우는 프로그램 경험에 의해 특정 테스크의 수행능력이 점차 향상 된다. 즉, 더 많은 경험이 쌓이면 (혹은 더 많은 사전 지식) 머신러닝의 성능이 점차 좋아질 것이라 기대된다. Rule Based Learning 이상적인 세상 가정 관측 에러 X 모든 것은 일관적 관측 아래의 종류만으로 결과를 완벽하게 설명 가능 Sky Temp Humid Wind Water Forecast EnjoySpt Sunny Warm Normal Strong Warm Same Yes Sunny Warm High Strong Warm Same Yes Rainy Cold High Strong Warm Change No Sunny Warm High Strong Cool Change Yes Function A..