Logistic Regression

The model is

h (x) = θ (w^{T} x)

Then the training data is

{(x_{1}, y_{1}), \dots, (x_{N}, y_{N})}, x_{j} \in R^{d + 1}, y_{j} \in {- 1, 1}

For objective function, We get the likelihood of $(x_{j}, y_{j})$ (trust me):

P (y_{j} ∣ x_{j}) = θ (y_{j} w^{T} x_{j})

Then we do maximum likelihood estimation…

L (w) = j = 1 \prod N P (y_{j} ∣ x_{j}) = j = 1 \prod N θ (y_{j} w^{T} x_{j})

min E (w) = - \frac{1}{N} ln (L (w)) = - \frac{1}{N} ln (j = 1 \prod N θ (y_{j} w^{T} x_{j})) = \frac{1}{N} j = 1 \sum N ln (\frac{1}{θ ( y _{j} w ^{T} x _{j} )}) = \frac{1}{N} j = 1 \sum N ln (1 + e^{- y_{n} w^{T} x_{j}})

Then we differentiate wrt $w$ .

▽ E = - \frac{1}{N} j = 1 \sum N \frac{y _{j} x _{j}}{1 + e ^{y_{j} w (k)^{T} x_{j}}}

And so, the learning algorithm is

w (k + 1) = w (k) - ρ_{k} ▽ E

Messy Notes