Machine Learning Notation(Shan-Hung Wu) 번역

Related to: Machine Learning

주의사항

가끔가다 모르는 수식이나 표현이 있었는데, 참조하면 좋겠다고 생각하여 가져와 한글로 정리합니다.

원문은 Shan-Hung Wu라는 분이 작성하신 자료이며 본인의 수업에서 사용하는 notation을 정리한 자료로 보입니다.

따라서 아래 기호들의 의미는 절대적인 기준이 아니므로, 이 점 유의하여 참조하여 주시기 바랍니다.

필요없다고 판단한 부분은 임의로 제외하였으니, 모든 내용을 보고 싶으신 분들은 원본 pdf를 참조하여 주시기 바랍니다.

Numbers & Arrays

$I_{n}$ : n x n 단위 행렬(identity matrix)

$D$ : diagonal matrix

$d ia g (a)$ : vector a의 요소를 주 대각선 요소로 하는 diagonal matrix

Indexing

$a_{i}$ : vector a의 i번째 element(1부터 indexing 했을 때)

$a_{- i}$ : vector a의 i번째 element를 제외한 모든 element

$A_{i, j}$ : matrix A의 (i, j) element(i : row, j : column)

Functions

$f : A \to B$ : 영역(domain) A와 범위(range) B를 갖는 함수 f

$f \circ g$ : 함수 f와 함수 g의 합성 함수

$f (x; θ)$ : $θ$ 로 매개변수화 된 x의 함수( $θ$ 는 때때로 생략됩니다)

$f (x, θ)$ 와 수학적으로 차이는 없으나, 중요도를 표현한 것입니다.
위 식에서 theta는 단순히 함수 f(x)를 만들기 위해 사용한 변수이며 관심있는 값은 x라고 표현해 준 것입니다.
이
링크를 들어가보시면 더 좋은 설명을 볼 수 있습니다.

$ln x$ : x의 자연로그

$σ (x)$ : Logistic sigmoid 함수 $= \frac{1}{1 + e ^{- x}} = \frac{e ^{x}}{e ^{x} + 1}$

$ζ (x)$ : Softplus 함수 $= ln (1 + exp (x))$

Relu 함수에 부드럽게 근사한 함수입니다.

이 링크를 들어가보시면 더 자세한 설명을 볼 수 있습니다.

$∥ x ∥_{p}$ : $L^{p}$ norm of x

$x^{+}$ : x의 양수 part

$1 (x; co n d)$ : indicator 함수, condition이 true이면 x = 1, false이면 x = 0

$g [f; x]$ : f를 f(x)에 mapping하는 함수

함수 f를 f(x)로 사용할 수 있도록 mapping해주는 함수입니다.
예를들어 f가 단일 element에 대한 함수라고 했을 때, vector x에 f를 사용하려면, x의 각 element에 element-wise하게 f를 각각 적용해야 합니다. 여기서 g는 이 mapping을 해주는 함수입니다.

Calculus

$\frac{\partial f}{\partial x _{i}} (a)$ : 입력 a의 요소 x_i에 대한 f의 편미분

$R^{n} \to R$ x_i에 대한 편미분이므로 차원이 유지되지 않습니다.

$\nabla f (a)$ : 입력 a에 대한 gradient

$R^{n} \to R$ 편미분이 사용되므로 차원이 유지되지 않습니다.

Linear Algebra

$A^{T}$ : A의 Transpose matrix

$A^{†}$ : 무어-펜로즈 유사 역행렬(Moore-Penrose pseudo-inverse matrix)

$A ⊙ B$ : A와 B의 Element-wise 연산 = Hadamard product

$det (A)$ : A의 Determinant

$t r (A)$ : A의 대각 합(trace) = Trace of A

$e^{(i)}$ : i번째 표준 기저 vector(one-hot vector) = standard basis vector

Probability & Info. Theory

$a ⊥ b$ : 확률 변수 a와 b는 독립

$a ⊥ b ∣ c$ : given c에 의해 조건부로 a와 b는 독립

$P_{a} (a)$ : 이산 확률 변수 a에 대한 확률 질량 함수

$p_{a} (a)$ : 연속 확률 변수 a에 대한 확률 밀도 함수

$P (θ)$ : Theta로 Pameterized된 확률 분포

$N (μ, σ^{2})$ : 평균이 mu고 표준편차가 sigma인 gaussian 분포

$x \sim P (θ)$ : 확률변수 x는 분포는 P를 갖는다

$E_{x \sim P} [f (x)]$ : P에 대한 f(x)의 기대

$Va r [f (x)]$ : f(x)의 분산

$C o v [f (x), g (x)]$ : f(x)와 g(x)의 공분산

$H (x)$ : 확률변수 x에 대한 shannon entropy

$D_{K L} (P ∣∣ Q)$ : 분포 Q로의 KL Divergence