알파트로스

[ML4AM] 3.Codependence (2) Correlation Based (Distance) Metrics 본문

Machine Learning for Asset Managers

[ML4AM] 3.Codependence (2) Correlation Based (Distance) Metrics

알파트로스 2024. 7. 2. 02:27

2장에서 살펴봤듯 correlation은 어쨌든 매우 유용한 measure of linear codependence이다 하지만 metric이 아니다

  • 비음수성(nonnegativity) 과 삼각 부등식(triangle inequality) 조건을 만족하지 않기 때문
    상관 계수는 -1에서 1 사이의 값을 가진다. 따라서 비음수성 조건 \(\rho[X, Y] \geq 0\)을 만족하지 않는다
    상관 계수는 삼각 부등식 \(\rho[X, Z] \leq \rho[X, Y] + \rho[Y, Z]\)을 만족하지 않는다.

non-metric 측정 방법을 사용하여 데이터를 분석하면 일관되지 않은 결과를 초래할 수 있다

  • 예시: 상관 계수 (0.9, 1.0)와 (0.1, 0.2)의 차이는 동일하지만, 전자는 후자보다 더 큰 연관성 차이를 포함한다
      - \((0.9, 1.0)\)의 차이: 0.1
      - \((0.1, 0.2)\)의 차이: 0.1
      - 그러나 \((0.9, 1.0)\)의 경우 두 값 간의 연관성이 훨씬 크다

따라서 상관 계수만으로는 직관적인 토폴로지(topology)를 유도하기 어렵다. 이를 해결하기 위해 상관 계수를 기반으로 distance metric을 정의한다


1. Standard Angular Distance  

\[
d_\rho[X, Y] = \sqrt{\frac{1}{2}(1 - \rho[X, Y])}
\]
  • 정규화됨(normalized)


    \(d_\rho[X, Y]\)는 \([0, 1]\) 범위 내에 있다. 이는 \(\rho[X, Y]\)가 \([-1, 1]\) 범위 내에 있기 때문이다

  • Metric 조건을 만족함
    이 메트릭은 비음수성, 대칭성(symmetry), 삼각 부등식을 모두 만족한다

  • 음의 상관 관계를 더 먼 거리로 간주
    두 변수 \(X\)와 \(Y\)가 있다고 가정할 때:
    - \(\rho[X, Y] = 0.8\)일 경우, \(d_\rho[X, Y] = \sqrt{\frac{1}{2}(1 - 0.8)} = \sqrt{0.1} \approx 0.316\)
    - \(\rho[X, Y] = -0.8\)일 경우, \(d_\rho[X, Y] = \sqrt{\frac{1}{2}(1 - (-0.8))} = \sqrt{0.9} \approx 0.949\)
    • 포트폴리오 최적화
      음의 상관 관계를 갖는 자산들은 서로 보완적인 역할을 하여 포트폴리오의 전체 위험을 줄이는 데 기여할 수 있다. 이 경우, 음의 상관 관계를 더 먼 거리로 간주하면, 위험을 효과적으로 분산시키는 자산 조합을 찾는 데 도움이 된다
    • clustering
      데이터 군집화에서 음의 상관 관계를 갖는 데이터 포인트들을 더 먼 거리로 간주함으로써, 데이터의 구조적 특성을 더 잘 반영할 수 있다.


2. Absolute Angular Distance  

\[
d'_\rho[X, Y] = \sqrt{\frac{1}{2}(1 - |\rho[X, Y]|)}
\]
  • 절대값 사용


    상관 계수의 절대값 \(|\rho[X, Y]|\)를 사용하여, 양의 상관 관계와 음의 상관 관계를 동일하게 처리한다. 

  • 음의 상관 관계를  유사하다고 간주
    두 변수 \(X\)와 \(Y\)가 있다고 가정할 때:
    - \(\rho[X, Y] = 0.8\)일 경우, \(d'_\rho[X, Y] = \sqrt{\frac{1}{2}(1 - 0.8)} = \sqrt{0.1} \approx 0.316\)
    - \(\rho[X, Y] = -0.8\)일 경우, \(d'_\rho[X, Y] = \sqrt{\frac{1}{2}(1 - 0.8)} = \sqrt{0.1} \approx 0.316\)
    • 롱-숏 포트폴리오
      이때는 음의 상관 관계를 갖는 증권을 유사하다고 간주하는 것이 유리할 수 있다. 

 

 

3. Squared Angular Distance  (TODO)

 

 


Define or Applying(TODO)

 

  • Defining Metrics Using Correlation Coefficients
    상관 계수 자체를 사용하여 메트릭을 정의한다. 예를 들어, 앞서 설명한 절대값 상관 관계를 기반으로 한 거리 메트릭
    \[
    d_{|\rho|}[X, Y] = \sqrt{\frac{1}{2}(1 - |\rho[X, Y]|)}
    \]
    • 장점
      상관 계수를 직접 사용하여 일관된 거리 메트릭을 정의함으로써, 상관 계수를 기반으로 하는 모든 계산이 메트릭의 성질을 가진다.
      메트릭의 특성을 만족하므로, 삼각 부등식과 같은 메트릭의 기본 성질들을 따른다.
  • Applying Metrics to Correlation Coefficients
    관찰된 상관 계수에 메트릭을 적용하여 거리를 계산한다. 예를 들어, 유클리드 거리(Euclidean distance)를 사용하여 상관 계수 간의 거리를 계산할 수 있다. 이 방법은 상관 계수 자체를 직접 군집화하는 대신, 상관 계수 간의 거리를 계산하여 간접적으로 군집화를 진행한다.
    \[
    d(\rho_1, \rho_2) = \sqrt{(\rho_1 - \rho_2)^2}
    \]
    • 장점
      상관 계수 간의 차이를 명확하게 표현할 수 있다
      다양한 메트릭(예: 유클리드 거리, 맨해튼 거리 등)을 사용할 수 있어 유연성이 높다.