Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- AFML
- 실전 금융 머신 러닝 완벽 분석
- 틱
- >
- 금융딥러닝
- 틱데이터
- 금융머신러닝
- 테슬라 #tesla #ai #퀀트
- 아비트라지랩 #arbitragelab #아비트라지 #arbitrage #residual #reversion #residualreverstion #hudsonthames #허드슨
Archives
- Today
- Total
알파트로스
[ML4AM] 3.Codependence (2) Correlation Based (Distance) Metrics 본문
Machine Learning for Asset Managers
[ML4AM] 3.Codependence (2) Correlation Based (Distance) Metrics
알파트로스 2024. 7. 2. 02:272장에서 살펴봤듯 correlation은 어쨌든 매우 유용한 measure of linear codependence이다 하지만 metric이 아니다
- 비음수성(nonnegativity) 과 삼각 부등식(triangle inequality) 조건을 만족하지 않기 때문
상관 계수는 -1에서 1 사이의 값을 가진다. 따라서 비음수성 조건 \(\rho[X, Y] \geq 0\)을 만족하지 않는다
상관 계수는 삼각 부등식 \(\rho[X, Z] \leq \rho[X, Y] + \rho[Y, Z]\)을 만족하지 않는다.
non-metric 측정 방법을 사용하여 데이터를 분석하면 일관되지 않은 결과를 초래할 수 있다
- 예시: 상관 계수 (0.9, 1.0)와 (0.1, 0.2)의 차이는 동일하지만, 전자는 후자보다 더 큰 연관성 차이를 포함한다
- \((0.9, 1.0)\)의 차이: 0.1
- \((0.1, 0.2)\)의 차이: 0.1
- 그러나 \((0.9, 1.0)\)의 경우 두 값 간의 연관성이 훨씬 크다
따라서 상관 계수만으로는 직관적인 토폴로지(topology)를 유도하기 어렵다. 이를 해결하기 위해 상관 계수를 기반으로 distance metric을 정의한다
1. Standard Angular Distance
\[
d_\rho[X, Y] = \sqrt{\frac{1}{2}(1 - \rho[X, Y])}
\]
- 정규화됨(normalized)
\(d_\rho[X, Y]\)는 \([0, 1]\) 범위 내에 있다. 이는 \(\rho[X, Y]\)가 \([-1, 1]\) 범위 내에 있기 때문이다 - Metric 조건을 만족함
이 메트릭은 비음수성, 대칭성(symmetry), 삼각 부등식을 모두 만족한다 - 음의 상관 관계를 더 먼 거리로 간주
두 변수 \(X\)와 \(Y\)가 있다고 가정할 때:
- \(\rho[X, Y] = 0.8\)일 경우, \(d_\rho[X, Y] = \sqrt{\frac{1}{2}(1 - 0.8)} = \sqrt{0.1} \approx 0.316\)
- \(\rho[X, Y] = -0.8\)일 경우, \(d_\rho[X, Y] = \sqrt{\frac{1}{2}(1 - (-0.8))} = \sqrt{0.9} \approx 0.949\)- 포트폴리오 최적화
음의 상관 관계를 갖는 자산들은 서로 보완적인 역할을 하여 포트폴리오의 전체 위험을 줄이는 데 기여할 수 있다. 이 경우, 음의 상관 관계를 더 먼 거리로 간주하면, 위험을 효과적으로 분산시키는 자산 조합을 찾는 데 도움이 된다 - clustering
데이터 군집화에서 음의 상관 관계를 갖는 데이터 포인트들을 더 먼 거리로 간주함으로써, 데이터의 구조적 특성을 더 잘 반영할 수 있다.
- 포트폴리오 최적화
2. Absolute Angular Distance
\[
d'_\rho[X, Y] = \sqrt{\frac{1}{2}(1 - |\rho[X, Y]|)}
\]
- 절대값 사용
상관 계수의 절대값 \(|\rho[X, Y]|\)를 사용하여, 양의 상관 관계와 음의 상관 관계를 동일하게 처리한다. - 음의 상관 관계를 유사하다고 간주
두 변수 \(X\)와 \(Y\)가 있다고 가정할 때:
- \(\rho[X, Y] = 0.8\)일 경우, \(d'_\rho[X, Y] = \sqrt{\frac{1}{2}(1 - 0.8)} = \sqrt{0.1} \approx 0.316\)
- \(\rho[X, Y] = -0.8\)일 경우, \(d'_\rho[X, Y] = \sqrt{\frac{1}{2}(1 - 0.8)} = \sqrt{0.1} \approx 0.316\)- 롱-숏 포트폴리오
이때는 음의 상관 관계를 갖는 증권을 유사하다고 간주하는 것이 유리할 수 있다.
- 롱-숏 포트폴리오
3. Squared Angular Distance (TODO)
Define or Applying(TODO)
- Defining Metrics Using Correlation Coefficients
상관 계수 자체를 사용하여 메트릭을 정의한다. 예를 들어, 앞서 설명한 절대값 상관 관계를 기반으로 한 거리 메트릭
\[
d_{|\rho|}[X, Y] = \sqrt{\frac{1}{2}(1 - |\rho[X, Y]|)}
\]
- 장점
상관 계수를 직접 사용하여 일관된 거리 메트릭을 정의함으로써, 상관 계수를 기반으로 하는 모든 계산이 메트릭의 성질을 가진다.
메트릭의 특성을 만족하므로, 삼각 부등식과 같은 메트릭의 기본 성질들을 따른다.
- 장점
- Applying Metrics to Correlation Coefficients
관찰된 상관 계수에 메트릭을 적용하여 거리를 계산한다. 예를 들어, 유클리드 거리(Euclidean distance)를 사용하여 상관 계수 간의 거리를 계산할 수 있다. 이 방법은 상관 계수 자체를 직접 군집화하는 대신, 상관 계수 간의 거리를 계산하여 간접적으로 군집화를 진행한다.
\[
d(\rho_1, \rho_2) = \sqrt{(\rho_1 - \rho_2)^2}
\]- 장점
상관 계수 간의 차이를 명확하게 표현할 수 있다
다양한 메트릭(예: 유클리드 거리, 맨해튼 거리 등)을 사용할 수 있어 유연성이 높다.
- 장점
'Machine Learning for Asset Managers' 카테고리의 다른 글
[ML4AM] 3.Codependence (4) Copula-Based Metrics (0) | 2024.07.02 |
---|---|
[ML4AM] 3.Codependence (3) Information Theory Metrics (0) | 2024.07.02 |
[ML4AM] 3.Codependence (1) Correlation (0) | 2024.07.01 |
[ML4AM] 3.Codependence (0) motivation (0) | 2024.07.01 |
[ML4AM] 2 Deonise and Detone (3) Risk Estimator (0) | 2024.07.01 |