$R^2$, или коэффициент детерминации, — одна из метрик в задаче регрессии, которая показывает долю дисперсии зависимой переменной, объясняемой моделью. Далее рассмотрим подробное объяснение данной метрики на задаче линейной регрессии.


В общем смысле регрессия — это односторонняя связь зависимой переменной $y$ и независимых переменных $x_i$, которая может быть задана следующие образом:

$$ y = g(x) = E(Y | X = x), $$

где $x = (x_1, ..., x_n)$ — вектор $n$ независимых переменных, а $g$ — непосредственно функция, называемая регрессией, которая является условным математическим ожиданием случайной переменной $Y$ при условии, что другая случайная переменная $X$ приняла значение $x.$

Регрессионный анализ решает такие задачи, как определение общего вида уравнения регрессии, построение оценок независимых параметров, входящих в это уравнение, и т.д.

В общем случае зависимость не обязательно будет линейной, но мы рассмотрим именно этот вид — линейную регрессию, которая задаётся следующим образом:

$$ ⁍ $$

Пусть у нас есть выборка элементов $\{x_i, y_i\}_{i=1}^N$, $\bar{y}$ — выборочное среднее $y_i$, и наша модель делает предсказания $\hat{y_i}$. Рассмотрим следующие величины:

$$ SST = \sum_{i=1}^N(y_i - \bar{y})^2, \newline SSR = \sum_{i=1}^N(\hat{y_i} - \bar{y})^2, \newline SSE = \sum_{i=1}^N(\hat{y_i} - y_i)^2. $$

$SST$ (Sum of Squares Total) показывает отклонение целевых меток от их среднего,

$SSR$ (Sum of Squares Regression) — отклонение предсказаний модели от среднего меток,

$SSE$ (Sum of Squares Residual Error) — отклонение предсказаний модели от целевых меток.

                                                                                     Источник

                                                                                 **[Источник](<https://vitalflux.com/wp-content/uploads/2022/02/linear-regression-f-statistics-definition.jpg>)**

Учитывая введённые величины, на коэффициент детерминации можно посмотреть двумя способами:

  1. Как единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели):

$$ R^2 = 1 - \frac{\frac{SSE}{N-1}}{\frac{SST}{N-1}} = 1 - \frac{SSE}{SST} = 1 - \frac{\sum_{i=1}^N(\hat{y_i} - y_i)^2}{\sum_{i=1}^N(y_i - \bar{y})^2} $$

Здесь в знаменателе дроби мы имеем дисперсию наших данных — их разброс относительно среднего, а в числителе — дисперсию данных относительно предсказаний модели.

То есть по сути мы смотрим на то, какую часть от общей дисперсии занимают ошибки предсказания нашей модели — это и есть доля необъяснённой дисперсии. Чем меньше отклонение предсказаний от истинных значений, тем большую часть разнородности в данных удалось “объяснить”, — и тем больше значение метрики $R^2$.