Логистическая регрессия в сравнении с линейной регрессией
При использовании скоринга, как правило, зависимая переменная принимает значения в очень небольшом диапазоне. Чаще всего работают с бинарной переменной, т.е. такой, которая принимает только два целых значения: так, например, по кредиту дефолт или произошел, или нет; клиент, получивший каталог по почте или ответил, или нет. Как правило, в таком случае дефолту приписывают значение "1", а выплаченному кредиту - значение "0". Модель в итоге должна оценить вероятность дефолта по кредиту (или ответа клиента на каталог). И хотя линейная модель иногда используется для расчета рейтинговой таблицы, логистическая регрессия оказывается много удобнее, поскольку она специально построена для случаев, когда зависимая переменная - бинарная (т.е. принимает, как мы уже говорили, только два значения). Линейная регрессия может давать значения вероятности и меньше нуля, и больше единицы, что лишено смысла. Логистическая модель избегает этого, поскольку работает не с самим бинарным значением зависимой переменной, а с вероятностью или шансами (odds), что это значение действительно реализуется. Логарифм отношения вероятности реализации к вероятности нереализации называют логитом (logit), который может принимать любые значения, как отрицательные, так и положительные. Поэтому для логитов вполне можно использовать модель линейной регрессии (отсюда и название "логистическая"). В модели логистической регрессии объясняющие переменные, умноженные на свои коэффициенты, предполагаются линейными по отношению не к Y, как в линейной регрессии, а к логиту - натуральному логарифму отношения шансов:
ln (p/(1 - p)) = B_0 + B_1 x X_1 + B_2 x B_2 + X_2 + ... + B_n x X_n,
где р - вероятность того, что V произойдет; р/(1 - р) - отношение шансов.
Ви переглядаєте статтю (реферат): «Логистическая регрессия в сравнении с линейной регрессией» з дисципліни «Пластикові картки»