Для построения скоринговых моделей (причем независимо от выбранного математического подхода) берется репрезентативная выборка из предыдущих заявителей (от нескольких тысяч до сотен тысяч - что не проблема для отрасли, обслуживающей десятки миллионов клиентов). Для каждого заявителя из выборки извлекается полная информация из анкеты-заявления и информация из его кредитной истории за фиксированный период времени (обычно 12, 18 или 24 мес.). Затем принимается экспертное решение, какую историю считать приемлемой, т.е. является ли клиент "хорошим" или "плохим". Чаще всего "плохим" считается клиент, не выплативший по кредиту 3 месяца подряд. Всегда оказывается некоторое число клиентов, которых нельзя отнести ни к "хорошим", ни к "плохим", поскольку они либо недостаточно давно получили кредит (прошло слишком мало времени), либо их кредитная история "неясна" (например, были задержки по 3 месяца, но не подряд). Как правило, такие "промежуточные" клиенты исключаются из выборки. Эмпирические требования к базе данных, используемых для построения скоринговой модели: размер выборки - не менее 1500 всего, не менее 500 плохих; четкое определение критерия "плохой"/"хороший". Далеко не всегда ясно, на каком этапе кредитной истории, по какому признаку и на каком уровне разделять "плохих" и "хороших"; четкое определение временного отрезка - периода жизни продукта (зависит от самого продукта и может меняться от месяца - мобильный телефон до десятилетий - ипотека); стабильность состава клиентской группы - демография, миграции, сохранение привычек потребления; неявное, но обязательное требование: стабильность экономических, политических, социальных и прочих условий. При построении кредитных моделей существенным является выбор временного горизонта - отрезка времени между подачей заявления (выдачей кредита) и классификацией "плохой"/"хороший". Анализ показывает, что процент дефолта как функция длительности нахождения клиента с организацией поначалу растет и только через 12 месяцев (кредитные карты) и даже более (разовые займы) начинает стабилизироваться. Таким образом, меньший временной горизонт приводит к недооценке и не учитывает полностью всех характеристик, предсказывающих дефолт. С другой стороны, временной горизонт более двух лет оставляет модель подверженной к сдвигам в составе клиентской группы в течение этого времени, т.к. как состав клиентов в выборке в начале временного горизонта может оказаться существенно отличным от состава клиентов, приходящих в настоящее время. Фактически используются два единовременных среза (в начале и в конце временного горизонта) для создания модели, которая стабильна по времени (за пределами начального временного отрезка). Это и диктует выбор длины временного отрезка - временного горизонта при моделировании. Другим чрезвычайно важным и дискутируемым вопросом остается соотношение "хороших" и "плохих" в выборке. Должно ли оно отражать реальное соотношение их в составе населения или их должно быть равное число (такое соотношение резко облегчает построение модели с математической точки зрения)? Далее построение скоринговой модели превращается в классификационную проблему, где входными характеристиками (или параметрами) являются ответы на вопросы анкеты-заявления и параметры (или данные), получаемые в результате проверок из различных организаций (например, полиции, судов, местных советов, кредитных бюро и т.д.), а выходными характеристиками (ответом) - искомым результатом - является разделение клиентов на "хороших" и плохих" согласно имеющимся кредитным историям, сопоставленным по этим входным характеристикам. Собственно рейтинговая таблица (scorecard) - это система придания численных баллов (счета) характеристикам (или параметрам) заемщика для получения искомого числового значения, которое отражает, с какой вероятностью у заемщика по отношению к другим заемщикам произойдет некое событие или он совершит определенное действие (аспект "по отношению" в определении очень важен). Кредитная рейтинговая таблица, например, не показывает, какой уровень риска следует ожидать (скажем, какой процент кредитов данного типа, вероятно, не будет возвращен); вместо этого она показывает, как данный заем, скорее всего, будет вести себя по отношению к другим займам. Например, ожидается ли, что процент невозвратов или дефолтов для кредитов с данным набором атрибутов будет больше или меньше, чем у кредитов с другим набором. Большинство рейтинговых таблиц построены с помощью расчета регрессионной модели - статистической модели, которая проверяет, как отдельный параметр (характеристика) влияет на другой параметр или (чаще всего) на целый набор других параметров. Регрессионная модель дает в результате своего применения набор коэффициентов (factors), называемых регрессионными, которые можно интерпретировать как корреляцию между искомыми параметрами (которые необходимо определить) и объясняющими параметрами, сохраняя неизменными все остальные воздействия на искомые параметры. Эти коэффициенты превращаются в веса баллов (point weights) в рейтинговой таблице.
Ви переглядаєте статтю (реферат): «Построение скоринговых моделей» з дисципліни «Пластикові картки»