Тренд на самообучение: как и почему банки меняют системы скоринга

Ольга Торлина, старший консультант отдела рисков SAS Россия/СНГ
15.11.2021 | Стратегии
скоринговый балл
Кризис по понятным причинам спровоцировал всплеск на рынке кредитования. Однако при росте желающих взять займы возросли и банковские риски, связанные с экономической неопределенностью. Как следствие, скоринговые модели, которые до кризиса вполне себя оправдывали, перестают быть эффективными.
Банки говорят «нет»

В связи с пандемией россияне стали чаще брать займы: месяц за месяцем обновляются рекорды по объему выданных необеспеченных потребкредитов, и максимум пока приходится на август 2021 года, когда было выдано 647 млн рублей. Это на 7% выше, чем в июле, и на 33,5% выше, чем за аналогичный период прошлого года. Ситуация вызывает опасения у ЦБ, в связи с чем с 1 октября 2021 года были повышены надбавки к коэффициентам риска по новым потребкредитам. Этот шаг призван удержать банки от наращивания рискованного кредитования и ограничить долговую нагрузку населения.

Однако банки и сами видят эти риски и строже подходят к рассмотрению заявок на кредиты. Так, по итогам 2020 года уровень одобрения установил трехлетний антирекорд – отказы в займах получили более 65% клиентов. Это и неудивительно – банки начали тщательнее присматриваться к потенциальным заемщикам, особенно к тем, чья сфера деятельности относится к особо пострадавшим отраслям. К тому же сильно возрос фактор риска возможного дефолта клиента. Все это привело к сокращению доли одобренных кредитов за последние год-два.

В сложившейся ситуации банкам и МФО пришлось резко перенастраивать свои скоринговые модели. Корректировка моделей в большинстве случаев требовалась для тестирования новых гипотез, к которым привели внешние обстоятельства, ведь чем лучше модель адаптирована под внешние факторы, тем более точный прогноз она выдаст.

Менять или не менять?

Есть множество способов оценить качество модели, а именно верифицировать скоринговый балл. Самые распространенные – анализ ROC-кривой, анализ с помощью коэффициента Джини и критерия Колмогорова-Смирнова. Коэффициент Джини позволяет судить о дискриминирующей способности модели, то есть способности отличать «хороших» и «плохих» заемщиков. Статистика Kолмогорова-Смирнова показывает, насколько на определенном уровне скорингового балла доля «плохих» кредитов превышает долю «хороших». Чем значительнее разница между долей «плохих» и «хороших» кредитов, тем выше данный показатель и эффективнее работа скоринговой модели. Факт устаревания моделей можно понять по ситуации во внешней экономике, а также по обновлению переменных, на которых эта модель базируется.

С другой стороны, если абстрагироваться от внешних обстоятельств, изменения модели – это не очень промышленное решение, так как банки и МФО, как правило, прогнозируют поведение клиентов после выдачи кредита на базе текущих клиентов, основываясь на их схожести. Здесь важно понимать, что для построения скоринговой модели в основном используются данные кредитной истории заемщика, данные заполненной анкеты, а также исторические данные взаимодействия клиента с банком, которые хранятся непосредственно во внутренних источниках банка (например, движение денежных средств). Сбор данных обычно осуществляется путем написания ETL-процесса, который отрабатывает по расписанию, необходимому по факту отработки модели. Этот процесс – исключительно собственность банка и запускается только на банковских средах. Соответственно, он хорошо защищен и о безопасности данных можно не волноваться. Если данные о заемщике берутся с внешних источников, то за их защиту отвечает непосредственно сам источник (например, БКИ, откуда, как правило, берутся данные о кредитной истории заемщика).

Но тогда получается, что если клиенту было отказано в кредите, то из-за отсутствия истории взаимодействия модель не покажет, как этот клиент поведет себя. А чем чаще меняется модель, тем больше в нее попадает классов клиентов без такой истории. Как следствие, точность предсказания модели становится ниже. И тут возникает вопрос: может быть, тогда можно или даже нужно оставить в покое модель, которая и так доказала свою эффективность? Нет, нельзя, поскольку любая модель всегда базируется на переменных и абсолютно стабильной модели в природе не существует.

Решение в коробке

Отвечая на этот вызов, компании активно развивают новые подходы к обработке данных, а именно совершенствуют аналитическое программное обеспечение, которое позволяет использовать дополнительные инструменты в части анализа данных, моделирования, принятия решения, исследования результатов. Объем данных о клиентах стал сильно расти за счет применения технологий big data, информации о клиентах стало больше, и так как данные поступают с разных источников, она еще и очень разнообразная. Любой дополнительный пул информации будет вести к доработке и улучшению моделей машинного обучения. Как итог, банки и другие компании начинают применять более сложные самообучающиеся производные прогнозные модели, построенные на основе больших данных и машинного обучения.

Основная задача самообучающихся моделей – это выдать результат и при этом не ориентироваться на предварительно помеченные или подобранные данные. На текущий момент в большинстве банков в процессах кредитования и стратегиях принятия решений по кредитной заявке используется регрессионный анализ. Крупные банки рассматривают потенциальную замену алгоритмов регрессии на самообучающиеся алгоритмы, и совершенно очевидно, что такие алгоритмы дадут лучший результат. Самообучающиеся модели активно тестируются, во многих банках проводятся пилоты, которые выдают более точный результат, чем модели, работающие в промышленной среде. По всей вероятности, в ближайшие два года в 90% банках будут работать только самообучающиеся модели.

При этом большое количество компаний используют разные скоринги: скоринг для оценки кредитной заявки, поведенческий скоринг для оценки поведения заемщика, его поведения в процессе осуществления платежей, скоринг, оценивающий вероятность факта мошенничества, и скоринг для работы с просроченной задолженностью. Для составления сложных алгоритмов под все эти виды скоринга не обойтись без коробочных решений, которые предоставляют вендоры-разработчики программного обеспечения. В противном случае, если банк пойдет на самостоятельную разработку, потребуется продолжительное время и дополнительные квалифицированные кадровые ресурсы.

Основные преимущества IT-решений для расчета скоринга – это, конечно, их возможность работать с большим объемом данных: обработка, хранение, модификация, создание расчетных показателей, а также возможность создания витрин данных, которые в дальнейшем будут использоваться для расчета скоринга и применяться непосредственно в самой модели. Кроме возможности работы с данными, в таких решениях присутствуют технологии углубленной аналитики, а именно преднастроенные алгоритмы, которые и применяются в самой прогнозной модели.

Подобные решения применяются все чаще, и за последние пять лет мы видим очень резкий скачок применения скоринговых моделей в банках. Тенденция развития в ближайшие годы будет, безусловно, сохраняться. За счет обогащения данных о заемщике и в силу экономического развития банков прогнозные модели будут активно развиваться, алгоритмы усложняться, а точность прогноза – увеличиваться.

Подписаться

Понравилась публикация?

Подпишитесь на еженедельную рассылку от Zaim.com и будьте в курсе последних событий


 
Комментарии

| ответить