Скорый скоринг

Денис ГОНЧАРЕНКО, Екатерина РОМАНОВА, Игорь АРБУЗОВ
23.09.2021 | Помощь малому бизнесу
объявление об одобренном кредите
Графовая аналитика, коэффициент Джини, геоаналитика, большие данные, нейронные сети и многое другое – из таких важных элементов складывается современный кредитный скоринг. Многое из этого не было актуально еще лет пять назад, но тренды дают о себе знать. Специально для “Ъ” портал Zaim.com выяснил у экспертов, как часто меняются модели в кризис.

Использование классических интерпретируемых алгоритмов, таких как линейная регрессия, логистическая регрессия и дерево решений, в свое время позволило получить прозрачные модели кредитного скоринга и значительно повысить эффективность принятия решений. Но мир не стоит на месте: объем доступных данных увеличивается экспоненциально, а алгоритмы предиктивной аналитики стремительно развиваются. Однако за последние два года в фокусе актуальных вопросов скоринга – кризис, а любой кризис заставляет сомневаться в качестве и стабильности прогностических моделей.

Модели скоринга в кризис: от года или до месяца?

Кризис и многие другие не менее актуальные темы эксперты активно обсуждали на 6-м ежегодном профессиональном форуме скоринговых технологий Scoring Case Forum 2021. Среди самых актуальных, по наблюдению организатора форума, генерального директора Conglomerat Алексея Тонкова, – графовая аналитика, машинное обучение, большие данные и другие, не менее важные инструменты современного риск-менеджера. Специалисты сигнализируют: наблюдается масштабный поведенческий сдвиг, влияющий на устойчивые паттерны поведения заемщиков. Некоторые выражают мнение, что в кризис скоринговые модели требуют тщательного пересмотра ради сохранения стабильности – так, Алексей Волков, директор по маркетингу НБКИ, отметил, что ранее модели поведения пересматривались раз в год, сейчас – раз в месяц. И здесь встает вопрос о том, как контролировать эти изменения, чтобы они не были фатальными для организаций.

Сергей Афанасьев, вице-президент, начальник управления статистического анализа банка «Ренессанс Кредит», заметил, что для работы в кризисный период важно придерживаться стабильных переменных, а также строить модели на глубоких выборках, охватывающих минимум два экономических кризиса. По его словам, на такие консервативные модели можно успешно переходить в сложившейся ситуации. С повышением частоты пересмотра моделей скоринга г-н Афанасьев не вполне согласен:

«Например, в Базельских подходах, которые продвигает ЦБ, полное перестроение моделей необходимо проводить примерно раз в три года – на этом горизонте модель должна показывать стабильное качество. Скоринговые модели строятся на исторических данных, выборка формируется из кредитов, выданных на горизонте минимум одного года. Мы также видим, что кредитное поведение заемщиков является достаточно инертным и резко не меняется, за исключением кризисных периодов. Поэтому перестроение моделей раз в месяц не имеет никакого практического и технического смысла».

По словам эксперта, вопрос стабильности моделей следует обсуждать в другом ключе – важно, чтобы они были к этим самым кризисам устойчивы. С этим сложно не согласиться, учитывая большой вес моделей в системах принятия решения и общий тренд банков на переход от ручного андеррайтинга к полностью автоматизированному модельному подходу.

Несмотря на то что каждый кризис является особенным по своей природе возникновения и влиянию на экономику, предыдущие кризисы дали банкам определенный иммунитет и инструменты для настройки консервативных скоринговых моделей. Например, банки увидели, что потенциально проблемные заемщики в кризисы ведут себя примерно одинаково: начинают закредитовываться, допускать просрочки и т. д. Поэтому сейчас в скоринговых моделях наиболее эффективными переменными являются поведенческие, разработанные в том числе на данных БКИ и внешних поставщиков.

С этой точкой зрения согласен генеральный директор Webbankir Андрей Пономарев, который считает, что в глобальном плане скоринговые модели не стоит менять слишком часто, и придерживается мнения, что важны именно стабильные модели от года и дольше:

«Это связано с тем, что модели построены не на постоянной, а на смещенной выборке. Иными словами, мы можем оценить работу скоринга не на 100% входящих клиентов, а только на тех, кто получил кредит или заем. Назовем их «хорошими клиентами». Между тем, как только скоринговая модель перестраивается, в выборку попадают новые классы клиентов, о которых мало что известно и которые могут вести себя совершенно иначе. Поэтому значительное изменение скоринговой модели – это всегда стресс для бизнеса. Не стоит этим злоупотреблять».

В то же время достичь полной стабильности модели нереально, считает управляющая филиалом АКБ «Фора-БАНК» (АО) в г. Санкт-Петербурге Алина Бажулина. Модель скоринга может быть ультраумной и адаптивной, но случаются разного рода события – политические, экономические или социальные, на которые мир реагирует атипично, и это надо учитывать:

«Стоит вспомнить, как общественность и государство приняли пандемию, какая реакция была у коммерческих структур. Многие банки на время приостановили кредитование, так как не понимали, к чему могут привести ограничения, чем чревата сложившаяся ситуация. И выходили банки из этого «мертвого» периода тоже степенно и аккуратно. В момент начала пандемии, вероятнее всего, ни одна скоринговая система не была готова к сложившемуся стечению обстоятельств».

С одной стороны, стабильная модель скоринга позволяет накопить значимый массив данных, отследить поведение клиентов на протяжении длительного периода, а не только дефолтность или своевременную оплату по первому займу. С другой стороны, ситуация, включая уровень безработицы, доходы населения, долговую нагрузку, меняется очень быстро, фактически каждый месяц, констатировал генеральный директор «Колибри Деньги» Евгений Чернышов:

«Из-за пандемии апрель 2020 года принципиально отличался от марта. Если бы изменения в скоринг не вносились оперативно, уровень просрочки стал бы катастрофическим. Например, речь идет о таком аспекте, как сфера занятости заемщика. Большое значение имеет и региональный фактор, поскольку в разных областях вводились разные ограничения и действовали они также неодинаковое время. Локдауны сменяются QR-кодами, потом их отменой, рисками отстранения сотрудников из-за отказа от вакцинации – все это происходит очень быстро и отражается и на занятости, и на уровне доходов».

Действительно, в таких быстроменяющихся условиях говорить о стабильности модели спорно. Коронакризис показал себя достаточно непредсказуемо. Тут нет однозначного ответа, поскольку скоринг во многом представляет собой отчасти творческий процесс, считает вице-президент банка «Юнистрим» Григорий Волис:

«Вероятно, что скорость жизни диктует необходимость более частых пересмотров скоринговых систем. Вероятно, что ежегодных пересмотров в сегодняшних реалиях уже недостаточно – нужно это делать значительно чаще».

По факту в некоторых компаниях это непрекращающийся процесс, поскольку повышение эффективности скоринга будет способствовать получению большей прибыли. А какой бы эффективной ни была скоринговая система, в ней всегда остается потенциал для дальнейших улучшений, о чем и пойдет речь дальше.

Скоринг – обучение без остановки

Скоринговая модель постоянно самосовершенствуется – если в текущей реальности ее пересмотр может проводиться регулярно, но не с кардинальными изменениями, а скорее постоянными «допиливаниями» текущей модели, с учетом микроизменений и дополнительных вводных. По сути, это похоже на обучение нейросетей, считает начальник отдела андеррайтинга и верификации ООО «МФК МИР КАПИТАЛА» Сергей Шуминский, которые дополняются и учатся практически в режиме реального времени. По словам эксперта, для эффективного обучения скоринговой модели обучение должно происходить с обновлением информации примерно раз в 7–14 дней – в данном случае все фундаментальные переменные, естественно, остаются без изменений. Корректировка идет по значениям, которые в любой момент могут принять полностью противоположные показатели.

Применение нейронных сетей для извлечения информации из собственных источников данных Сергей Афанасьев также назвал одним из наиболее важных трендов современного скоринга. К примеру, некоторые банки обучают нейронные сети на данных карточных транзакций и встраивают эти модели в классический скоринг. Сюда относится извлечение новых знаний из коммуникаций с клиентами (звонки, чат-боты, письменные обращения), где применяется целый ряд нейросетевых технологий – от распознавания речи и текстов отсканированных писем до разнообразных задач текстовой аналитики (выделение тематик, определение тональности, понимание контекста и т. д.). Многие из применяемых нейронных сетей появились совсем недавно – еще пять лет назад сложно было представить, что скоринг станет настолько разнообразным и интересным и машинное обучение на основе big data будет разбираться с огромными массивами данных.

И это вполне логично: любые скоринговые модели включают различные параметры. Для банков обычно выделяют несколько видов скоринга: аппликационный скоринг, когда оценка клиента осуществляется во время подачи заявки на кредит, поведенческий скоринг, использующийся для контроля поведения действующего клиента, а также фрауд-скоринг, который направлен на выявление мошенников. Стоит учитывать, что люди с течением времени все-таки меняются. Меняются и социально-экономические условия, и все скоринговые модели необходимо корректировать с учетом выборки, состоящей из новых клиентов. Даже самая «идеальная» скоринговая модель со временем будет снижать свою эффективность, если за ней не следить.

По этим причинам на рынке появляются и завоевывают свою нишу новые скоринговые инструменты. К примеру, Сергей Голицын, вице-президент, заместитель руководителя департамента анализа данных и моделирования Банка ВТБ, отметил важность геоаналитических данных и геоплатформы в принципе:

«Это новый разрез в принципах понимания клиентских данных. Еще три-четыре года назад геоаналитика в принципе не была представлена на рынке. На сегодняшний день без геоаналитических решений невозможно глобальное построение сети, невозможна оценка потребительской активности клиентов. Именно на геоданных на сегодняшний день строятся большие решения в части построения, например, ретейловых и банковских сетей».

Еще один популярный метод на арене – графовая аналитика. Банки занимаются ей уже более 5 лет, а в последние 2 года графам уделяется много внимания в научной сфере – публикуется много исследований по графовым нейронным сетям. Однако как отмечают сами ученые, в графовой аналитике пока еще наблюдается «Дикий Запад» в части применимости этих методов на практике. Тем не менее в банковской сфере уже есть успешные кейсы применения графовых методов в моделях скоринга физических и юридических лиц. На сегодняшний день успешными историями применения графов в продакшне могут похвастаться в основном крупные банки, но все идет к тому, что скоро это станет отраслевым стандартом, и остальные банки быстро подтянутся.

Григорий Волис отметил, что графы используются для поиска необычных шаблонов, что помогает своевременно выявлять, например, мошеннические действия:

«Был пример того, как при анализе денежных потоков между банками были выявлены неочевидные странности, изучение которых привело к преступной группе. То есть графы отлично подходят для анализа даже абстрактных понятий, например таких, как отношения и взаимодействия. Поэтому такие решения будут все чаще применяться разными организациями – особенно теми, которые стремятся сохранить свое конкурентное преимущество на рынке».

Уже сформировавшееся направление на сегодня – глобальный тренд data fusion, объединения сведений. Рынок подошел к тому, что крупные корпорации начинают упираться в потолок развития в собственных данных. Если банки хотят завоевывать рынок дальше и делать всё лучше для клиента, необходимо эти данные объединять. Без этого на сегодняшний день работа крупных корпораций уже невозможна, а, следовательно, объединение – это очередной очень сложный вопрос для скоринговой отрасли.

Объединить, но не раскрыть

И технологически, и алгоритмически это самые сложные вещи, потому что раскрытие персональных данных, коммерческой и банковской тайны, нарушение закона о связи – это те вещи, которые крупные корпорации совершенно не могут допустить. Сергей Голицын утверждает, что такого рода задачи прорабатываются совместно с командами платформ больших данных ВТБ, Ростелекома, объединяя данные через достаточно сложные алгоритмы, такие как multy-party computation или Intel SGX – через построение достаточно могучей платформы обмена данными и моделями.

Чтобы выходить из собственных баз, крупные банки используют комбинированный скоринг – свои модели плюс покупные данные. Для разработки сильных скор-карт нужна не только математическая экспертиза, но и глубокое понимание бизнеса и внутренних процессов банка – поэтому у всех крупных игроков есть своя команда разработчиков скоринга. С другой стороны, внешние данные дают существенный дополнительный эффект к собственным моделям, поэтому банки вынуждены закупать внешние скоринги, чтобы не проигрывать банкам-конкурентам, подтвердил Сергей Афанасьев:

«Для обогащения своих скоринговых моделей мы используем несколько внешних поставщиков – процесс использования внешних данных абсолютно легален и безопасен. Мы берем у клиента согласие на запрос данных из внешних источников. Кроме того, многие поставщики (операторы сотовой связи, социальные сети, платежные системы и др.) продают только скоринговые баллы для оценки кредитоспособности клиентов и не передают банкам личные данные о клиенте».

По словам эксперта, идентификаторы для мэтчинга дополнительно хешируются и передаются по защищенным каналам. Такой подход защищает клиентов и компании от возможных утечек персональных данных. Для объединения внешних скорингов собственными моделями банк использует подходы стэкинга и блендинга – когда разные скор-баллы используются как переменные для построения итоговой скоринговой модели. Такой подход позволяет объективно оценить вклад каждого поставщика и оптимально настроить скоринг.

Николай Меркулов, заместитель директора по анализу данных и моделированию платформы больших данных (СП: ВТБ и Ростелеком), утверждает, что данные, которые приходят из внутренних или внешних источников, проходят, с одной стороны, процедуру шифрования, а с другой стороны – агрегации. То есть разрабатываемая аналитическая платформа обрабатывает смысловые категории-агрегаты, которые уже потом используются для моделирования.

Интерпретировать такие агрегаты и что-то по ним сказать о конкретном человеке уже нельзя: персональные данные «в сыром виде» не передаются. Более того, они не используются в таком формате даже для внутренних целей: все данные проходят процедуру обязательного шифрования и хеширования на уровне идентификаторов, на уровне данных, которые составляют смысл, который возможно использовать для моделирования и для предикторов. Таким образом исполняется задача по защите информации – в том числе и от их компрометирования извне.

Закон «О защите персональных данных» в России соблюдается строго, и серьезные участники финансового рынка никогда не будут рисковать безопасностью данных своих клиентов, подвел итог Андрей Пономарев. Все типы передаваемых данных контролируются. Если они передаются третьим лицам, банк или МФО обязательно получат от клиента согласие на соответствующую операцию. В свою очередь, задача анонимизации эффективно решается с помощью хеширования данных, когда информация о конкретном человеке предоставляется в виде уникального кода. Это позволяет идентифицировать пользователя, не раскрывая его личности.

Подводя итоги

В целом за последние пять лет скоринг сделал колоссальный рывок вперед именно на ниве развивающихся цифровых технологий, при этом столкнувшись с большим объемом вызовов. Сейчас в развитии скоринга можно выделить два больших направления: технологический и регуляторный. К технологическому направлению относятся обогащение скоринга новыми источниками данных и применение новых алгоритмов. К регуляторным – повышение стабильности моделей и снижение модельного риска.

Очень вырос рынок внешних данных, количество поставщиков, большинство из которых продают готовые скоринги. Несколько лет назад таких поставщиков было мало, и банки могли покупать все, что предлагалось на рынке, – сейчас их становится кратно больше, и у банков возникла необходимость в оценке их эффективности.

Как отметила старший консультант отдела рисков SAS Ольга Торлина, в связи со сложившимися процессами начали развиваться и новые подходы к обработке данных:

«Совершенствуется аналитическое программное обеспечение, которое позволяет использовать дополнительные инструменты в части анализа данных, моделирования, принятия решения, исследования результатов. Банки стремительно начинают применять более сложные производные прогнозные модели, построенные на базе big data и machine learning».

В перспективе ближайших лет данный тренд останется неизменным, что позволит экономить дефицитное время персональных менеджеров за счет встроенных скоринговых решений и автоматизации персонализированных рекомендаций. А значит, скоринг будет становиться еще совершеннее и точнее.


При поддержке Conglomerat

Подписаться

Понравилась публикация?

Подпишитесь на еженедельную рассылку от Zaim.com и будьте в курсе последних событий


 
Комментарии

| ответить