Big Data решения на основе общедоступных …...Мобильные...

Post on 27-Jul-2020

22 views 0 download

Transcript of Big Data решения на основе общедоступных …...Мобильные...

Big Data решения на основе общедоступных данных

Декабрь 2015 Гинжук Максим, CEO

Компания Double Data

Сбор данных из соц сетей по 2 млрд. аккаунтам и обновление раз в месяц

1

Технология поиска в социальных сетях находит 60% россиян с 99.8% точностью за 50 мс

2

Клиенты – более 50% топ-50 Банков 3

3 года непрерывных инвестиций в качество технологий поиска, машинного обучения и тесты на миллионных выборках

Соответствие законодательству РФ (ФЗ-152, ФЗ-149): используются только общедоступные данные, которые можно обрабатывать без согласия субъекта

Источники данных:

Партнеры – крупнейшие БКИ в РФ 4

First name: Илья Last name: Кузнецов Birth Date: 1983.8.26 City: Магнитогорск 99.8%

Использование социальных сетей в зависимости от ….

59%

62% 63%

64% 65%

67%

54%

56%

58%

60%

62%

64%

66%

68%

Менее 20 тыс

20 - 100 тыс

100 - 500 тыс

500 тыс - 1 млн

Более 1 млн

Москва и СПб

Типа населённого пункта 80%

75%

61%

46%

32%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

18-24 года 25-34 года 35-44 года 45-54 года 55-64 года

Возраста заёмщика

0%

10%

20%

30%

40%

50%

60%

70%

80%

18-24 года 25-34 года 35-44 года 45-54 года 55-64 года

Вконтакте Одноклассники Мой Мир Facebook

Соц. сети и возраста

53% 60% 59%

63% 68%

58% 62% 57% 60%

67%

00%

10%

20%

30%

40%

50%

60%

70%

80%

Хорошие заемщики

Плохие заемщики

Банковского продукта и наличия просрочки

Social attributes – данные для скоринга

Social attributes – данные для скоринга

Группа переменных Описание Gini

Основные анкетные данные Места учебы, работы, мировоззрение, отношение к алкоголю, курению, etc. 5 - 8 %

Статистическая информация Дата регистрации, частота входов, количество друзей, подписок, фотографий, постов, etc. 18 - 24 %

Настройки приватности Возможность просматривать данные из аккаунта, читать и оставлять сообщения на стене, etc. 8 - 12 %

Мобильные платформы Информация о том, как часто и с каких мобильных платформ владелец заходит в аккаунт 9 - 10 %

Профиль интересов Сводная информация о тематиках групп или пабликов, на которые подписан владелец аккаунта 7 - 11 %

Переменные по окружению Статистические показатели, рассчитанные по списку аккаунтов-друзей рассматриваемого аккаунта 14 - 16 %

Основные группы переменных Social Attributes

Результаты Сбербанка тестирования Social Attributes

Результаты поиска:

200 интерпретируемых переменных из соц. сетей

Сбербанк с Double Data

Hit rate 54.5%

Ошибка поиска (найден не тот аккаунт)

0.1%

Результаты включения в риск модели:

Fraud default model

Social default model

Stand alone модель на данных из соц сетей

50.0% 42.3%

Прирост Gini скор модели Сбербанка

+ 7.5% (с 56.5 до 64

Gini)

+ 1.9% (с 57.6 до 59.5

Gini)

Выявление внутреннего организованного мошенничества и коррупции

Выявление внутреннего организованного мошенничества и коррупции

Открытые данные по злостным неплательщикам алиментов в розыске по уголовным статьям

40% преступников в розыске можно найти в социальных сетях. Пример 1

Данные для поиска с сайта ФССП России:

Результат поиска информации

40% преступников в розыске можно найти в социальных сетях. Пример 1

Данные для поиска с сайта ФССП России:

Результат поиска информации

40% преступников в розыске можно найти в социальных сетях. Пример 2

40% преступников в розыске можно найти в социальных сетях. Пример 2

40% преступников в розыске можно найти в социальных сетях. Пример 2

Возможности применения открытых данных и Big Data технологий огромны как в коммерческом секторе, так и в гос структурах и компаниях

Банки Страховые Ритейл E-commerce

GINZHUK MAXIM, FOUNDER & CEO MOB. TEL: +7 (916) 770 01 68

E-MAIL: MGINZHUK@DOUBLEDATA.RU

www.doubledata.ru

18