Rafael Heringer.pdf - download

Rafael Bastos Heringer 

Redução do Churn de Cobrança via “Modelagem 

Preditiva” 

Belo Horizonte 

Novembro de 2005

Rafael Bastos Heringer 

Redução do Churn de Cobrança via “Modelagem 

Preditiva” 

Monografia apresentada ao Colegiado 

do Curso de Engenharia de Controle 

e Automação da Universidade Federal 

de Minas Gerais como requisito parcial 

para obtenção do título de Bacharel em 

Engenharia de Controle e Automação. 

Orientador: 

Prof. Luis Antônio Aguirre 

Supervisor: 

Caio Canton 

Universidade Federal de Minas Gerais 

Escola de Engenharia 

Belo Horizonte 

Novembro de 2005

Monografia sob o título Redução do Churn de Cobrança via “Modelagem Preditiva”, 

defendida por Rafael Bastos Heringer e aprovada em 25 de Novembro de 2005, em Belo 

Horizonte, Estado de Minas Gerais, pela banca examinadora constituída por: 

Prof. Luis Antônio Aguirre - DELT-UFMG 

Orientador 

Caio Canton 

Banco Santander Banespa 

Banca Examinadora 

UFMG

Dedico esta monografia à minha família, 

em especial aos meus pais, por tudo o que fizeram para que este dia, que sela minha 

graduação, se tornasse 

realidade.

Agradecimentos 

A Jesus Cristo por ter me dado o dom da vida e saúde, além de ser minha principal 

razão de viver. 

À minha família por toda a força ao longo de todos esses 23 anos. Também pela 

confiança no meu potencial. A eles, que sempre dividiram os momentos mais felizes e 

outros nem tanto. 

Ao meu orientador Luis Aguirre, por dividir o conhecimento/sabedoria e ao mesmo 

tempo confiar na minha capacidade de dar resultados em curto espaço de tempo. Pelas 

direções certas ao longo do projeto. 

A meus amigos e colegas, com quem sempre tenho aprendido sobre todas as coisas. 

Ao meu supervisor Caio Canton pelo conhecimento compartilhado e também por 

confiar um projeto com essa importância a um - até então - leigo no assunto. 

E finalmente à Viação Cometa, que mais de 60 vezes ao longo do ano me levou e me 

trouxe em segurança de Belo Horizonte a São Paulo, onde foi feito este PFC.

“Se o Senhor não edificar a casa, em vão trabalham os que a edificam; se o Senhor não 

guardar a cidade, em vão vigia a sentinela. Inútil vos será levantar de madrugada, repousar 

tarde, comer o pão que penosamente granjeastes; aos seus amados ele o dá enquanto 

dormem.” 

Salmos 127:1,2.

Resumo 

A área de Cash Management de um banco cuida do fluxo de caixa das empresas: 

fornece soluções em pagamentos e recebimentos. A Cobrança é o produto mais importante, 

por estreitar o relacionamento com os clientes PJ (Pessoa Jurídica) e ser o maior 

gerador de receita. No Banco Santander Banespa foi apurado que havia uma alta taxa 

de Churn (perda de clientes) de Cobrança e sabe-se que é mais caro conquistar novos 

clientes do que manter os existentes. Foi desenvolvido um amplo projeto, considerando as 

diversas fases do ciclo de vida do cliente com o produto - Ativação, Modelagem Preditiva, 

Retenção e Reativação. A fase de Modelagem Preditiva visa, a partir de dados históricos 

com o comportamento de milhares de empresas, obter modelos que permitam saber os 

clientes propensos a deixar o banco no futuro, e assim poder atuar junto a eles de maneira 

preventiva, antes mesmo de iniciarem o movimento de queda de relacionamento com o 

produto. Para isso utilizam-se ferramentas de Data Mining (Mineração de Dados) - uma 

vez que existe uma grande massa de dados para análise - e regressões, a fim de se obter 

os modelos preditivos que direcionarão as ações de redução do Churn.

Abstract 

In a bank, Cash Management takes care of cash flow inside the companies: provides 

solutions in payments and receivings. Charge is the most important product, since it 

draws near the relationship with the PJ clients. At Banco Santander Banespa a high 

level of Churn (loss of clients) for the product Charge was perceived, and it is known 

that is more expensive to get new customers than to maintain the current ones. A large 

project was created considering all the life cicle of a client with the product - Activation, 

Predictive Modelling, Retention and Reactivation. Predictive Modelling aims, based on 

historical data containing the behavior of thousands of companies, to build models which 

allow to estimate which customers would leave the bank in the near future, and therefore 

could be used in a preventive manner, before they even begin the down movement on 

relationship with the product. For this goal, Data Mining tools have been used- since 

there is a huge database to analyse - and regressions, to obtain the predictive models that 

will focus Churn reduction actions.

Lista de Figuras 

Lista de Tabelas 

Lista de Siglas 

Sumário 

1 Introdução p. 10 

1.1 Engenharia de Controle e Automação - UFMG . . . . . . . . . . . . . . . p. 10 

1.2 Apresentação da Empresa . . . . . . . . . . . . . . . . . . . . . . . . . . p. 11 

1.2.1 História . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 11 

1.2.2 Valores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 12 

1.2.3 O maior entre as menores . . . . . . . . . . . . . . . . . . . . . . p. 13 

1.2.4 Cash Management . . . . . . . . . . . . . . . . . . . . . . . . . . p. 13 

1.3 Contextualização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 16 

1.4 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 17 

1.5 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 19 

1.6 Organização da Monografia . . . . . . . . . . . . . . . . . . . . . . . . . p. 20 

2 Fundamentação Teórica p. 21 

2.1 Gestão do Relacionamento com os Clientes . . . . . . . . . . . . . . . . . p. 21 

2.2 Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 24 

2.2.1 Aplicações de Data Mining . . . . . . . . . . . . . . . . . . . . . . p. 25 

2.3 Taxa de Redução de Erro . . . . . . . . . . . . . . . . . . . . . . . . . . p. 30

Sumário 

2.4 Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 31 

2.4.1 Regressão Linear Múltipla . . . . . . . . . . . . . . . . . . . . . . p. 32 

2.4.2 Regressão Logística Múltipla . . . . . . . . . . . . . . . . . . . . . p. 33 

3 Metodologia p. 35 

4 A Base de Dados p. 41 

4.1 Seleção de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 43 

4.2 Manipulação de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . p. 44 

5 Modelagem p. 49 

5.1 Amostras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 50 

5.2 Regressão Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 50 

5.2.1 Top . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 50 

5.2.2 Medium . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 52 

5.2.3 Low . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 53 

5.3 Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 55 

5.3.1 Top . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 55 

5.3.2 Medium . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 56 

5.3.3 Low . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 57 

6 Resultados p. 61 

7 Conclusões p. 63 

8 Desenvolvimentos Futuros p. 65 

Referências p. 66


1 Brasão da Universidade Federal de Minas Gerais. . . . . . . . . . . . . . p. 10 

2 Logotipo do Banco Santander Banespa. . . . . . . . . . . . . . . . . . . . p. 12 

3 Produtos do Cash Management Santander Banespa. . . . . . . . . . . . . p. 13 

4 Exemplo de título, ou boleto. . . . . . . . . . . . . . . . . . . . . . . . . p. 15 

5 Curva conceitual de relacionamento do cliente. . . . . . . . . . . . . . . . p. 18 

6 Diagrama de Paretto (Curva ABC). . . . . . . . . . . . . . . . . . . . . . p. 23 

7 Ambiente de Business Intelligence. Fonte: Kakinohana et al, 2005 . . . . p. 25 

8 Pirâmide de Business Intelligence. . . . . . . . . . . . . . . . . . . . . . . p. 26 

9 Metodologia de Data Mining. . . . . . . . . . . . . . . . . . . . . . . . . p. 27 

10 Tela do software SAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 28 

11 Transformação de uma ou mais linhas para cada cliente em uma só linha 

mas em diferentes colunas: Customer Signature. . . . . . . . . . . . . . . p. 29 

12 Regressão linear monovariável. . . . . . . . . . . . . . . . . . . . . . . . . p. 33 

13 Regressão logística monovariável. . . . . . . . . . . . . . . . . . . . . . . p. 33 

14 Momento da perda do cliente e período em que será feito o estudo. . . . . p. 37 

15 Relação entre custos de falsos churns e falsos não churns. . . . . . . . . . p. 39 

16 Redes em que o Brasil é dividido. . . . . . . . . . . . . . . . . . . . . . . p. 42 

17 Exemplo em que o número de títulos emitidos por um cliente na Agência 

0123 diminuiu mas o número emitido pelo CNPJ aumentou se somadas 

as duas agências. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 45 

18 Histograma das freqüências das saídas por Regressão Linear - Top - 80%. p. 51 

19 Histograma das freqüências das saídas por Regressão Linear - Medium - 

70%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 53


20 Histograma das freqüências das saídas por Regressão Linear - Low - 60%. p. 54 

21 Histograma das freqüências das saídas por Regressão Logística - Top - 

80%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 56 

22 Histograma das freqüências das saídas por Regressão Logística - Medium 

- 70%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 58 

23 Histograma das freqüências das saídas por Regressão Logística - Low - 

60%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 60

Lista de Tabelas 

1 Distribuição dos estratos por potencial de liquidação de títulos. . . . . . p. 36 

2 Segmentação das empresas por faturamento estimado. . . . . . . . . . . . p. 43 

3 Divisão das bases em treinamento e validação. . . . . . . . . . . . . . . . p. 50 

4 Regressores e valores dos parâmetros - Regressão Linear - Top. . . . . . . p. 51 

5 Regressores e valores dos parâmetros - Regressão Linear - Medium. . . . p. 52 

6 Regressores e valores dos parâmetros - Regressão Linear - Low. . . . . . . p. 54 

7 Regressores e valores dos parâmetros - Regressão Logística - Top. . . . . p. 55 

8 Regressores e valores dos parâmetros - Regressão Logística - Medium. . . p. 57 

9 Regressores e valores dos parâmetros - Regressão Logística - Low. . . . . p. 59 

10 Comparação dos valores de verdadeiros e falsos churns da regressão lin- 

ear nas bases de treinamento e validação. Os valores em negrito indicam 

casos onde houve diferença de mais de 10 pontos percentuais entre vali- 

dação e treinamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 61 

11 Comparação dos valores de verdadeiros e falsos churns da regressão logís- 

tica nas bases de treinamento e validação. Os valores em negrito indicam 

casos onde houve diferença de mais de 10 pontos percentuais entre vali- 

dação e treinamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 62

BACEN: Banco Central do Brasil; 

BD: Banco de Dados; 

BI: Business Intelligence; 

CM: Cash Management; 

Lista de Siglas 

CNAE: Código Nacional de Atividade Econômica; 

CNPJ: Cadastro Nacional de Pessoa Jurídica; 

CRM: Customer Relationship Management; 

DAV: Depósito A Vista; 

DM: Data Mining; 

MMQ: Método de Mínimos Quadrados; 

OLAP: On-Line Analytical Processing; 

PJ: Pessoa Jurídica; 

ROI: Return Over Investment;

1 Introdução 

1.1 Engenharia de Controle e Automação - UFMG 

Fundada em 1927, a Universidade Federal de Minas Gerais (UFMG) é uma das princi- 

pais instituições de ensino do país. A alta qualificação do seu corpo docente, a competência 

do pessoal técnico e administrativo, a qualidade de seus alunos e a diversidade dos campos 

em que atua contribuem decisivamente para a excelência do seu desempenho no ensino, 

na pesquisa e na extensão. Fazem parte da comunidade da UFMG mais de 35 mil alunos, 

mais de 2.400 professores (89,6% mestres ou doutores) e mais de 4.400 funcionários [17]. 

Figura 1: Brasão da Universidade Federal de Minas Gerais. 

Um dos cursos criados recentemente na UFMG é o bacharelado em Engenharia de 

Controle e Automação. O Departamento de Engenharia Eletrônica (DELT), sede da área 

de conhecimento em Engenharia de Controle na UFMG, apresentou o projeto de cri- 

ação do Curso de Engenharia de Controle e Automação em fevereiro de 1996. O projeto 

foi discutido e aprovado nas diversas instâncias da Universidade (Câmaras Departamen- 

tais, Congregação da Escola de Engenharia, Câmara de Graduação, Conselho de Ensino, 

Pesquisa e Extensão) e, finalmente, em 12/06/97, o Curso foi aprovado pelo Conselho 

Universitário para iniciar suas atividades em 1998 [9]. 

10

Esta é a sétima turma a se formar. Como parte integrante do currículo inclui-se o 

Projeto Final de Curso(PFC) que é realizado pelos alunos nos dois últimos semestres do 

curso. O objetivo é que os alunos apliquem o conhecimento aprendido ao longo dos 5 anos 

do curso sendo supervisionados por um professor de um dos departamentos integrantes 

do curso e por um supervisor na empresa onde o projeto está sendo implementado. 

Ao final, o aluno defende publicamente o seu projeto e apresenta uma monografia. 

1.2 Apresentação da Empresa 

1.2.1 História 

Em 1982, foi instalado o primeiro escritório de representação do Santander no Brasil e, 

nove anos depois, começaram as operações do Santander Investment. O processo de forte 

expansão dos negócios no Brasil foi iniciado em 1997, com a aquisição do Banco Geral do 

Comércio. Nos anos seguintes, foram mais três aquisições, que fizeram o Grupo ganhar 

posição entre os maiores players do setor. Em 1998, foi comprado o Banco Noroeste, 

em janeiro de 2000 foi anunciada a aquisição do Conglomerado Financeiro Meridional - 

formado pelos bancos Meridional e Bozano, Simonsen - e, em novembro do mesmo ano, o 

Santander comprou o controle do Banco do Estado de São Paulo, Banespa. 

Em 2001, foi formado o Banco Santander Banespa, após a reestruturação societária re- 

alizada no primeiro semestre do ano, envolvendo operações contábeis para a transferência 

das ações do Banespa, de propriedade do Banco Santander Central Hispano, para o Banco 

Santander S/A. O Grupo é formado pelas empresas financeiras Banco Santander Central 

Hispano, com sede em Madri, Banespa, Banco Santander Meridional, Banco Santander 

Brasil e Banco Santander S/A (antigo Banco Bozano, Simonsen). 

Figura 2: Logotipo do Banco Santander Banespa. 

Atualmente, o Banco Santander Banespa possui mais de 6,5 milhões de clientes, aten- 

didos por 21 mil profissionais e uma rede de 1.888 agências e postos de atendimento 

bancário(PABs), além de 7.334 caixas eletrônicos. Os ativos totais somaram R$69,6 bil- 

hões, o que lhe confere o quarto lugar no ranking do Banco Central, entre as instituições 

privadas. É um banco múltiplo, com presença ativa em operações diversificadas de varejo 

11

e atacado, com uma gama de negócios e produtos em diferentes segmentos de clientes - 

pessoas físicas (6,3 milhões de clientes), pequenas e médias empresas (180 mil clientes), 

corporações (8,8 mil clientes), governos e instituições (18 mil clientes) [15]. 

1.2.2 Valores 

O Santander Banespa está apoiado em sólidos valores: 

• Foco no cliente 

• Compromisso 

• Equipe 

• Eficiência 

• Qualidade 

• Inovação 

• Transparência 

• Solidez 

• Comprometimento com as comunidades nas quais opera. 

1.2.3 O maior entre as menores 

Em 2005, o Santander Banespa definiu uma meta a ser cumprida em 3 anos: ser 

considerado como referência entre as empresas com faturamento anual até R$100 milhões: 

consideradas pequenas e médias empresas. A fim de cumprir esse objetivo, encomendou-se 

uma pesquisa de mercado, a fim de se fazer um amplo diagnóstico sobre as dimensões, 

características e necessidades desse mercado [16]. 

É nesse contexto de busca de aumento de participação nesse mercado que se insere o 

presente projeto. 

1.2.4 Cash Management 

O Cash Management é o setor responsável pelo gerenciamento do fluxo de caixa 

das empresas através de soluções de recebimentos e pagamentos para otimizar o dia-a- 

12

dia financeiro/operacional das empresas. A figura 3 mostra os serviços e produtos que 

compõem as soluções do Cash Management Santander Banespa. 

Figura 3: Produtos do Cash Management Santander Banespa. 

Se o resultado do fluxo de caixa de uma empresa é positivo, ela investe o excedente. 

Se é negativo, ela deve cobrir esse déficit via operação de crédito ou será considerada 

inadimplente. 

• RECEBIMENTOS 

Cobrança ⇒ Serviço prestado aos correntistas, Pessoas Jurídicas ou Pessoas Físicas 

para recebimento de seus créditos futuros, oriundos de transações comerciais entre vende- 

dor e comprador. Os títulos (boletos - vide Figura 4 1 ) podem ser colocados em cobrança 

na forma física ou eletrônica. Existem duas modalidades: Cobrança com Registro, onde 

o banco registra cada título e cobra tanto pela emissão quanto pela liquidação; permite 

serviço como protesto automático. Cobrança sem Registro, onde o banco só conhece o 

título quando ele é liquidado. Só é cobrada tarifa se o título for liquidado. 

Recolhimento de Valores ⇒ É um serviço de recolhimento e transporte de valores, 

direcionado para empresas que tenham grandes volumes de numerários, cheques e tíquetes 

em seus pontos de venda. Por meio de empresa de segurança terceirizada, o Santander 

coleta, prepara, credita e informa a posição gerencial dos recursos com segurança e rapidez. 

1 dados fictícios 

13

Custódia de Cheques ⇒ Serviço oferecido a clientes Pessoa Jurídica do Banespa, 

que possibilita a guarda, controle e depósitos de cheques pré-datados, até a data do 

vencimento. Os cheques entregues pelo cliente são identificados e guardados com toda 

segurança até a data de seu respectivo depósito. 

Depósito Identificado ⇒ Permite aos clientes Banespa identificar a procedência dos 

depósitos que são efetuados em sua conta corrente. A identificação do depositante é feita 

através de um código de 06 algarismos, que é fornecida pelo cliente ao seu depositante. 

Este deve transcrever o código recebido no formulário de depósito utilizado pelo Banco. 

Débito Automático ⇒ Possibilita à empresa conveniada efetuar a cobrança de 

seus recebíveis através de lançamentos diretos na conta corrente, relativos a compromis- 

sos assumidos pelos clientes correntistas. A empresa contratante do serviço de débito 

automático, além de efetuar os seus recebimentos de modo seguro, proporciona ao seu 

cliente a comodidade de efetuar os pagamentos sem a necessidade de ir ao banco. 

Arrecadação/Código de Barras ⇒ Serviço destinado a recebimentos diversos (ex: 

impostos) no qual existe captura por meio de leitura ou digitação da respectiva represen- 

tação numérica, ou pela digitação dos campos do documento (não é necessário o envio do 

documento físico para a prestação de contas). Pelo código identificador o valor é creditado 

na conta do contratante. 

Figura 4: Exemplo de título, ou boleto. 

14

• PAGAMENTOS 

PagLine ⇒ Também chamado de Pagamento a Fornecedores, o PagLine é o serviço 

oferecido aos clientes PJ que têm condições de operacionalizar o seu contas a pagar de 

forma automatizada com o banco. O cliente gera e transmite ao banco um arquivo 

eletrônico contendo as informações sobre os pagamentos que deseja efetuar - para quem, 

de que forma, quando e quanto - ficando o banco responsável por cumprir as ordens do 

cliente: processar seus pagamentos e acatar instruções. 

Folha de Pagamento ⇒ É um serviço totalmente automatizado e seguro que visa 

facilitar a folha de pagamentos. A empresa envia os dados para a agência que debita da 

sua conta e credita nas contas dos funcionários. Os funcionários se tornam correntistas 

do banco e têm direito a pacotes de serviços em condições especiais. 

Tributos ⇒ Convênios firmados entre o banco e órgãos municipais, estaduais e fed- 

erais, que possibilita ao banco ser um agente arrecadador de diversos tributos e taxas. O 

banco repassa ao órgão os recursos mediante crédito em conta. 

Concessionárias ⇒ Produto onde a empresa conveniada pode otimizar o pagamento 

de suas obrigações junto a diversas concessionárias. 

visto pela óptica de quem está pagando. 

Confirming ⇒ 

15 

É o similar do Débito Automático, 

É um produto de empréstimo que atua na cadeia produtiva dos 

clientes, proporcionando aos fornecedores desses a possibilidade de antecipar recursos 

referentes a venda de bens e prestação de serviços, sem a necessidade dos fornecedores 

possuírem linha de crédito no banco. 

1.3 Contextualização 

O produto Cobrança (boletos: desde planos de saúde a TV por assinatura) do San- 

tander Banespa é o maior gerador de receita e maior estreitador de relacionamento com 

os clientes PJ. Dentre as empresas que são clientes de Cash Management, cerca de 80% 

possuem Cobrança em seu portfólio de produtos. Por ter essa alta taxa de penetração

junto aos clientes, a Cobrança pode fomentar a implantação de outros produtos de CM 

nas empresas. E a expressividade da receita que o produto gera não é advindo somente 

do número de clientes, mas também pela variedade de receitas. As mais importantes são: 

• Registro de títulos: o banco cobra uma tarifa fixa por boleto enviado para cobrança. 

• Liquidação de títulos: essa tarifa só é cobrada quando o título é efetivamente pago 

na rede bancária conveniada. 

• Instruções (Baixa, Pedido Protesto, Sustação de Protesto, Abatimento, Desconto 

Financeiro, Alteração de Vencimento, Multas, Juros de Mora): para cada linha de 

instrução, existe tarifação. 

• Boletos sob medida: o banco personaliza o boleto com a logomarca do cliente, col- 

orido, com característica que conferem maior segurança, etc. O preço varia conforme 

a customização. 

• DAV: refere-se à receita que é apurada pelo banco decorrente do número de dias 

(float) que o banco fica com o dinheiro antes de repassar ao cedente. 

Para ilustrar o potencial de receita que é gerado de DAV, lista-se o seguinte exemplo: 

Cliente possui um faturamento de R$ 5,0 MM/mês - EMPRESAS II - e recebe 

metade desse valor via Cobrança. 

Consideramos que a taxa SELIC é de 19,50% ao ano, que o Depósito Compul- 

sório no BACEN é de 70% e que o banco negociou com esse cliente 3 dias de 

float, ou seja, depois que o título é pago na rede bancária conveniada, o banco 

só repassa o recurso 3 dias depois. O dinheiro dorme no banco 3 dias. 

Assim, a receita provida pelo DAV é: 

a(1 + b) d 

k = 750.000,00 x ((1 + 19,5%) 3 

252 − 1) = R$1.592,27 por mês. 

onde a é o valor livre de compulsório, b é a taxa SELIC, d é o número de dias 

de float e k é o número de dias úteis no ano. 

Assim, apenas com esse cliente fictício o banco lucraria em um mês mais de mil e 

quinhentos reais apenas de receita de DAV. Somando-se a isso a receita provida pelas 

tarifas, pode-se ver a importância que cada cliente tem para o banco, em termos de geração 

de receita. 

16

1.4 Motivação 

Entre janeiro de 2004 e janeiro de 2005, foi apurado que o índice de Churn de Cobrança 

chegou perto dos 50% [5]. A perda desses clientes implica grandes perdas financeiras para 

o banco, tanto de tarifas quanto de DAV. Segundo Kotler (2000), existe um tempo de 

“pagamento” do cliente, que é o período mínimo que o cliente deve permanecer comprando 

produtos para pagar o custo que a empresa teve de prospectá-lo. Esse custo inclui esforços 

de Marketing, visitas de especialistas e, no caso de Cobrança, instalação e treinamento 

para a utilização do Gerador de Arquivos, que é um software que gerencia a troca de 

informações entre a empresa e o banco. O objetivo do Santander Banespa, entretanto, 

não é apenas que o cliente se pague, mas que ele permaneça o maior tempo possível ativo 

em Cobrança e que, durante esse tempo, seu potencial seja explorado ao máximo. 

Com esse objetivo em foco, a área de CM criou um amplo projeto que abrange todas 

as fases do ciclo de relacionamento do cliente com o produto Cobrança, com ações nas 

fases de Prospecção, Ativação, Retenção e Reativação, além da Modelagem Preditiva, foco 

deste trabalho. A Figura 5 ilustra as fases em que as ações ocorrem. 

Figura 5: Curva conceitual de relacionamento do cliente. 

Para cada fase desse ciclo, o CM instituiu ações de forma a aumentar a base de clientes 

ao mesmo tempo que mitiga a perda deles. São elas: 

Prospecção - Manter e intensificar os esforços de conquista de novos clientes. 

Ativação - Contatos feitos pela Mesa de Negócios para estreitar o relacionamento, iden- 

tificar eventuais problemas e acompanhar de perto o cliente. 

17

Modelagem Preditiva - estudar o comportamento histórico dos clientes e a partir 

de modelos, tentar prever os clientes mais propensos a sair antes mesmo deles 

começarem a diminuir o relacionamento com o banco. Identificados os clientes 

propensos a sair o banco atua com a mesma metodologia da fase de Retenção. 

Retenção - Contato telefônico feito por especialistas, pela Mesa de Negócios, pelos Ge- 

rentes de Negócios das agências ou pelo Call Center, dependendo do valor do cliente 

para o produto. Possíveis ações de encantamento, como brindes, e mapeamento do 

porquê da diminuição do relacionamento do cliente com o banco. Especialistas têm 

alçada para negociar redução de tarifas. As outras frentes de ação terão um limite 

para desconto. 

Reativação - Pesquisa com clientes inativos para mapear motivos de perda, e nortear 

ações e melhoras nos produtos e no atendimento. 

As abordagens de Retenção e Reativação são reativas, ou seja, depois que o cliente 

deu sinais claros de deixar o produto, o CM procura os clientes e tenta reverter a perda. 

O esforço de Prospecção e Ativação já são feitos, ainda que neste projeto objetiva-se 

intensificar esses esforços. 

A novidade é a Modelagem Preditiva, através de que se pretende ter um insight 

antes de o cliente entrar nas fases de Retenção e Reativação e poder atuar antes, o que 

poderá com grandes chances diminuir o índice de churn e potencializar o ROI(Return 

Over Investment) de cada cliente dentro do produto Cobrança. 

1.5 Objetivos 

O objetivo deste trabalho é, a partir de modelos matemáticos, identificar a cada 

mês os clientes com maior propensão a abandonar o produto Cobrança. Serão utilizadas 

ferramentas de Data Mining (Mineração de Dados) [2, 7, 8] a fim de a partir de uma base 

histórica de comportamento de todos os clientes (ativos e inativos - 18 meses), construir 

modelos, via regressões, para a detecção prévia do momento de queda do relacionamento 

do cliente com o produto cobrança. Este trabalho se insere em um projeto maior de 

toda a área, que envolve esforços desde a prospecção de novos clientes até a tentativa de 

recuperação dos inativos. Os modelos serão obtidos via Regressão Linear [4] e Regressão 

Logística [10]. 

18

Com essa modelagem preditiva, o banco poderá orientar os esforços de atuação nos 

clientes mais valiosos e que estiverem com maior risco, segundo os modelos, de abandonar 

o produto Cobrança. 

1.6 Organização da Monografia 

O conteúdo desta monografia está dividida em capítulos. 

O capítulo 1 trouxe uma breve introdução aos contextos onde o presente projeto foi 

realizado, bem como apresentou as instituições nele envolvidas. 

O capítulo 2 descreve os principais conceitos utilizados neste projeto, tais como Data 

Mining e Regressão, além de todo o ferramental matemático a ser utilizado. O capítulo 3 

traz a metodologia adotada ao longo da implementação do projeto. O capítulo 4 descreve 

a base de dados e os esforços de adequação da mesma para a etapa de Modelagem. O 

capítulo 5 expõe como a Modelagem foi feita e em quais amostras. O capítulo 6 mostrra 

os resultados obtidos para cada modelo. Finalmente, o capítulo 7 traz as conclusões 

depreendidas do projeto e no capítulo 8 são apresentadas sugestões para trabalhos futuros. 

19

2 Fundamentação Teórica 

2.1 Gestão do Relacionamento com os Clientes 

O CRM (do inglês Customer Relationship Management) é uma estratégia de gestão de 

negócios através do relacionamento com o cliente, para a realização de maior lucratividade 

e ganhos de vantagem competitiva, destacando para isso a participação da tecnologia como 

forma de automatizar os diversos processos de negócio, como vendas, marketing, serviços 

ao consumidor e suporte a campo. O CRM integra pessoas, processos e tecnologia para 

otimizar o gerenciamento de todos os relacionamentos, incluindo consumidores, parceiros 

de negócios e canais de distribuição. 

O processo de implementação de uma iniciativa de CRM pode ser pensada como uma 

série de quatro passos básicos: Identificar, Diferenciar, Interagir e Personalizar. 

1. Identificar os clientes: não é possível estabelecer uma relação com alguém que não 

se consegue identificar. Assim, torna-se crítico conhecer os clientes individualmente, 

com o maior número de detalhes possível e identificar, dentre todos, quais são os 

melhores e que podem dar a médio e longo prazo um bom retorno financeiro. 

2. Diferenciar os clientes: os clientes podem ser diferenciados de duas maneiras: 

pelo nível de valor para a empresa e pelas necessidades que têm de produtos e 

serviços da mesma. Assim, uma vez tendo identificado os clientes, o próximo passo 

é a diferenciação dos clientes de maneira a: (a) priorizar os esforços e aproveitar 

o máximo possível do potencial dos clientes de maior valor e (b) personalizar, na 

medida do possível, o comportamento da empresa, baseado nas necessidades indi- 

viduais dos clientes. Isso implica estabelecer algum tipo de critério de estratificação, 

modelo de lucratividade ou de diferenciação dos clientes. 

3. Interagir com os clientes: interagir com os clientes não implica somente bus- 

car a forma mais barata ou automatizada de interação, mas também a mais útil 

20

em termos de produção de informação, que possa ajudar a fortalecer as relações 

empresa-cliente. A etapa de interação está intimamente ligada à de diferenciação 

e à de personalização. Além de saber como as necessidades dos clientes mudam, 

é necessário um processo de utilização dos feedbacks de um cliente em particular 

para que seja possível compreender quais são as necessidades específicas daquele 

cliente. 

4. Personalizar alguns aspectos de uma empresa/produtos para melhor atender seus 

clientes. Isso não significa, entretanto, mudar toda a estrutura da empresa ou criar 

um novo produto a partir da necessidade de cada cliente, mas tentar adequar os 

fatores pertinentes de forma a atender os melhores clientes de maneira mais satis- 

fatória e que impulsione a interação com esses. 

Em setores nos quais existe baixa diferenciação de oferta de produtos e alta competi- 

tividade, conhecer os clientes e seus comportamentos são condições necessárias para uma 

empresa se manter viva no mercado. O setor bancário é um desses, onde os produtos são 

muito parecidos e existe um freqüente ”aliciamento” de clientes por outros bancos [18]. 

Assim, a competição não se limita na aquisição de novos clientes, mas também, e até mais 

importante, na manutenção dos clientes atuais, uma vez que adquirir novos clientes pode 

ser até 6 vezes mais caro que manter os atuais [12, 7]. 

Portanto, uma das tendências do marketing tem sido a crescente ênfase em desenvolver 

o relacionamento e fidelizar os clientes, para que estes dêem sustentabilidade à empresa. 

Assim, torna-se necessário o desenvolvimento de estratégias e formas de se manter os 

clientes já conquistados. 

É reconhecido pelas empresas que todos os clientes são importantes, porém alguns 

são mais importantes que outros. Essa questão foi estudada primeiramente por Vilfredo 

Paretto, um renascentista italiano do século XIX, que em 1897 executou um estudo sobre a 

distribuição de renda. Através desse estudo, percebeu-se que a distribuição de riqueza não 

se dava de maneira uniforme, havendo grande concentração de riqueza (∼ 80%) nas mãos 

de uma pequena parcela da população (∼ 20%) [12]. O raciocínio de Paretto, batizado de 

Curva ABC ou Curva 80-20, tem sido estendido a outras áreas e atividades tais como a 

industrial e a comercial, sendo mais amplamente aplicado a partir da segunda metade do 

século XX. No âmbito de marketing, a análise de Paretto é enquadrada na medida em que 

perto de 80% do lucro de uma empresa é proveniente de aproximadamente 20% de seus 

clientes, que são considerados portanto os mais valiosos, ou mais rentáveis (Figura 6). 

21

Figura 6: Diagrama de Paretto (Curva ABC). 

Dedicar maior atenção a esses clientes mais valiosos é uma boa estratégia para se 

garantir a lucratividade do banco em relação ao cliente no longo prazo e evitar que um 

bom cliente migre para um banco concorrente. E quando se perde um cliente, não se perde 

apenas o investimento que foi feito na aquisição dele, mas também toda a lucratividade que 

ele poderia proporcionar no futuro. Dependendo do produto/serviço vendido, o tempo de 

permanência do cliente pode nem ter sido suficiente para pagar o investimento inicial [12]. 

Ou seja, um cliente infiel pode trazer ao invés de pouco lucro, muito prejuízo. 

Para a prestação de serviços bancários, existem algumas características e fatores 

estratégicos de sucesso, tais como: especialização técnica, velocidade de solução e in- 

formação, preços competitivos, administração de relacionamentos com clientes e outros 

parceiros significativos. Ao conhecer os clientes, o banco pode mapear onde o seu pro- 

duto/serviço está deficiente, e pode concentrar esforços nos itens que mais impactem na 

fidelização de seus clientes. 

Assim, o CRM é fundamental na medida em que insere inteligência no relacionamento 

com o cliente e através disso permite a utilização do conhecimento gerado para racionalizar 

as ações de marketing a fim de explorar todo o potencial de cada cliente, principalmente 

dos melhores clientes: os mais rentáveis. 

22

2.2 Data Mining 

A partir da década de 80, a intensificação da informatização nas empresas possibilitou 

grandes saltos operacionais nos negócios. Isso implicou grande aumento no volume de 

dados circulando e sendo armazenados. Juntamente com o crescimento desses volumes, 

cresceu a dificuldade de se retirar informações úteis dessa enorme gama de dados. 

O conceito de Business Intelligence (BI) - Figuras 7 e 8- surgiu para tentar resolver 

esse problema e consiste em uma vasta categoria de tecnologias e programas aplicativos 

utilizados para extrair, armazenar, analisar e transformar grandes volumes de dados, 

produzindo um ambiente de conhecimento, onde há produção sistemática de informação 

gerencial, veloz e consistente, capaz de auxiliar as empresas a tomarem as melhores de- 

cisões nos negócios. Isso baseado em fatos reais, com profundidade suficiente para desco- 

brir as causas de uma tendência ou de um problema, ou tomar decisões que a coloquem 

à frente dos concorrentes [11]. 

Figura 7: Ambiente de Business Intelligence. Fonte: Kakinohana et al, 2005 

Duas das soluções que compõem o BI são o OLAP (On-Line Analytical Processing), 

que consiste basicamente em geração de relatórios, e o Data Mining. 

“Data Mining é a exploração e análise de grandes quantidades de dados a fim de se 

descobrir padrões e regras significantes” [2]. 

A idéia central do DM para CRM é que os dados do passado contém informações 

que serão úteis no futuro. Isso se torna verdade na medida em que o comportamento dos 

consumidores presente nos dados corporativos não são puramente aleatórios, mas refletem 

diferentes necessidades, preferências e propensões. A tarefa de encontrar essas informações 

é dificultada porque os padrões nem sempre são fortes, e os muitos sinais coletados são, na 

maioria das vezes, ruidosos e confusos. Separar o sinal do ruído - reconhecer os padrões 

fundamentais escondidos nas variações randômicas - é um importante desafio do DM [2, 8]. 

23

Figura 8: Pirâmide de Business Intelligence. 

Para ser efetivo, o Data Mining deve ser executado em um contexto que permita à 

organização atuar a partir das informações que o DM lhe fornece. 

As possibilidades da tarefa de Data mining, e.g. percentual de acerto, etc, dependem 

em muito da natureza dos dados disponíveis e não apenas da quantidade. 

24 

É tarefa do 

Data Miner manipular os dados de forma que atendam às necessidades de implementação. 

Data mining está muito relacionado com a elaboração de modelos. Um modelo é 

simplesmente um algoritmo ou um conjunto de regras que define a relação entre a(s) en- 

trada(s) e saída(s). Algumas técnicas utilizadas na construção de modelos são: Regressões, 

Redes Neurais, Árvores de Decisão. 

2.2.1 Aplicações de Data Mining 

⊲ Classificação: Consiste em se examinar as características de um objeto novo que 

é apresentado e enquadrá-lo em uma das classes pré-definidas. 

⊲ Estimação: Ao passo que Classificação lida com saídas discretas, Sim ou Não,

Figura 9: Metodologia de Data Mining. 

25

Quadrado, Redondo ou Retangular, Estimação lida com saídas contínuas. 

⊲ Predição: Consiste em se prever um comportamento futuro com base em dados 

históricos e/ou classificatórios. Exemplo: prever o gastos com cartão de crédito no próx- 

imo mês com base em dados históricos passados e cadastrais dos clientes. 

⊲ Agrupamento por afinidade: Consiste em se gerar regras a partir dos dados. 

São as “Regras de Associação” Exemplo: pessoas que compram comida de gato também 

compram leite com probabilidade P1. 

⊲ Clustering: Similar a Classificação, mas não existem número de classes nem as 

classes pré-definidas. 

⊲ Descrição: Busca descrever o comportamento de consumidores/produtos. Exem- 

plo: Mais homens preferem hamburgers do que mulheres na razão de 1.2:1. 

O presente projeto se enquadra em duas das tarefas citadas anteriormente: (1) Clas- 

sificação: uma vez que se quer classificar os clientes entre churn e não churn;(2) Predição: 

uma vez que se quer predizer se o cliente será churn ou não churn com base em dados 

históricos e cadastrais dos mesmos. 

Figura 10: Tela do software SAS. 

Existem alguns softwares que podem ser utilizados para se pôr em prática as ferra- 

26

mentas de Data Mining e descobrir informações importantes em grandes massas de dados. 

Alguns dos softwares mais utilizados são o SAS (Figura 10), o SPSS e o Microsoft 

Access. 

A Figura 9 mostra a metodologia completa de DM. Ela é uma norteadora quando o 

problema envolve DM. 

Em um típico problema de Data Mining, cerca de 60% do tempo é gasto nos passos 1 

a 6 da Figura 9, pois deve-se garantir com a maior certeza possível a qualidade dos dados 

que serão utilizados na obtenção dos modelos. 

“Just as the most powerful engines cannot use crude oil as a fuel, the most power- 

ful algorithms (the engines of data mining) are unlikely to find interesting patterns in 

unprepared data”. 1 [2]. 

Figura 11: Transformação de uma ou mais linhas para cada cliente em uma só linha mas 

em diferentes colunas: Customer Signature. 

Após se garantir a qualidade dos dados, é necessário colocá-los no formato adequado 

para modelagem. A transição mostrada na Figura 11 ilustra esse procedimento. Depois 

desse processo, em cada linha estarão todas as informações relativas a cada CNPJ. Esse 

formato é chamado de Customer Signature [2]. 

1 Assim como os mais potentes motores não podem utilizar petróleo crú como combustível, os algoritmos 

mais poderosos (os motores do Data Mining) dificilmente encontrarão padrões interessantes em 

dados despreparados 

27

2.3 Taxa de Redução de Erro 

O critério da taxa de redução de erro (ERR - do inglês Error Reduction Ratio) [3, 

1, 19] pode ser usado na determinação de um número de regressores de um modelo. Ele 

estabelece uma medida de importância para cada regressor, pois quantifica a redução no 

erro da saída do modelo devido à introdução de cada regressor. Assim, dentre um conjunto 

possivelmente grande de regressores candidatos, inclui-se os regressores com maior ERR. 

Define-se o seguinte modelo genérico: 

y(k) = ψ T (k − 1) ˆ θ + ξ(k) = 

nθ 

i=1 

28 

ˆθiψi(k − 1) + ξ(k), (2.1) 

sendo que são considerados os regressores até o instante (k − 1), e define-se o modelo 

auxiliar 

nθ 

y(k) = ˆgiωi(k − 1) + ξ(k), (2.2) 

i=1 

em que os regressores ωi são ortogonais entre si ao longo da massa de dados, ou seja, 

sendo que i,j = 1...nθ. 

w T i wj = 

N 

ωi(k)ωj(k) = 0, ∀i = j, (2.3) 

A soma dos valores quadráticos de y(k) é 〈y,y〉 ou y T y. Assim, 

y(k) 2 = 

nθ 

k=1 

 

ˆgiωi(k − 1) + ξ(k) 

i=1 

nθ 

 

 

ˆgiωi(k − 1) + ξ(k) . (2.4) 

Assumindo-se que o sistema seja ergódico, considera-se a média de 2.4 que resulta em 

y T nθ 

y = 

i=1 

ˆg 2 i ω 2 nθ nθ 

i + 

i=1 

 

j=1 

ˆgiˆgjω 2 nθ 

i + 2 

i=1 

i=1 

ˆgiωiξ + ξ T nθ 

ξ = ˆg 2 i ω 2 i + ξ T ξ. (2.5) 

A equação 2.5 mostra que o somatório dos quadrados de y(k) (valor quadrático médio) 

pode ser definido como a soma dos valores quadráticos de cada regressor multiplicado pelos 

respectivos parâmetros e dos valores quadráticos do vetor de resíduos, que corresponde à 

parte não explicada pelos regressores considerados. Assim, quantifica-se a importância de 

i=1

cada regressor considerado no modelo [19]. 

Por conseguinte, é definido a taxa de redução de erro do i-ésimo regressor como 

2.4 Regressão 

29 

[ERR]i = ˆg2 i w2 i 

yT . (2.6) 

y 

Regressão é uma técnica estatística que permite derivar modelos matemáticos que 

explicam a variação de uma variável dependente em função de outras independentes. O 

software SAS utiliza o MMQ - Método de Mínimos Quadrados - que consiste em se 

encontrar os parâmetros dos regressores que minimizem o somatório do quadrado dos 

resíduos [1]. 

Considerando-se que se conhece o valor estimado do vetor de parâmetros, ˆ θ, e que é 

cometido um erro ξ ao se tentar explicar o valor observado y a partir do vetor de regresores 

x e de ˆ θ, ou seja, 

y = x Tˆ θ + ξ. (2.7) 

Tomando-se N > nθ aplicações da equação 2.7, a representação matricial torna-se 

y = X ˆ θ + ξ, (2.8) 

em que ξ∈ R N×1 é o vetor de erros cometidos ao se tentar explicar y ∈ R N×1 como X ˆ θ. 

É razoável que uma resposta mais precisa ocorre onde ξ é reduzido em algum sentido. 

Assim, define-se o somatório do quadrado dos resíduos, que é a função que pretende-se 

minimizar: 

JMQ = 

N 

ξ(i) 2 = ξ T ξ = ξ 2 , (2.9) 

i=1 

que é um índice que quantifica a qualidade de ajuste de X ˆ θ ao vetor de observações y. 

A fim de minimizar a função custo JMQ com relação a ˆ θ, é necessário que (∂JMQ/∂ ˆ θ = 

0). Com essa restrição e substituindo ξ de 2.8 em 2.9, tem-se que:

ou seja, 

∂JMQ 

∂ ˆ θ = −2XT y + 2X T X ˆ θ = 0, (2.10) 

ˆθ = [X T X] −1 X T y. (2.11) 

Para que ˆ θ seja mínimo, (∂ 2 JMQ/∂ ˆ θ 2 = 2X T X > 0). Como 2X T X > 0 é posi- 

tiva definida por construção, a equação 2.11 é o estimador que minimiza o somatório do 

quadrado dos erros. Em suma, 

ˆθMQ = arg θminJMQ = [X T X] −1 X T y. (2.12) 

A equação 2.12 é o estimador de Mínimos Quadrados clássico. 

2.4.1 Regressão Linear Múltipla 

A regressão linear consiste em se obter um modelo linear nos parâmetros. Um modelo 

de regressão linear múltipla é um modelo onde o número de variáveis preditoras, ou 

regressores, é maior que um [4, 14]. Tem-se que 

Yi = β0,i + β1x1,i + ... + βnθ−1xnθ−1,i + εi, i = 1 . . . N (2.13) 

em que Yi = {1 ou 0}, para o caso em que a resposta é binária. 

A resposta esperada é dada por: 

πi = E(Yi) = β0,i + β1x1,i + ... + βnθ−1xnθ−1,i, i = 1 . . . N (2.14) 

em que E é o operador de esperança matemática. 

A Figura 12 ilustra uma regressão linear em que há somente uma variável regressora. A 

idéia pode ser estendida ao caso com mais de um regressor, em que é gerada uma superfície 

nθ + 1-dimensional, onde nθ é o número de regressores. A idéia central é mantida, em 

que se deseja encontrar uma superfície tal que o somatório do quadrado dos erros seja 

minimizado via Mínimos Quadrados. 

30

Figura 12: Regressão linear monovariável. 

2.4.2 Regressão Logística Múltipla 

A Figura 13 ilustra uma regressão logística onde existe somente uma variável regres- 

sora. Similarmente ao caso linear, a idéia pode ser estendida à situação em que o número 

de regressores é maior que 1, em que é gerada uma superfície n + 1-dimensional, onde 

n é o número de regressores. A resposta de uma função logística sempre varia entre 0 e 

1 [10, 13]. 

Figura 13: Regressão logística monovariável. 

Para o caso com mais de um regressor: 

E(Yi) = e(β0,i+β1x1,i+...+βnθ−1xnθ −1,i) 

1 + e (β0+β1x1,i+...+βn 

, i = 1 . . . N. (2.15) 

θ−1xnθ −1,i) 

31

3 Metodologia 

A partir da base de dados inicial, serão descritas todas as informações que foram 

disponibilizadas, bem como a faixa de valores que cada uma pode assumir. Conhecer bem 

os dados é um passo importante no processo de Data Mining para posterior modelagem 

preditiva, que consiste em se obter modelos matemáticos que determinem a probabilidade 

de um evento acontecer. No caso desta monografia, o evento (variável dependente) será a 

perda de um cliente para o produto Cobrança. 

Pode haver inconsistências na base de dados que será utilizada. Elas devem ser identi- 

ficadas e eliminadas, ou a qualidade dos modelos pode ser prejudicada. Serão feitas várias 

queries em toda a base para identificação de possíveis valores que sejam inconsistentes 

com a descrição da base. 

Garantida a integridade da base, far-se-á manipulações a fim de se criar novas variáveis 

que exprimam relações úteis entre as variáveis já existentes. Um exemplo é o ticket médio, 

que é o volume dos títulos liquidados em um determinado mês dividido pelo número de 

títulos liquidados no mesmo mês: 

tm = VL 

NL , 

em que tm é o ticket médio, VL é o volume de títulos liquidados em R$ e NL é o número 

de títulos liquidados. 

Durante todos esses passos acima, ganha-se intimidade com as informações de que se 

dispõe. Resolvidos os problemas dos dados, eles devem ser colocados no formato adequado 

para modelagem, o formato Customer Signature (Figura 11), em que cada linha contém 

todas as informações relativas a cada CNPJ, conforme descrito no capítulo anterior. 

Uma análise será feita nessa base a fim de se identificar as variáveis que não são signi- 

ficativas, i.e, que são encontradas na base com muito pouca freqüência. Um exemplo é a 

variável Agência, que é uma variável quase única, uma vez que existem muitas agências, o 

32

que implica poucos clientes por agência. Se a presença/ausência de uma agência for con- 

siderada como uma variável preditora, isso gerará mais de 1000 variáveis independentes. 

Assim, percebe-se que Agência deve ser descartada. 

A base total será então dividida em três estratos. O objetivo dessa abordagem é tentar 

estudar de forma mais profunda a base. Se se modelar a base inteira, intuitivamente, 

torna-se mais difícil obter um modelo que seja razoável para todos os estratos. 

Tabela 1: Distribuição dos estratos por potencial de liquidação de títulos. 

Estrato Número de títulos por mês (potencial) Número de clientes 

TOP mais que 110 3831 

MEDIUM de 51 a 110 3169 

LOW de 21 a 50 4319 

A divisão desses estratos segue o projeto global do churn, onde o primeiro estrato é 

formado pelos clientes que têm o potencial de liquidação de títulos superior a 110 por mês. 

Este estrato têm 3831 clientes. O segundo estrato abrange os clientes com potencial de 51 

a 110 títulos liquidados por mês e possui 3169 clientes . O terceiro estrato, por sua vez, é 

formado pelos clientes cujo potencial é de 21 a 50 títulos por mês, onde há 4319 clientes. 

Os clientes cujos potenciais é menor que 20 títulos não serão estudados pois representam 

pouco valor para o banco; são os non-focus. Vide Tabela 1. 

Para cada estrato, determinar-se-á o momento do churn. Isso será feito ao se calcular 

um limite inferior para cada cliente baseado no potencial exibido até então pelo cliente. 

Se o cliente emitir durante três meses consecutivos um número inferior a essa limite, ele 

será classificado como churn. O objetivo é ser mais restritivo com os clientes de maior 

valor e menos restritivos com os de menor valor, o que implica os valores de limite inferior 

serem proporcionalmente maiores para os clientes que emitem mais de 111 títulos por mês. 

São considerados três limites para cada estrato, em que as tolerências de emissão durante 

3 meses consecutivos seja 60%, 70% e 80% inferior à média dos últimos 3 meses. Isso 

representa a sensibilidade do banco para considerar as perdas dos clientes. Por justificativa 

de negócio, deseja-se ser mais sensível à perda dos clientes Top e menos sensível à perda 

dos Low. 

Ao se conhecer o momento da perda do cliente, o comportamento deste nos 3 meses 

anteriores será estudado. A esperança é validar se a informação que o cliente iria deixar 

o produto estava nesse período, e quais variáveis independentes (regressores) continham 

essa informação. A Figura 14 ilustra essa idéia. 

Como existem muitos regressores, será aplicado o critério da taxa de redução de erro 

33

Figura 14: Momento da perda do cliente e período em que será feito o estudo. 

(ERR) no software Matlab 6.0, para tentar se determinar quais regressores melhor expli- 

cam a saída. Depois dessa etapa e da redução significativa do número de regressores(para 

ambos os modelos lineares e logísticos), mais regressores podem ser descartados através 

do teste de p-valor, recurso do SAS . Os regressores com p-valor significativos, i.e. menor 

que 0.15, serão mantidos e usados na modelagem. 

Uma vez que se têm as variáveis de estudo e as massas de dados por estrato, é 

necessário dividi-las em massa de treinamento (onde serão obtidos os modelos) e massa de 

validação (onde serão testados os modelos em dados que não foram vistos no treinamento). 

Essas massas devem estar balanceadas, ou seja, conter todos os tipos de comportamentos 

de empresas. 

Conforme foi explicitado no capítulo 2, em um modelo de regressão linear múltipla, 

com várias variáveis regressoras: 

Yi = β0,i + β1x1,i + ... + βnθ−1xnθ−1,i + εi, i = 1 . . . N, 

em que Yi = {1 ou 0}. 

A resposta esperada é dada por: 

34

πi = E(Yi) = β0,i + β1x1,i + ... + βnθ−1xnθ−1,i,i = 1 . . . N (3.1) 

em que E é o operador de esperança. 

Para o modelo de regressão logística múltipla: 

πi = E(Yi) = e(β0,i+β1x1,i+...+βnθ−1xnθ −1,i) 

1 + e (β0+β1x1,i+...+βn 

, i = 1 . . . N. (3.2) 

θ−1xnθ −1,i) 

Assim, a resposta média, quando a variável resposta é uma variável binária (1 ou 0), 

sempre representa a probabilidade Y = 1, para os valores das variáveis preditoras xi. 

Para o caso em questão, xi poderá ter valores reais (exemplo: receita de tarifa de conta 

corrente) ou binários (exemplo: cliente ou não do produto PagLine); para a regressão 

logística poderá ser a combinação de mais um regressor em até no segundo grau. 

Depois de obtidos os modelos, torna-se necessário saber o quão diferenciativos estão 

os modelos, ou seja, se eles estão acertando e se as probabilidades calculadas para clientes 

churn e não churn estão pelo menos um pouco distantes umas das outras. Isso será feito 

pontuando-se cada modelo com os dados de treinamento e determinando-se os ranges de 

cada um. Assim, na base de treinamento observa-se quando uma porcentagem razoável 

de churn foi identificada e utiliza-se esse limiar como limiar também na base de validação, 

a fim de se confirmar se aquele limiar é um bom delimitador do evento churn. Para os 

clientes Top, permitir-se-á uma tolerância maior de falsos churns(i.e. o modelo diz que o 

cliente iria sair, mas ele não sai) e um menor número de falsos não churns(i.e. o modelo 

diz que o cliente iria ficar mas o cliente vai embora). 

A Figura 15 ilustra a composição dos custos. As retas de Calibração podem ser 

movidas de forma a ajustar as áreas em cada região. Para os clientes Top, deseja-se que 

as perdas de clientes sejam pouco freqüentes, apesar de nesse caso se identificar como 

churn vários clientes que não iriam deixar o produto Cobrança; ou seja, atua-se em quem 

não era necessário. Como o valor de cada cliente Top é muito alto, essa abordagem se 

justifica. 

Para os clientes Medium e Low, respectivamente, as retas de calibração devem ser 

posicionadas de maneira mais conservadoras, o que significa que como não são clientes 

tão valiosos como os Top, o banco pode “errar” mais, guardadas as devidas proporções. 

As áreas rotuladas de OK são aquelas onde os modelos foram leais à realidade. 

35

Figura 15: Relação entre custos de falsos churns e falsos não churns. 

No final, é feita uma comparação dos métodos, se as amostras de validação seguem 

a mesma distribuição das amostras de treinamento e se os modelos obtidos realmente 

explicam em boa parte o comportamento dos clientes a partir dos dados disponíveis. 

36

4 A Base de Dados 

Confome foi discutido no capítulo 1, este projeto exigirá aplicação de ferramentas de 

Data Mining. 

Foi disponibilizada uma base de dados com informações de mais de 213 mil clientes, 

que compõem parte da massa de dados de todos os que são clientes PJ do banco ou que 

o foram no período de janeiro de 2004 a junho de 2005, ou seja, 18 meses. O tamanho 

dessa base era de pouco mais de 1 Gigabyte, em Microsoft Access 2002, contendo mais 

de 5,5 milhões de registros. 

Em paralelo, a equipe de riscos forneceu o Código Nacional de Atividade Econômica 

(CNAE) para cerca de 70% dos CNPJs. 

Foi feita também a requisição de outras informações, tais como dados dos produtos dos 

quais cada CNPJ é cliente, faturamento estimado e valor em financiamentos. No entanto, 

várias informações foram consideradas sensíveis pela direção do banco e não puderam ser 

disponibilizadas. Outras não foram disponibilizadas a tempo. 

Para cada CNPJ e para cada mês, a base possuía: 

• Rede: pode ser de I, II, III, IV ou IV. Representa as 5 macro-regiões em que o 

banco divide o Brasil, conforme Figura 16. 

• Banco: 

008 - Meridional. 

033 - Banespa. 

353 - Santander. 

• Agência: Número da agência a que pertence a conta geradora de determinado 

registro para o referido CNPJ. 

37

Figura 16: Redes em que o Brasil é dividido. 

• Segmento: divisão por faturamento estimado da empresa, conforme Tabela 2. Pode 

ser Pymes I, Pymes II, Empresas I e Empresas II. 

38

• Código do produto: 

2 - Cobrança. 

4 - Tarifa de conta corrente. 

5 - DAV. 

6 - Pagamento a Fornecedores. 

7 - Recolhimento de Valores. 

9 - Folha de Pagamento. 

• Receita de tarifa: valor total (em R$) gerado por cobrança de tarifas. 

• Receita financeira: valor total (em R$) gerado pelo dinheiro ”dormir”no banco. 

• Número de títulos entrados: número de títulos entrados. Ou seja, só contempla 

a modalidade Cobrança com Registro. 

• Volume (em reais) de títulos entrados: soma dos valores de face dos títulos 

entrados. Ou seja, só contempla a modalidade Cobrança com Registro. 

• Número de títulos liquidados: número de títulos que foram efetivamente pagos 

na rede bancária. Contempla todas as modalidades de cobrança. 

• Volume (em reais) de títulos liquidados: soma dos valores dos títulos que 

foram efetivamente pagos na rede bancária. Contempla todas as modalidades de 

cobrança. 

• Nome da agência: nome da agência a que pertence a conta geradora de determi- 

nado registro para o referido CNPJ. Ex: Agência Pouso Alegre. 

• Nome da regional: uma regional abrange várias agências e uma rede abrange 

várias regionais. Ex: A Agência Pouso Alegre pertence à Regional Belo Horizonte, 

que pertence à Rede II. 

Tabela 2: Segmentação das empresas por faturamento estimado. 

Segmento Faturamento anual (reais) 

Pymes I até 1 milhão 

Pymes II de 1 a 10 milhões 

Empresas I de 10 a 30 milhões 

Empresas II de 30 a 100 milhões 

39

4.1 Seleção de Variáveis 

As informações relativas ao número da agência, nome da agência e nome da regional 

foram descartadas pois formam conjuntos únicos de dados e essas características são inú- 

teis para a modelagem [2]. 

O CNAE também foi descartado uma vez que são muitas atividades econômicas pos- 

síveis e cada atividade econômica possuía poucos CNPJs. Além disso, a equipe de Riscos 

não tinha aproximadamente 30% dos CNAEs dos CNPJs, o que comprometeria a etapa 

de modelagem se essa informação fosse considerada. 

As informações relacionadas à entrada de títulos, i.e., Número de títulos e Volume 

também foram descartados porque abrangem somente Cobrança com Registro. Quando 

se trata de dados sobre títulos liquidados, envolvem todas as modalidades de cobrança, o 

que justifica em se manterem essas informações. 

As informações sobre o produto Recolhimento de Valores também não serão conside- 

radas no modelo porque apenas 434 CNPJs são clientes desse produto dentre os mais de 

213 mil CNPJs disponibilizados inicialmente. 

Os outros dados foram mantidos e serão utilizados, alguns com modificações, na etapa 

de modelagem. 

4.2 Manipulação de Variáveis 

Dentre os mais de 213 mil CNPJs inicialmente apresentados, foram selecionados 

16.633, que compreendem aqueles que estavam ativos em qualquer produto do CM ou 

em conta corrente durante todos os 18 meses de análise e que são ou foram clientes de 

Cobrança, uma vez que é o churn de Cobrança que se deseja analisar. 

As informações relativas a esses 16.633 CNPJs estavam na forma relacional e tiveram 

que ser adequadas à Customer Signature, onde todas as informações sobre um CNPJ 

devem estar em apenas uma linha. A Figura 11 ilustra esse procedimento. 

O objetivo é angariar informações sobre quando um CNPJ irá deixar o produto Co- 

brança. Assim, se se considerasse cada conta, poder-se-ia estar considerando falsos churns, 

pois um cliente pode ter várias contas com cobrança e alternar as emissões entre várias 

delas de um mês para o outro. 

A Figura 17 ilustra uma situação onde um CNPJ alternou de um mês para outro 

40

Figura 17: Exemplo em que o número de títulos emitidos por um cliente na Agência 0123 

diminuiu mas o número emitido pelo CNPJ aumentou se somadas as duas agências. 

apenas a agência onde emitiu mais títulos. Assim, optou-se em se aglutinar as informações 

relativas a um mesmo produto para um mesmo CNPJ. Depois dessa transformação, a base 

está com 16.633 linhas, onde cada linha contém todas as informações disponíveis para cada 

CNPJ. 

Para os produtos Pagamento a Fornecedores e Folha de Pagamento, existiam infor- 

mações mensais sobre número de títulos emitidos e receitas de tarifa e DAV. Como esses 

produtos possuem variações muito grandes nesses números, foi criada uma variável auxil- 

iar, booleana, onde se apontava a presença (1) ou ausência (0) desses produtos na carteira 

de cada cliente. 

Um mesmo CNPJ pode ter contas em um, dois ou nos três bancos do grupo, Banespa 

(033), Meridional (008) e Santander (353). Assim, foram criadas 3 variáveis booleanas que 

indicam em quais bancos o cliente possui conta. Similarmente, foram criadas 5 variáveis 

booleanas para se determinar em qual(is) rede(s) o cliente possui conta e 4 variáves que 

indicam em qual(is) segmento(s) suas contas estão classificadas. 

Uma das características que são usadas pelo CM para se entender mais do negócio do 

cliente é o Ticket médio, que representa a média do valor de face dos títulos liquidados. 

Foi criada uma váriavel com essa informação e foi descartada a variável que representava o 

volume total de títulos liquidados, pois ela possui alta correlação com o número de títulos 

liquidados. 

41

Portanto, depois das exclusões, manipulações e criação de novas variáveis regressoras, 

a base possui as seguintes informações: 

1. Receita de tarifa de cobrança - mensal: valor total (em R$) gerado por tarifas 

do produto cobrança em determinado mês. Símbolo: Rec TarifaMes. 

2. Receita financeira - mensal: valor total (em R$) gerado pelo dinheiro proveniente 

de cobrança ”dormir”no banco. Símbolo: Rec DAVMes. 

3. Número de títulos liquidados - mensal: número de títulos que foram efeti- 

vamente pagos na rede bancária. Contempla todas as modalidades de cobrança. 

Símbolo: Num TitMes. 

4. Ticket médio - mensal: valor médio (em R$) dos títulos que foram efetivamente 

pagos na rede bancária. Contempla todas as modalidades de cobrança. Símbolo: 

Tick med Mes. 

5. Receita de tarifa de conta corrente - mensal: valor total (em R$) gerado por 

tarifas de conta corrente em determinado mês. Símbolo: CC Tarifa Mes. 

6. Receita financeira de conta corrente - mensal: valor total (em R$) gerado 

pelo dinheiro exceto de cobrança ”dormir”no banco. Símbolo: CC DAV Mes. 

7. Se cliente possui conta no Meridional: variável booleana que indica se cliente 

possui conta no Meridional. Símbolo: Bco008. 

8. Se cliente possui conta no Banespa: variável booleana que indica se cliente 

possui conta no Banespa. Símbolo: Bco033. 

9. Se cliente possui conta no Santander: variável booleana que indica se cliente 

possui conta no Santander. Símbolo: Bco353. 

10. Se cliente possui conta na Rede I: variável booleana que indica se cliente possui 

conta na Rede I. Símbolo: RedeI. 

11. Se cliente possui conta na Rede II: variável booleana que indica se cliente possui 

conta na Rede II. Símbolo: RedeII. 

12. Se cliente possui conta na Rede III: variável booleana que indica se cliente 

possui conta na Rede III. Símbolo: RedeIII. 

42

13. Se cliente possui conta na Rede IV: variável booleana que indica se cliente 

possui conta na Rede IV. Símbolo: RedeIV. 

14. Se cliente possui conta na Rede V: variável booleana que indica se cliente possui 

conta na Rede V. Símbolo: RedeV. 

15. Se cliente possui conta classificada como Pymes I: variável booleana que 

indica se cliente possui conta classificada como Pymes I. Símbolo: PymI. 

16. Se cliente possui conta classificada como Pymes II: variável booleana que 

indica se cliente possui conta classificada como Pymes II. Símbolo: PymII. 

17. Se cliente possui conta classificada como Empresas I: variável booleana que 

indica se cliente possui conta classificada como Empresas I. Símbolo: EmpI. 

18. Se cliente possui conta classificada como Empresas II: variável booleana que 

indica se cliente possui conta classificada como Empresas II. Símbolo: EmpII. 

19. Se é cliente do produto Pagamento a Fornecedores: variável booleana que 

indica se é cliente do produto Pagamento a Fornecedores. Símbolo: PagLine. 

20. Se é cliente do produto Folha de Pagamento: variável booleana que indica se 

é cliente do produto Folha de Pagamento. Símbolo: FolhaPag. 

Nesse ponto, a base possui 2.345.253 registros. 

De posse das variáveis regressoras citadas anteriormente, a base foi segmentada pelo 

potencial de títulos a serem liquidados em 3 estratos: Top, Medium e Low, seguindo a 

estratificação adotada pelo banco no projeto global do churn. Essa abordagem objetiva 

tentar se obter modelos que se adequem mais aos dados, do que fazer 1 modelo só que 

se adeque a todos os dados ao mesmo tempo. Intuitivamente, espera-se que ao se fazer 

3 modelos onde o parâmetro de agrupamento é o potencial de liquidação de títulos, o 

resultado seja melhor que se se fizesse apenas um modelo para toda a massa de dados. 

A Tabela 1 mostra a distribuição dos estratos por range de número de títulos liquida- 

dos e o número de clientes pertencentes a cada estrato. Os clientes com potencial igual 

ou menor que 20 títulos são os non-focus e não são abordados pela modelagem preditiva, 

por representarem pouco valor para o banco. 

O potencial de cada cliente é considerado como maior número de títulos liquidados 

em um mês. 

43

Estratificados os clientes, deve-se definir a variável dependente, ou target, que neste 

trabalho é o churn. Para o banco, um cliente é considerado churn não somente quando seu 

volume de títulos cai a zero. Na verdade isso dificilmente acontece, devido à capilaridade 

do banco no estado de São Paulo. Assim, é comum um cliente diminuir significativamente 

o volume de títulos emitidos, mas ainda emitir quantidade considerável dos títulos no 

Santander Banespa para atender a alguns de seus clientes. No entanto, se esse cliente 

que antes emitia um número n de títulos começa a emitir um número consideravelmente 

menor é forte indício que ele migrou para outro banco e também é considerado churn. É 

intenção do banco atuar de forma a fazê-lo emitir a quantidade anterior de boletos. 

Assim, faz sentido definir tolerâncias para a determinação do momento do churn. 

Neste trabalho, em comum acordo com a área de negócios do CM, escolheu-se que se o 

cliente durante 3 meses consecutivos emitisse um número menor que a média dos últimos 

3 meses, ele seria considerado churn. A idéia é identificar também aqueles clientes que 

tiveram queda expressiva no número de boletos. Serão feitos modelos nos quais as tole- 

râncias consideradas foram de 60%, 70% e 80%. Quanto maior o valor dessa tolerância 

menor é a queda no número de títulos liquidados para que o cliente seja identificado como 

churn, ou seja, mais sensível é o banco à perda do cliente. 

44

5 Modelagem 

Para cada estrato e para cada valor de tolerância considerados será obtido um modelo 

por regressão linear e um por regressão logística, o que totaliza 18 modelos. A base será 

dividida entre treinamento e validação. Os dados utilizados na validação não podem ter 

sido utilizados no treinamento [1]. 

Ao todo, para o caso linear, dispõe-se para modelagem 32 regressores mais o Inter- 

cepto, que representa o valor onde a função cruza o eixo da variável dependente. Para 

a regressão logística, foram considerados também a interação entre os regressores, o que 

totalizou mais de 200 novos regressores. 

A fim de se determinar os que melhor explicam a relação Entradas-Saída, aplicou-se 

o método ERR, para se considerar na etapa de modelagem somente os regressores mais 

importantes, i.e., que mais reduzem o somatório dos quadrados dos resíduos. Depois dessa 

etapa e da redução significativa do número de regressores, mais regressores puderam ser 

descartados usando-se o teste de p-valor, recurso do SAS . Os regressores com p-valor 

significativos, i.e. menor que 0,15, foram mantidos e utilizados na etapa de modelagem. 

Após ser aplicado o ERR, restava um número razoável de regressores. Os dados foram 

inseridos no SAS e após as regressões, eram descartados os regressores com p-valor maior 

que 0,15. Isso era refeito até que todos os regressores tivessem p-valor inferior a 0,15. 

Para cada estrato e para cada cada tipo de regressão, considerar-se-á um conjunto 

possivelmente diferente de variáveis independentes. 

Depois de se determinarem os regressores para cada modelo, será feita a estimação 

de parâmetros dos regressores. Após essa etapa, serão determinados os ranges nos quais 

os clientes churn e não churn foram enquadrados. Essas faixas serão utilizadas depois na 

pontuação dos modelos obtidos nos dados de validação, ou seja, testar o quão sensível ao 

churn são os modelos e se os modelos obtidos qualificam com determinada precisão se o 

cliente é churn ou não churn. 

45

5.1 Amostras 

Para cada estrato do estudo, dividiram-se as bases em treinamento e validação. A 

base de treinamento é utilizada para se construir os modelos e a de validação é utilizada 

para apurar o percentual de acerto de cada modelo. 

Tabela 3: Divisão das bases em treinamento e validação. 

Estrato Número de clientes - Treinamento Número de clientes - Validação 

TOP 3132 699 

MEDIUM 2570 599 

LOW 3520 799 

A Tabela 3 mostra como foi dividida a base entre treinamento e validação. A divisão 

foi feita procurando-se manter a proporção de clientes churn/não churn da base original. 

Antes de se aplicar a Regressão Linear ou a Logística, para cada estrato foi aplicado o 

ERR e posteriormente o teste do p-valor, conforme descrito anteriormente neste capítulo. 

Para cada estrato e para cada valor de tolerância adotou-se um limiar de falsos churns- 

o banco atua sem haver a necessidade - e falsos não churn - o banco não atua havendo a 

necessidade. 

5.2 Regressão Linear 

5.2.1 Top 

Na regressão linear para o estrato Top foram selecionados 16 regressores. 

A tabela 4 lista os regressores bem como os seus valores. A fim de se determinar os 

limites acima dos quais os clientes são considerados churn, analisou-se a distribuição dos 

verdadeiros e falsos churns e não churns. Essa análise foi feita fazendo a pontuação da 

massa de treinamento. 

Com base na distribuição representada pela Figura 18, considera-se o valor 0,30 como o 

delimitador das regiões de churn e não churn, pois a partir desse valor de saída, existe uma 

razoável identificação dos churns ao passo que uma concomitante redução no número de 

não churns. Para valores de saída acima desse limite, obteve-se na massa de treinamento 

a identificação de 73,4% dos verdadeiros churns. No entanto, 40,67% dos clientes que 

não foram churn estavam nesse intervalo também. Considera-se esse valor aceitável, uma 

vez que como se trata de clientes Top, o custo de se perder um cliente desse segmento 

46

Tabela 4: Regressores e valores dos parâmetros - Regressão Linear - Top. 

Regressor selecionado Parâmetro-60% Parâmetro-70% Parâmetro-80% 

Intercepto 0,1113 0,15444 0,21524 

Rec Tarifa09 3,964 × 10 −5 5,188 × 10 −5 5,435 × 10 −5 

Num Tit09 2,5296 × 10 −4 3,5695 × 10 −4 4,8433 × 10 −4 

Tick med 09 5,68 × 10 −6 4,96 × 10 −6 5,12 × 10 −6 

Rec DAV10 3,3214 × 10 −4 2,5873 × 10 −4 3,2656 × 10 −4 

Tick med 10 −2,552 × 10 −5 −2,674 × 10 −5 −2,101 × 10 −5 

CC DAV 10 −9,03 × 10 −6 −1,097 × 10 −5 −1,661 × 10 −5 

Rec Tarifa11 −4,997 × 10 −5 −6,387 × 10 −5 −7,069 × 10 −5 

Rec DAV11 −3,3269 × 10 −4 −3,4031 × 10 −4 −3,7375 × 10 −4 

Num Tit11 −2,4951 × 10 −4 −3,6011 × 10 −4 −4,8374 × 10 −4 

Tick med 11 2,019 × 10 −5 1,865 × 10 −5 2,054 × 10 −5 

Bco353 0,02404 0,02278 0,03514 

PymI −0,02969 −0,02767 −0,02553 

EmpI 0,01499 0,03417 0,03891 

EmpII 0,05603 0,07820 0,07018 

FolhaPag −0,03019 −0,03763 −0,03106 

Figura 18: Histograma das freqüências das saídas por Regressão Linear - Top - 80%. 

demanda que se seja menos conservador. Observa-se no histograma que não existe um 

limite muito definido entre os churn e não churn. Por outro lado, observa-se que os valores 

mais prováveis (picos dos histogramas) estão deslocados entre si. Essa diferença indica 

que, em média, é possível diferenciar entre churn e não churn, mas essa distinção é de 

fato bem difícil, uma vez que os picos estão somente UM POUCO deslocados entre si. 

47

5.2.2 Medium 

Na regressão linear para o estrato Medium foram utilizados 13 regressores. 

Tabela 5: Regressores e valores dos parâmetros - Regressão Linear - Medium. 


Intercepto 0,26068 0,32983 0,41049 

Rec Tarifa09 2,8819 × 10 −4 3,5683 × 10 −4 3,9176 × 10 −4 

Num Tit09 2,88 × 10 −3 4,34 × 10 −3 5,30 × 10 −3 

CC Tarifa 09 1,0907 × 10 −4 2,7916 × 10 −4 2,7432 × 10 −4 

Num Tit10 −1,38 × 10 −3 −1,38 × 10 −3 −5,2609 × 10 −4 

CC Tarifa 10 −9,423 × 10 −5 −2,3505 × 10 −4 −3,0355 × 10 −4 

Rec Tarifa11 −2,9711 × 10 −4 −3,99 × 10 −4 −4,1596 × 10 −4 

Num Tit11 −5,61 × 10 −3 −7,52 × 10 −3 −9,42 × 10 −3 

Bco353 0,04019 0,04119 0,03402 

RedeI 0,00999 0,02536 0,01806 

RedeV 0,04564 0,05652 0,04376 

PymII 0,04748 0,04349 0,05822 

EmpI 0,043 0,07132 0,05808 





Figura 19: Histograma das freqüências das saídas por Regressão Linear - Medium - 70%. 

48

Com base na distribuição representada pela Figura 19, considera-se o valor 0,30 como 

o delimitador das regiões de churn e não churn. Para valores de saída acima desse limite, 

obteve-se na massa de treinamento a identificação de 61,83% dos verdadeiros churns. 

No entanto, 10,61% dos clientes que não foram churn estavam nesse intervalo também. 

Considera-se esse valor aceitável, uma vez que como se trata de clientes Medium, o custo 

de se perder um cliente desse segmento possibilita que se seja mais conservador que no 

caso Top. 

5.2.3 Low 

Na regressão linear para o estrato Low foram utilizados 15 regressores. 

Tabela 6: Regressores e valores dos parâmetros - Regressão Linear - Low. 


Intercepto 0,29067 0,33780 0,46056 

Rec Tarifa09 1,2463 × 10 −4 1,9306 × 10 −4 1,4918 × 10 −4 

Rec DAV09 1,35 × 10 −3 1,34 × 10 −3 6,9863 × 10 −4 

Num Tit09 4,72 × 10 −3 7,10 × 10 −3 1,154 × 10 −3 

Tick med 09 −1,005 × 10 −5 −5,97 × 10 −5 −2,55 × 10 −6 

CC Tarifa 09 1,6116 × 10 −4 1,4083 × 10 −4 1,8829 × 10 −4 

Rec Tarifa10 2,3180 × 10 −4 1,8166 × 10 −4 2,7462 × 10 −4 

Rec DAV10 −1,68 × 10 −3 −1,66 × 10 −3 −1,31 × 10 −3 

Rec Tarifa11 −3,2021 × 10 −4 −3,7441 × 10 −4 −5,3089 × 10 −4 

Num Tit11 −0,01449 −0,01807 −0,02280 

Tick med 11 1,025 × 10 −5 9,63 × 10 −5 1,023 × 10 −5 

Bco008 0,12444 0,13654 0,10252 

Bco033 0,04842 0,07482 0,05294 

Bco353 0,08513 0,10903 0,06957 

PymI −0,05622 −0,06071 −0,06526 









Considera-se esse valor aceitável, uma vez que como se trata de clientes Low, o custo de 

se perder um cliente desse segmento possibilita que se seja bem mais conservador que nos 

49

Figura 20: Histograma das freqüências das saídas por Regressão Linear - Low - 60%. 

outros casos. Isso significa que o modelo nem precisa identificar todos os churns, desde 

que também não aponte muitos falsos churns, demandando assim atuação junto a clientes 

sem que haja necessidade. 

5.3 Regressão Logística 

5.3.1 Top 

Na regressão logística para o estrato Top foram utilizados 19 regressores. 

A tabela 7 lista os regressores bem como os seus valores. Similarmente ao modo como 

foi feito na regressão linear, analisou-se a distribuição dos verdadeiros e falsos churns e 

não churns. Essa análise foi feita fazendo a pontuação da massa de treinamento. 

Com base na distribuição representada pela Figura 21, considera-se o valor 0,20 como o 

delimitador das regiões de churn e não churn, pois a partir desse valor de saída, existe uma 

razoável identificação dos churns ao passo que uma concomitante redução no número de 

não churns. Para valores de saída acima desse limite, obteve-se na massa de treinamento 

a identificação de 70,03% dos verdadeiros churns. No entanto, 25,96% dos clientes que 

não foram churn estavam nesse intervalo também. Considera-se esse valor aceitável, uma 

50

Tabela 7: Regressores e valores dos parâmetros - Regressão Logística - Top. 


Intercepto −0,8096 −0,8569 −0,7962 

Rec Tarifa09 0,00165 0,00142 9,67 × 10 −4 

Num Tit09 0,00994 0,00963 0,00951 

CC Tarifa 09 2,60 × 10 −4 6,52 × 10 −4 7,27 × 10 −4 

Num Tit10 0,00401 0,00789 0,00611 

Rec Tarifa11 −0,00134 −0,00128 −8,1 × 10 −4 

Num Tit11 −0,0269 −0,0253 −0,0201 

Tick med 11 1,51 × 10 −4 1,34 × 10 −4 2,23 × 10 −4 

RedeI 0,2634 0,2482 0,2042 

RedeIV 0,5415 0,4146 0,2610 

PymI −0,5672 −0,4549 −0,3038 

EmpI 0,3984 0,4917 0,3807 

EmpII 1,0523 1,0812 0,7200 

Rec Tarifa09 × CC DAV 09 −1,09 × 10 −7 −7,12 × 10 −7 −8,36 × 10 −7 

Rec Tarifa11 × Tick med 11 −1,07 × 10 −6 −9,54 × 10 −7 −5,74 × 10 −7 

Tick med 11 × Tick med 11 −5,57 × 10 −9 −5,35 × 10 −9 −9,63 × 10 −9 

Num Tit09 × Num Tit10 −5,95 × 10 −6 −5,33 × 10 −6 −4,1 × 10 −6 

Num Tit09 × Num Tit11 8,997 × 10 −6 7,181 × 10 −6 5,208 × 10 −6 

Num Tit09 × Num Tit10 × Num Tit11 −2,22 × 10 −10 −1,42 × 10 −10 −9,12 × 10 −13 

Figura 21: Histograma das freqüências das saídas por Regressão Logística - Top - 80%. 

vez que como se trata de clientes Top, o custo de se perder um cliente desse segmento 

demanda que se seja menos conservador. Observa-se no histograma que já existe um 

limite mais definido entre os churn e não churn do que nos resultados via regressão linear. 

51

Ao contrário do que aconteceu na regressão linear, não existem picos bem definidos e um 

pouco deslocados. Na regressão logística, as distribuições estão mais espalhadas, sendo 

que os não churn possuem menor espalhamento e valores mais próximos de zero. Os churn 

por sua vez possuem uma distribuição espalhada ao longo de toda a faixa de valores (0 a 

1). 

5.3.2 Medium 

Na regressão logística para o estrato Medium foram utilizados 16 regressores. 

Tabela 8: Regressores e valores dos parâmetros - Regressão Logística - Medium. 


Intercepto 0,5005 0,4648 0,3953 

Rec Tarifa09 0,00116 0,00195 0,00224 

Num Tit09 0,0585 0,0689 0,0640 

CC Tarifa 09 0,00213 0,00348 0,00273 

Rec Tarifa10 −0,00178 −0,00190 −0,00231 

Num Tit10 −0,0293 −0,0282 −0,0181 

CC Tarifa 10 −0,00433 −0,00440 −0,00374 

Rec Tarifa11 −0,00651 −0,00574 −0,00363 

Num Tit11 −0,0935 −0,0786 −0,0646 

CC Tarifa 11 0,00507 0,00380 0,00201 

Rec Tarifa10 × Num Tit10 3,70 × 10 −5 2,80 × 10 −5 4,10 × 10 −5 

Rec Tarifa10 × CC Tarifa 10 8,515 × 10 −6 6,988 × 10 −6 6,424 × 10 −6 

CC Tarifa 11 × CC Tarifa 11 −5,99 × 10 −6 −5,80 × 10 −6 −3,52 × 10 −6 

Rec Tarifa09 × Rec Tarifa11 6,518 × 10 −6 4,778 × 10 −6 2,42 × 10 −6 

Num Tit09 × Num Tit11 −8,00 × 10 −4 −9,50 × 10 −4 −8,20 × 10 −4 

Num Tit09 × Num Tit10 × Num Tit11 1,00 × 10 −5 1,00 × 10 −5 6,888 × 10 −6 




massa de Treinamento. 





Considera-se esse valor aceitável, uma vez que como se trata de clientes Medium, o custo 

de se perder um cliente desse segmento possibilita que se seja mais conservador que no 

caso Top. 

52

Figura 22: Histograma das freqüências das saídas por Regressão Logística - Medium - 

70%. 

5.3.3 Low 

Na regressão logística para o estrato Low foram utilizados 21 regressores. 









Considera-se esse valor aceitável, uma vez que como se trata de clientes Low, o custo de 

se perder um cliente desse segmento possibilita que se seja bem mais conservador que nos 

outros casos. Isso significa que o modelo nem precisa identificar todos os churns, desde 

que também não aponte muitos falsos churns. 

53

Tabela 9: Regressores e valores dos parâmetros - Regressão Logística - Low. 


Intercepto 0,00859 0,1642 0,4273 

Rec Tarifa09 0,00193 0,00294 0,00332 

Rec DAV09 0,0253 0,0212 0,0114 

Num Tit09 0,0851 0,0817 0,0932 

CC Tarifa 09 0,00160 0,00120 0,00136 

Num Tit10 −0,0301 −0,00276 −0,0112 

Rec Tarifa11 −0,00346 −0,00282 −0,00252 

Num Tit11 −0,2731 −0,2500 −0,2066 

Tick med 11 0,00346 6,30 × 10 −5 7,00 × 10 −5 

RedeI 0,2829 0,2226 0,0923 

RedeII 0,5185 0,2368 −0,0513 

RedeIV 0,3623 0,1722 −0,0685 

RedeV 0,5807 0,3068 0,0641 

EmpII −1,8038 −0,2572 −0,1380 


Rec Tarifa11 × Rec DAV11 −6,20 × 10 −4 −3,60 × 10 −4 −2,40 × 10 −4 


Rec DAV10 × Rec DAV10 2,29 × 10 −4 4,80 × 10 −5 6,10 × 10 −5 

Rec DAV11 × Rec DAV11 2,24 × 10 −4 1,04 × 10 −4 8,10 × 10 −5 

Rec Tarifa09 × Rec Tarifa11 −1,00 × 10 −5 −1,00 × 10 −5 −2,00 × 10 −5 

Rec DAV09 × Rec DAV10 × Rec DAV11 −3,46 × 10 −6 −6,15 × 10 −7 −8,30 × 10 −7 

Figura 23: Histograma das freqüências das saídas por Regressão Logística - Low - 60%. 

54

6 Resultados 

No capítulo anterior foram estimados os parâmetros dos modelos e definidos os ranges 

nos quais se identifica os verdadeiros churns, falsos churns, verdadeiros não churns e 

falsos não churns. 

É necessário se balancear esses quatro, conforme Figura 15, a fim de 

se maximizar para cada estrato a identificação ou não do evento. Para o estrato Top, o 

limite de falsos churns foi de 50%; para o Medium de 25% e para o Low, de 15%. Dessa 

forma, procura-se racionalizar os esforços de atuação nos clientes mais valiosos. 

Neste capítulo, compara-se o valor da pontuação obtida no capítulo anterior (treina- 

mento) com a obtida na massa de validação. As tabelas a seguir, uma para a regressão 

linear e uma para a logística, possuem para cada segmento e para cada valor de tolerân- 

cia para identificação do evento churn, o valor do limite de saída que separa os acertos 

(verdadeiro churn) dos erros (falso churn) e os percentuais de acerto no treinamento e 

validação, considerando-se aquele limite. 

Tabela 10: Comparação dos valores de verdadeiros e falsos churns da regressão linear 

nas bases de treinamento e validação. Os valores em negrito indicam casos onde houve 

diferença de mais de 10 pontos percentuais entre validação e treinamento. 

Linear Treinamento Validação 

Tol./Seg. Limite Verdadeiro churn Falso churn Verdadeiro churn Falso churn 

60% Top 0,10 72,83 36,55 66,67 31,65 

70% Top 0,15 63,79 26,60 50,55 22,53 

80% Top 0,30 73,40 40,67 6,35 1,92 

60% Medium 0,20 78,33 15,95 90,00 17,7 

70% Medium 0,30 61,83 10,61 69,51 11,99 

80% Medium 0,30 68,33 19,97 65,96 24,24 

60% Low 0,30 56,97 7,35 45,36 5,70 

70% Low 0,30 69,18 13,13 61,31 11,33 

80% Low 0,40 54,43 11,51 47,94 11,07 

Os valores marcados em negrito representam aqueles onde houve variação de mais de 

10 pontos percentuais da base de treinamento - onde se determinaram os limites - para a 

base de validação. 

55

Tabela 11: Comparação dos valores de verdadeiros e falsos churns da regressão logística 

nas bases de treinamento e validação. Os valores em negrito indicam casos onde houve 

diferença de mais de 10 pontos percentuais entre validação e treinamento. 

Logística Treinamento Validação 

Tol./Seg. Limite Verdadeiro churn Falso churn Verdadeiro churn Falso churn 

60% Top 0,10 81,52 22,06 80,30 18,99 

70% Top 0,20 64,53 11,41 56,04 10,53 

80% Top 0,20 70,03 25,96 68,25 24,61 

60% Medium 0,10 82,51 17,86 93,33 19,48 

70% Medium 0,20 73,28 14,52 78,05 18,18 

80% Medium 0,30 64,95 15,34 61,70 19,21 

60% Low 0,20 73,56 11,44 71,13 10,54 

70% Low 0,25 71,34 12,88 62,04 13,29 

80% Low 0,30 61,72 14,90 59,79 14,88 

Ao se comparar as tabelas 10 e 11, percebe-se que na maioria das vezes a razão 

Acerto/Erro é melhor - maior - para os resultados obtidos pela regressão logística. Isso 

significa, e pode ser confirmado nos histogramas, que a região de churn e não churn é 

mais separável para os resultados obtidos via regressão logística. Além disso, os resultados 

desse último método na maioria das vezes também apresenta maior percentual de acerto. 

Os percentuais de acerto da massa de treinamento são maiores que na massa de 

validação. Isso já era esperado, uma vez que os dados de validação não foram vistos 

na etapa de modelagem. No entanto, essa diferença, na maioria das vezes, não é muito 

grande. Vale destacar que em duas situações, o valor de acerto na massa de validação 

foi superior à na massa de treinamento. Porém, o valor dos erros também aumentaram, 

podendo indicar que o limite da massa de validação estava ajustado mais à esquerda nos 

histogramas. Ou seja, a relação acerto/erro da massa de treinamento continuou superior. 

56

7 Conclusões 

Neste PFC objetivou-se obter modelos que tentassem dar melhor insight sobre o churn 

de Cobrança do Banco Santander Banespa. Com base nos resultados, considera-se que a 

proposta inicial foi cumprida satisfatoriamente. 

A base de dados utilizada poderia ter sido complementada por várias outras infor- 

mações sobre os clientes, o que provavelmente melhoraria a qualidade dos modelos. No 

entanto, mesmo sem muitas informações foi possível fazer o DM, que consumiu cerca de 

60% do tempo dedicado ao projeto, a seleção dos regressores e a modelagem com consid- 

erável sucesso, uma vez que os percentuais de acerto dos modelos foi significativamente 

maior do que 50%, ou seja, maior que simplesmente se jogar cara ou coroa; existiu algum 

erro mas se o banco atuar junto aos clientes que, segundo o modelo, seriam churn mas 

não o são, não é tão grave quanto não se atuar em clientes que os modelos classificaram 

como não churn e são churn; esse trade-off depende do valor do cliente para o banco. 

Este deve escolher os limites que devem ser utilizados, baseados também no número de 

pessoas disponíveis para se atuar junto aos clientes, além do ROI de cada cliente. 

Existem variáveis que não podem ser medidas, tais como promoções da concorrência, 

pessimismo/otimismo dos empresários, dentre outros fatores que podem ser determinantes 

no churn de Cobrança. Portanto, elas não podem ser modeladas e a parcela de explicaçção 

do evento churn que lhes cabe não pôde contribuir para aumentar a qualidade dos modelos. 

Assim, considera-se que o presente trabalho contribuiu de forma a ajudar o banco 

a saber quais variáveis se deve analisar quando se quer prever a perda de clientes do 

produto Cobrança antes mesmo de eles apresentarem sinais claros de que deixariam o 

produto; além, disso os modelos obtidos apresentaram boa qualidade. 

Os modelos obtidos por regressão logística se mostraram se adequar melhor aos dados 

do que os modelos via regressão linear. Isso pode ser explicado porque na regressão 

logística foram incluídas interações entre as variáveis e a regressão logística em si é não- 

linear. Assim, os modelos via regressão logística devem ser preferidos aos obtidos via 

57

egressão linear. Na falta dos modelos logísticos, os modelos linear conseguem explicar o 

churn com razoável eficiência. 

O banco agora possui uma metodologia de modelagem preditiva do fenômeno churn 

e sabe quais variáveis deve observar e quais deve descartar. 

58

8 Desenvolvimentos Futuros 

A modelagem preditiva realizada poderia ter obtido maior percentual de acerto se 

houvesse disponibilidade de mais informações sobre os clientes. Assim, torna-se desejável 

que o banco perceba o potencial de retorno que a modelagem preditiva pode trazer à 

empresa e não apenas para a detecção do churn de Cobrança, mas também para o churn 

em outros produtos, inclusive aqueles que envolvem pessoa física, e assim permita o acesso 

a tais informações. 

Pode ser interessante também considerar se variáveis macro-econômicas, e.g. taxa de 

inflação, variação no preço do dólar, juros, etc, podem ser significativas na determinação 

do churn. 

A determinação dos limites de saída acima dos quais o banco deve atuar constitui-se 

um bom caminho de estudo a ser perseguido, pois a partir da modelagem preditiva e da 

estimação dos custos de perda de clientes e de custos de atuação, pode-se otimizar os 

esforços de atuação. Neste trabalho apenas estimou-se os limiares aceitáveis a partir do 

estrato de cada cliente. Se se fizer um estudo detalhado dos custos de perda e de atuação 

relativos aos clientes de cada estrato, os ranges podem ser definidos de forma a otimizar 

a aplicação de recursos dedicados à redução da perda de clientes de Cobrança. 

No presente projeto a modelagem foi feita via regressões. Uma linha de estudo que 

tem tido sucesso na explicação de eventos como o churn são as Redes Neurais Artificais 

e as várias ferramentas que nela estão inseridas [2]. 

59

Referências 

[1] AGUIRRE, L.A. (2000). Introdução à identificação de sistemas: técnicas lineares e 

não-lineares aplicadas a sistemas reais (2 a Edição). Belo Horizonte: UFMG. 

[2] BERRY, J., and LINOFF, G. (2004). Data Mining Techniques: For Marketing, 

Sales, and Customer Relationship Management (2 nd edition). Indianapolis, IN: Wiley. 

[3] BILLINGS, S.A., CHEN, S., KORENBERG, M.J. (1989). Identification of mimo 

nonlinear systems using a forward-regression orthogonal estimator. Int. J. Control. 

[4] BUSSAB, W.O., MORETTIN, P.A. (2002). Estatística Básica (5 a Edição). São 

Paulo: Editora Saraiva. 

[5] Caio Canton. Superintendente de Cash Management. Comunicação Pessoal. Banco 

Santander Banespa. São Paulo. 2005. 

[6] BILLINGS, S.A., CHEN, S., KORENBERG, M.J. (1989). Identification of mimo 

nonlinear systems using a forward-regression orthogonal estimator. Int. J. Control. 

[7] EDELSTEIN, H. (2000) Building Profitable Customer Relationships with Data Mining. 

White Paper: SPSS Inc. 

[8] ELLIOTT, K., SCIONTI, R., PAGE, M. (2003) Two Rivers: The Confluence of 

Data Mining and Market Research for Smarter CRM. White Paper: SPSS Inc. 

[9] Engenharia de Controle e Automação-UFMG Disponível em 

. Acesso em 18 de novembro de 2005. 

[10] HOSMER, D.W.Jr. and LEMESHOW, S. (2000) Applied Logistic Regression (2 nd 

edition). New York: Wiley. 

[11] KAKINOHANA, R.K., SAKANAKA, P.A. e MOSCARDINI, T.B. (2005) e- 

BI: Uma Metodologia Para Gerenciamento de Projetos de Business Intelligence 

Disponível em . Acesso em 08 

de agosto de 2005. 

[12] KOTLER, P. (2000) Administração de marketing (10 a Edição) São Paulo: Prentice 

Hall. 

[13] OGLIARI, P.J. (2004) Regressão Logística Disponível em 

. Acesso em 10 de 

agosto de 2005. 

60

[14] OGLIARI, P.J. (2004) Regressão Linear Múltipla Disponível em 

. Acesso em 

10 de agosto de 2005. 

[15] Relatório Anual 2004 Disponível em . Acesso em 

12 de outubro de 2005. 

[16] Revista Conexão Santander Banespa (n o 48) Conexão. Publicação interna. Agosto 

de 2005. 

[17] UFMG 75 anos Disponível em . Acesso em 18 de 

novembro de 2005. 

[18] VERONA, M.M. (2005) Marketing Bancário Disponível em 

. Acesso em 12 de outubro de 2005. 

[19] YARED, G.F.G. (2001). Síntese do Movimento Facial Durante a Fala a partir da 

Atividade Neuromuscular. Dissertação de mestrado, PPGEE, Universidade Federal 

de Minas Gerais. 

61

Rafael Heringer.pdf - download

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?