Rafael Heringer.pdf - download
Rafael Heringer.pdf - download
Rafael Heringer.pdf - download
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
<strong>Rafael</strong> Bastos <strong>Heringer</strong><br />
Redução do Churn de Cobrança via “Modelagem<br />
Preditiva”<br />
Belo Horizonte<br />
Novembro de 2005
<strong>Rafael</strong> Bastos <strong>Heringer</strong><br />
Redução do Churn de Cobrança via “Modelagem<br />
Preditiva”<br />
Monografia apresentada ao Colegiado<br />
do Curso de Engenharia de Controle<br />
e Automação da Universidade Federal<br />
de Minas Gerais como requisito parcial<br />
para obtenção do título de Bacharel em<br />
Engenharia de Controle e Automação.<br />
Orientador:<br />
Prof. Luis Antônio Aguirre<br />
Supervisor:<br />
Caio Canton<br />
Universidade Federal de Minas Gerais<br />
Escola de Engenharia<br />
Belo Horizonte<br />
Novembro de 2005
Monografia sob o título Redução do Churn de Cobrança via “Modelagem Preditiva”,<br />
defendida por <strong>Rafael</strong> Bastos <strong>Heringer</strong> e aprovada em 25 de Novembro de 2005, em Belo<br />
Horizonte, Estado de Minas Gerais, pela banca examinadora constituída por:<br />
Prof. Luis Antônio Aguirre - DELT-UFMG<br />
Orientador<br />
Caio Canton<br />
Banco Santander Banespa<br />
Banca Examinadora<br />
UFMG
Dedico esta monografia à minha família,<br />
em especial aos meus pais, por tudo o que fizeram para que este dia, que sela minha<br />
graduação, se tornasse<br />
realidade.
Agradecimentos<br />
A Jesus Cristo por ter me dado o dom da vida e saúde, além de ser minha principal<br />
razão de viver.<br />
À minha família por toda a força ao longo de todos esses 23 anos. Também pela<br />
confiança no meu potencial. A eles, que sempre dividiram os momentos mais felizes e<br />
outros nem tanto.<br />
Ao meu orientador Luis Aguirre, por dividir o conhecimento/sabedoria e ao mesmo<br />
tempo confiar na minha capacidade de dar resultados em curto espaço de tempo. Pelas<br />
direções certas ao longo do projeto.<br />
A meus amigos e colegas, com quem sempre tenho aprendido sobre todas as coisas.<br />
Ao meu supervisor Caio Canton pelo conhecimento compartilhado e também por<br />
confiar um projeto com essa importância a um - até então - leigo no assunto.<br />
E finalmente à Viação Cometa, que mais de 60 vezes ao longo do ano me levou e me<br />
trouxe em segurança de Belo Horizonte a São Paulo, onde foi feito este PFC.
“Se o Senhor não edificar a casa, em vão trabalham os que a edificam; se o Senhor não<br />
guardar a cidade, em vão vigia a sentinela. Inútil vos será levantar de madrugada, repousar<br />
tarde, comer o pão que penosamente granjeastes; aos seus amados ele o dá enquanto<br />
dormem.”<br />
Salmos 127:1,2.
Resumo<br />
A área de Cash Management de um banco cuida do fluxo de caixa das empresas:<br />
fornece soluções em pagamentos e recebimentos. A Cobrança é o produto mais importante,<br />
por estreitar o relacionamento com os clientes PJ (Pessoa Jurídica) e ser o maior<br />
gerador de receita. No Banco Santander Banespa foi apurado que havia uma alta taxa<br />
de Churn (perda de clientes) de Cobrança e sabe-se que é mais caro conquistar novos<br />
clientes do que manter os existentes. Foi desenvolvido um amplo projeto, considerando as<br />
diversas fases do ciclo de vida do cliente com o produto - Ativação, Modelagem Preditiva,<br />
Retenção e Reativação. A fase de Modelagem Preditiva visa, a partir de dados históricos<br />
com o comportamento de milhares de empresas, obter modelos que permitam saber os<br />
clientes propensos a deixar o banco no futuro, e assim poder atuar junto a eles de maneira<br />
preventiva, antes mesmo de iniciarem o movimento de queda de relacionamento com o<br />
produto. Para isso utilizam-se ferramentas de Data Mining (Mineração de Dados) - uma<br />
vez que existe uma grande massa de dados para análise - e regressões, a fim de se obter<br />
os modelos preditivos que direcionarão as ações de redução do Churn.
Abstract<br />
In a bank, Cash Management takes care of cash flow inside the companies: provides<br />
solutions in payments and receivings. Charge is the most important product, since it<br />
draws near the relationship with the PJ clients. At Banco Santander Banespa a high<br />
level of Churn (loss of clients) for the product Charge was perceived, and it is known<br />
that is more expensive to get new customers than to maintain the current ones. A large<br />
project was created considering all the life cicle of a client with the product - Activation,<br />
Predictive Modelling, Retention and Reactivation. Predictive Modelling aims, based on<br />
historical data containing the behavior of thousands of companies, to build models which<br />
allow to estimate which customers would leave the bank in the near future, and therefore<br />
could be used in a preventive manner, before they even begin the down movement on<br />
relationship with the product. For this goal, Data Mining tools have been used- since<br />
there is a huge database to analyse - and regressions, to obtain the predictive models that<br />
will focus Churn reduction actions.
Lista de Figuras<br />
Lista de Tabelas<br />
Lista de Siglas<br />
Sumário<br />
1 Introdução p. 10<br />
1.1 Engenharia de Controle e Automação - UFMG . . . . . . . . . . . . . . . p. 10<br />
1.2 Apresentação da Empresa . . . . . . . . . . . . . . . . . . . . . . . . . . p. 11<br />
1.2.1 História . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 11<br />
1.2.2 Valores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 12<br />
1.2.3 O maior entre as menores . . . . . . . . . . . . . . . . . . . . . . p. 13<br />
1.2.4 Cash Management . . . . . . . . . . . . . . . . . . . . . . . . . . p. 13<br />
1.3 Contextualização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 16<br />
1.4 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 17<br />
1.5 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 19<br />
1.6 Organização da Monografia . . . . . . . . . . . . . . . . . . . . . . . . . p. 20<br />
2 Fundamentação Teórica p. 21<br />
2.1 Gestão do Relacionamento com os Clientes . . . . . . . . . . . . . . . . . p. 21<br />
2.2 Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 24<br />
2.2.1 Aplicações de Data Mining . . . . . . . . . . . . . . . . . . . . . . p. 25<br />
2.3 Taxa de Redução de Erro . . . . . . . . . . . . . . . . . . . . . . . . . . p. 30
Sumário<br />
2.4 Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 31<br />
2.4.1 Regressão Linear Múltipla . . . . . . . . . . . . . . . . . . . . . . p. 32<br />
2.4.2 Regressão Logística Múltipla . . . . . . . . . . . . . . . . . . . . . p. 33<br />
3 Metodologia p. 35<br />
4 A Base de Dados p. 41<br />
4.1 Seleção de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 43<br />
4.2 Manipulação de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . p. 44<br />
5 Modelagem p. 49<br />
5.1 Amostras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 50<br />
5.2 Regressão Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 50<br />
5.2.1 Top . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 50<br />
5.2.2 Medium . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 52<br />
5.2.3 Low . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 53<br />
5.3 Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 55<br />
5.3.1 Top . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 55<br />
5.3.2 Medium . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 56<br />
5.3.3 Low . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 57<br />
6 Resultados p. 61<br />
7 Conclusões p. 63<br />
8 Desenvolvimentos Futuros p. 65<br />
Referências p. 66
Lista de Figuras<br />
1 Brasão da Universidade Federal de Minas Gerais. . . . . . . . . . . . . . p. 10<br />
2 Logotipo do Banco Santander Banespa. . . . . . . . . . . . . . . . . . . . p. 12<br />
3 Produtos do Cash Management Santander Banespa. . . . . . . . . . . . . p. 13<br />
4 Exemplo de título, ou boleto. . . . . . . . . . . . . . . . . . . . . . . . . p. 15<br />
5 Curva conceitual de relacionamento do cliente. . . . . . . . . . . . . . . . p. 18<br />
6 Diagrama de Paretto (Curva ABC). . . . . . . . . . . . . . . . . . . . . . p. 23<br />
7 Ambiente de Business Intelligence. Fonte: Kakinohana et al, 2005 . . . . p. 25<br />
8 Pirâmide de Business Intelligence. . . . . . . . . . . . . . . . . . . . . . . p. 26<br />
9 Metodologia de Data Mining. . . . . . . . . . . . . . . . . . . . . . . . . p. 27<br />
10 Tela do software SAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 28<br />
11 Transformação de uma ou mais linhas para cada cliente em uma só linha<br />
mas em diferentes colunas: Customer Signature. . . . . . . . . . . . . . . p. 29<br />
12 Regressão linear monovariável. . . . . . . . . . . . . . . . . . . . . . . . . p. 33<br />
13 Regressão logística monovariável. . . . . . . . . . . . . . . . . . . . . . . p. 33<br />
14 Momento da perda do cliente e período em que será feito o estudo. . . . . p. 37<br />
15 Relação entre custos de falsos churns e falsos não churns. . . . . . . . . . p. 39<br />
16 Redes em que o Brasil é dividido. . . . . . . . . . . . . . . . . . . . . . . p. 42<br />
17 Exemplo em que o número de títulos emitidos por um cliente na Agência<br />
0123 diminuiu mas o número emitido pelo CNPJ aumentou se somadas<br />
as duas agências. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 45<br />
18 Histograma das freqüências das saídas por Regressão Linear - Top - 80%. p. 51<br />
19 Histograma das freqüências das saídas por Regressão Linear - Medium -<br />
70%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 53
Lista de Figuras<br />
20 Histograma das freqüências das saídas por Regressão Linear - Low - 60%. p. 54<br />
21 Histograma das freqüências das saídas por Regressão Logística - Top -<br />
80%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 56<br />
22 Histograma das freqüências das saídas por Regressão Logística - Medium<br />
- 70%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 58<br />
23 Histograma das freqüências das saídas por Regressão Logística - Low -<br />
60%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 60
Lista de Tabelas<br />
1 Distribuição dos estratos por potencial de liquidação de títulos. . . . . . p. 36<br />
2 Segmentação das empresas por faturamento estimado. . . . . . . . . . . . p. 43<br />
3 Divisão das bases em treinamento e validação. . . . . . . . . . . . . . . . p. 50<br />
4 Regressores e valores dos parâmetros - Regressão Linear - Top. . . . . . . p. 51<br />
5 Regressores e valores dos parâmetros - Regressão Linear - Medium. . . . p. 52<br />
6 Regressores e valores dos parâmetros - Regressão Linear - Low. . . . . . . p. 54<br />
7 Regressores e valores dos parâmetros - Regressão Logística - Top. . . . . p. 55<br />
8 Regressores e valores dos parâmetros - Regressão Logística - Medium. . . p. 57<br />
9 Regressores e valores dos parâmetros - Regressão Logística - Low. . . . . p. 59<br />
10 Comparação dos valores de verdadeiros e falsos churns da regressão lin-<br />
ear nas bases de treinamento e validação. Os valores em negrito indicam<br />
casos onde houve diferença de mais de 10 pontos percentuais entre vali-<br />
dação e treinamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 61<br />
11 Comparação dos valores de verdadeiros e falsos churns da regressão logís-<br />
tica nas bases de treinamento e validação. Os valores em negrito indicam<br />
casos onde houve diferença de mais de 10 pontos percentuais entre vali-<br />
dação e treinamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 62
BACEN: Banco Central do Brasil;<br />
BD: Banco de Dados;<br />
BI: Business Intelligence;<br />
CM: Cash Management;<br />
Lista de Siglas<br />
CNAE: Código Nacional de Atividade Econômica;<br />
CNPJ: Cadastro Nacional de Pessoa Jurídica;<br />
CRM: Customer Relationship Management;<br />
DAV: Depósito A Vista;<br />
DM: Data Mining;<br />
MMQ: Método de Mínimos Quadrados;<br />
OLAP: On-Line Analytical Processing;<br />
PJ: Pessoa Jurídica;<br />
ROI: Return Over Investment;
1 Introdução<br />
1.1 Engenharia de Controle e Automação - UFMG<br />
Fundada em 1927, a Universidade Federal de Minas Gerais (UFMG) é uma das princi-<br />
pais instituições de ensino do país. A alta qualificação do seu corpo docente, a competência<br />
do pessoal técnico e administrativo, a qualidade de seus alunos e a diversidade dos campos<br />
em que atua contribuem decisivamente para a excelência do seu desempenho no ensino,<br />
na pesquisa e na extensão. Fazem parte da comunidade da UFMG mais de 35 mil alunos,<br />
mais de 2.400 professores (89,6% mestres ou doutores) e mais de 4.400 funcionários [17].<br />
Figura 1: Brasão da Universidade Federal de Minas Gerais.<br />
Um dos cursos criados recentemente na UFMG é o bacharelado em Engenharia de<br />
Controle e Automação. O Departamento de Engenharia Eletrônica (DELT), sede da área<br />
de conhecimento em Engenharia de Controle na UFMG, apresentou o projeto de cri-<br />
ação do Curso de Engenharia de Controle e Automação em fevereiro de 1996. O projeto<br />
foi discutido e aprovado nas diversas instâncias da Universidade (Câmaras Departamen-<br />
tais, Congregação da Escola de Engenharia, Câmara de Graduação, Conselho de Ensino,<br />
Pesquisa e Extensão) e, finalmente, em 12/06/97, o Curso foi aprovado pelo Conselho<br />
Universitário para iniciar suas atividades em 1998 [9].<br />
10
Esta é a sétima turma a se formar. Como parte integrante do currículo inclui-se o<br />
Projeto Final de Curso(PFC) que é realizado pelos alunos nos dois últimos semestres do<br />
curso. O objetivo é que os alunos apliquem o conhecimento aprendido ao longo dos 5 anos<br />
do curso sendo supervisionados por um professor de um dos departamentos integrantes<br />
do curso e por um supervisor na empresa onde o projeto está sendo implementado.<br />
Ao final, o aluno defende publicamente o seu projeto e apresenta uma monografia.<br />
1.2 Apresentação da Empresa<br />
1.2.1 História<br />
Em 1982, foi instalado o primeiro escritório de representação do Santander no Brasil e,<br />
nove anos depois, começaram as operações do Santander Investment. O processo de forte<br />
expansão dos negócios no Brasil foi iniciado em 1997, com a aquisição do Banco Geral do<br />
Comércio. Nos anos seguintes, foram mais três aquisições, que fizeram o Grupo ganhar<br />
posição entre os maiores players do setor. Em 1998, foi comprado o Banco Noroeste,<br />
em janeiro de 2000 foi anunciada a aquisição do Conglomerado Financeiro Meridional -<br />
formado pelos bancos Meridional e Bozano, Simonsen - e, em novembro do mesmo ano, o<br />
Santander comprou o controle do Banco do Estado de São Paulo, Banespa.<br />
Em 2001, foi formado o Banco Santander Banespa, após a reestruturação societária re-<br />
alizada no primeiro semestre do ano, envolvendo operações contábeis para a transferência<br />
das ações do Banespa, de propriedade do Banco Santander Central Hispano, para o Banco<br />
Santander S/A. O Grupo é formado pelas empresas financeiras Banco Santander Central<br />
Hispano, com sede em Madri, Banespa, Banco Santander Meridional, Banco Santander<br />
Brasil e Banco Santander S/A (antigo Banco Bozano, Simonsen).<br />
Figura 2: Logotipo do Banco Santander Banespa.<br />
Atualmente, o Banco Santander Banespa possui mais de 6,5 milhões de clientes, aten-<br />
didos por 21 mil profissionais e uma rede de 1.888 agências e postos de atendimento<br />
bancário(PABs), além de 7.334 caixas eletrônicos. Os ativos totais somaram R$69,6 bil-<br />
hões, o que lhe confere o quarto lugar no ranking do Banco Central, entre as instituições<br />
privadas. É um banco múltiplo, com presença ativa em operações diversificadas de varejo<br />
11
e atacado, com uma gama de negócios e produtos em diferentes segmentos de clientes -<br />
pessoas físicas (6,3 milhões de clientes), pequenas e médias empresas (180 mil clientes),<br />
corporações (8,8 mil clientes), governos e instituições (18 mil clientes) [15].<br />
1.2.2 Valores<br />
O Santander Banespa está apoiado em sólidos valores:<br />
• Foco no cliente<br />
• Compromisso<br />
• Equipe<br />
• Eficiência<br />
• Qualidade<br />
• Inovação<br />
• Transparência<br />
• Solidez<br />
• Comprometimento com as comunidades nas quais opera.<br />
1.2.3 O maior entre as menores<br />
Em 2005, o Santander Banespa definiu uma meta a ser cumprida em 3 anos: ser<br />
considerado como referência entre as empresas com faturamento anual até R$100 milhões:<br />
consideradas pequenas e médias empresas. A fim de cumprir esse objetivo, encomendou-se<br />
uma pesquisa de mercado, a fim de se fazer um amplo diagnóstico sobre as dimensões,<br />
características e necessidades desse mercado [16].<br />
É nesse contexto de busca de aumento de participação nesse mercado que se insere o<br />
presente projeto.<br />
1.2.4 Cash Management<br />
O Cash Management é o setor responsável pelo gerenciamento do fluxo de caixa<br />
das empresas através de soluções de recebimentos e pagamentos para otimizar o dia-a-<br />
12
dia financeiro/operacional das empresas. A figura 3 mostra os serviços e produtos que<br />
compõem as soluções do Cash Management Santander Banespa.<br />
Figura 3: Produtos do Cash Management Santander Banespa.<br />
Se o resultado do fluxo de caixa de uma empresa é positivo, ela investe o excedente.<br />
Se é negativo, ela deve cobrir esse déficit via operação de crédito ou será considerada<br />
inadimplente.<br />
• RECEBIMENTOS<br />
Cobrança ⇒ Serviço prestado aos correntistas, Pessoas Jurídicas ou Pessoas Físicas<br />
para recebimento de seus créditos futuros, oriundos de transações comerciais entre vende-<br />
dor e comprador. Os títulos (boletos - vide Figura 4 1 ) podem ser colocados em cobrança<br />
na forma física ou eletrônica. Existem duas modalidades: Cobrança com Registro, onde<br />
o banco registra cada título e cobra tanto pela emissão quanto pela liquidação; permite<br />
serviço como protesto automático. Cobrança sem Registro, onde o banco só conhece o<br />
título quando ele é liquidado. Só é cobrada tarifa se o título for liquidado.<br />
Recolhimento de Valores ⇒ É um serviço de recolhimento e transporte de valores,<br />
direcionado para empresas que tenham grandes volumes de numerários, cheques e tíquetes<br />
em seus pontos de venda. Por meio de empresa de segurança terceirizada, o Santander<br />
coleta, prepara, credita e informa a posição gerencial dos recursos com segurança e rapidez.<br />
1 dados fictícios<br />
13
Custódia de Cheques ⇒ Serviço oferecido a clientes Pessoa Jurídica do Banespa,<br />
que possibilita a guarda, controle e depósitos de cheques pré-datados, até a data do<br />
vencimento. Os cheques entregues pelo cliente são identificados e guardados com toda<br />
segurança até a data de seu respectivo depósito.<br />
Depósito Identificado ⇒ Permite aos clientes Banespa identificar a procedência dos<br />
depósitos que são efetuados em sua conta corrente. A identificação do depositante é feita<br />
através de um código de 06 algarismos, que é fornecida pelo cliente ao seu depositante.<br />
Este deve transcrever o código recebido no formulário de depósito utilizado pelo Banco.<br />
Débito Automático ⇒ Possibilita à empresa conveniada efetuar a cobrança de<br />
seus recebíveis através de lançamentos diretos na conta corrente, relativos a compromis-<br />
sos assumidos pelos clientes correntistas. A empresa contratante do serviço de débito<br />
automático, além de efetuar os seus recebimentos de modo seguro, proporciona ao seu<br />
cliente a comodidade de efetuar os pagamentos sem a necessidade de ir ao banco.<br />
Arrecadação/Código de Barras ⇒ Serviço destinado a recebimentos diversos (ex:<br />
impostos) no qual existe captura por meio de leitura ou digitação da respectiva represen-<br />
tação numérica, ou pela digitação dos campos do documento (não é necessário o envio do<br />
documento físico para a prestação de contas). Pelo código identificador o valor é creditado<br />
na conta do contratante.<br />
Figura 4: Exemplo de título, ou boleto.<br />
14
• PAGAMENTOS<br />
PagLine ⇒ Também chamado de Pagamento a Fornecedores, o PagLine é o serviço<br />
oferecido aos clientes PJ que têm condições de operacionalizar o seu contas a pagar de<br />
forma automatizada com o banco. O cliente gera e transmite ao banco um arquivo<br />
eletrônico contendo as informações sobre os pagamentos que deseja efetuar - para quem,<br />
de que forma, quando e quanto - ficando o banco responsável por cumprir as ordens do<br />
cliente: processar seus pagamentos e acatar instruções.<br />
Folha de Pagamento ⇒ É um serviço totalmente automatizado e seguro que visa<br />
facilitar a folha de pagamentos. A empresa envia os dados para a agência que debita da<br />
sua conta e credita nas contas dos funcionários. Os funcionários se tornam correntistas<br />
do banco e têm direito a pacotes de serviços em condições especiais.<br />
Tributos ⇒ Convênios firmados entre o banco e órgãos municipais, estaduais e fed-<br />
erais, que possibilita ao banco ser um agente arrecadador de diversos tributos e taxas. O<br />
banco repassa ao órgão os recursos mediante crédito em conta.<br />
Concessionárias ⇒ Produto onde a empresa conveniada pode otimizar o pagamento<br />
de suas obrigações junto a diversas concessionárias.<br />
visto pela óptica de quem está pagando.<br />
Confirming ⇒<br />
15<br />
É o similar do Débito Automático,<br />
É um produto de empréstimo que atua na cadeia produtiva dos<br />
clientes, proporcionando aos fornecedores desses a possibilidade de antecipar recursos<br />
referentes a venda de bens e prestação de serviços, sem a necessidade dos fornecedores<br />
possuírem linha de crédito no banco.<br />
1.3 Contextualização<br />
O produto Cobrança (boletos: desde planos de saúde a TV por assinatura) do San-<br />
tander Banespa é o maior gerador de receita e maior estreitador de relacionamento com<br />
os clientes PJ. Dentre as empresas que são clientes de Cash Management, cerca de 80%<br />
possuem Cobrança em seu portfólio de produtos. Por ter essa alta taxa de penetração
junto aos clientes, a Cobrança pode fomentar a implantação de outros produtos de CM<br />
nas empresas. E a expressividade da receita que o produto gera não é advindo somente<br />
do número de clientes, mas também pela variedade de receitas. As mais importantes são:<br />
• Registro de títulos: o banco cobra uma tarifa fixa por boleto enviado para cobrança.<br />
• Liquidação de títulos: essa tarifa só é cobrada quando o título é efetivamente pago<br />
na rede bancária conveniada.<br />
• Instruções (Baixa, Pedido Protesto, Sustação de Protesto, Abatimento, Desconto<br />
Financeiro, Alteração de Vencimento, Multas, Juros de Mora): para cada linha de<br />
instrução, existe tarifação.<br />
• Boletos sob medida: o banco personaliza o boleto com a logomarca do cliente, col-<br />
orido, com característica que conferem maior segurança, etc. O preço varia conforme<br />
a customização.<br />
• DAV: refere-se à receita que é apurada pelo banco decorrente do número de dias<br />
(float) que o banco fica com o dinheiro antes de repassar ao cedente.<br />
Para ilustrar o potencial de receita que é gerado de DAV, lista-se o seguinte exemplo:<br />
Cliente possui um faturamento de R$ 5,0 MM/mês - EMPRESAS II - e recebe<br />
metade desse valor via Cobrança.<br />
Consideramos que a taxa SELIC é de 19,50% ao ano, que o Depósito Compul-<br />
sório no BACEN é de 70% e que o banco negociou com esse cliente 3 dias de<br />
float, ou seja, depois que o título é pago na rede bancária conveniada, o banco<br />
só repassa o recurso 3 dias depois. O dinheiro dorme no banco 3 dias.<br />
Assim, a receita provida pelo DAV é:<br />
a(1 + b) d<br />
k = 750.000,00 x ((1 + 19,5%) 3<br />
252 − 1) = R$1.592,27 por mês.<br />
onde a é o valor livre de compulsório, b é a taxa SELIC, d é o número de dias<br />
de float e k é o número de dias úteis no ano.<br />
Assim, apenas com esse cliente fictício o banco lucraria em um mês mais de mil e<br />
quinhentos reais apenas de receita de DAV. Somando-se a isso a receita provida pelas<br />
tarifas, pode-se ver a importância que cada cliente tem para o banco, em termos de geração<br />
de receita.<br />
16
1.4 Motivação<br />
Entre janeiro de 2004 e janeiro de 2005, foi apurado que o índice de Churn de Cobrança<br />
chegou perto dos 50% [5]. A perda desses clientes implica grandes perdas financeiras para<br />
o banco, tanto de tarifas quanto de DAV. Segundo Kotler (2000), existe um tempo de<br />
“pagamento” do cliente, que é o período mínimo que o cliente deve permanecer comprando<br />
produtos para pagar o custo que a empresa teve de prospectá-lo. Esse custo inclui esforços<br />
de Marketing, visitas de especialistas e, no caso de Cobrança, instalação e treinamento<br />
para a utilização do Gerador de Arquivos, que é um software que gerencia a troca de<br />
informações entre a empresa e o banco. O objetivo do Santander Banespa, entretanto,<br />
não é apenas que o cliente se pague, mas que ele permaneça o maior tempo possível ativo<br />
em Cobrança e que, durante esse tempo, seu potencial seja explorado ao máximo.<br />
Com esse objetivo em foco, a área de CM criou um amplo projeto que abrange todas<br />
as fases do ciclo de relacionamento do cliente com o produto Cobrança, com ações nas<br />
fases de Prospecção, Ativação, Retenção e Reativação, além da Modelagem Preditiva, foco<br />
deste trabalho. A Figura 5 ilustra as fases em que as ações ocorrem.<br />
Figura 5: Curva conceitual de relacionamento do cliente.<br />
Para cada fase desse ciclo, o CM instituiu ações de forma a aumentar a base de clientes<br />
ao mesmo tempo que mitiga a perda deles. São elas:<br />
Prospecção - Manter e intensificar os esforços de conquista de novos clientes.<br />
Ativação - Contatos feitos pela Mesa de Negócios para estreitar o relacionamento, iden-<br />
tificar eventuais problemas e acompanhar de perto o cliente.<br />
17
Modelagem Preditiva - estudar o comportamento histórico dos clientes e a partir<br />
de modelos, tentar prever os clientes mais propensos a sair antes mesmo deles<br />
começarem a diminuir o relacionamento com o banco. Identificados os clientes<br />
propensos a sair o banco atua com a mesma metodologia da fase de Retenção.<br />
Retenção - Contato telefônico feito por especialistas, pela Mesa de Negócios, pelos Ge-<br />
rentes de Negócios das agências ou pelo Call Center, dependendo do valor do cliente<br />
para o produto. Possíveis ações de encantamento, como brindes, e mapeamento do<br />
porquê da diminuição do relacionamento do cliente com o banco. Especialistas têm<br />
alçada para negociar redução de tarifas. As outras frentes de ação terão um limite<br />
para desconto.<br />
Reativação - Pesquisa com clientes inativos para mapear motivos de perda, e nortear<br />
ações e melhoras nos produtos e no atendimento.<br />
As abordagens de Retenção e Reativação são reativas, ou seja, depois que o cliente<br />
deu sinais claros de deixar o produto, o CM procura os clientes e tenta reverter a perda.<br />
O esforço de Prospecção e Ativação já são feitos, ainda que neste projeto objetiva-se<br />
intensificar esses esforços.<br />
A novidade é a Modelagem Preditiva, através de que se pretende ter um insight<br />
antes de o cliente entrar nas fases de Retenção e Reativação e poder atuar antes, o que<br />
poderá com grandes chances diminuir o índice de churn e potencializar o ROI(Return<br />
Over Investment) de cada cliente dentro do produto Cobrança.<br />
1.5 Objetivos<br />
O objetivo deste trabalho é, a partir de modelos matemáticos, identificar a cada<br />
mês os clientes com maior propensão a abandonar o produto Cobrança. Serão utilizadas<br />
ferramentas de Data Mining (Mineração de Dados) [2, 7, 8] a fim de a partir de uma base<br />
histórica de comportamento de todos os clientes (ativos e inativos - 18 meses), construir<br />
modelos, via regressões, para a detecção prévia do momento de queda do relacionamento<br />
do cliente com o produto cobrança. Este trabalho se insere em um projeto maior de<br />
toda a área, que envolve esforços desde a prospecção de novos clientes até a tentativa de<br />
recuperação dos inativos. Os modelos serão obtidos via Regressão Linear [4] e Regressão<br />
Logística [10].<br />
18
Com essa modelagem preditiva, o banco poderá orientar os esforços de atuação nos<br />
clientes mais valiosos e que estiverem com maior risco, segundo os modelos, de abandonar<br />
o produto Cobrança.<br />
1.6 Organização da Monografia<br />
O conteúdo desta monografia está dividida em capítulos.<br />
O capítulo 1 trouxe uma breve introdução aos contextos onde o presente projeto foi<br />
realizado, bem como apresentou as instituições nele envolvidas.<br />
O capítulo 2 descreve os principais conceitos utilizados neste projeto, tais como Data<br />
Mining e Regressão, além de todo o ferramental matemático a ser utilizado. O capítulo 3<br />
traz a metodologia adotada ao longo da implementação do projeto. O capítulo 4 descreve<br />
a base de dados e os esforços de adequação da mesma para a etapa de Modelagem. O<br />
capítulo 5 expõe como a Modelagem foi feita e em quais amostras. O capítulo 6 mostrra<br />
os resultados obtidos para cada modelo. Finalmente, o capítulo 7 traz as conclusões<br />
depreendidas do projeto e no capítulo 8 são apresentadas sugestões para trabalhos futuros.<br />
19
2 Fundamentação Teórica<br />
2.1 Gestão do Relacionamento com os Clientes<br />
O CRM (do inglês Customer Relationship Management) é uma estratégia de gestão de<br />
negócios através do relacionamento com o cliente, para a realização de maior lucratividade<br />
e ganhos de vantagem competitiva, destacando para isso a participação da tecnologia como<br />
forma de automatizar os diversos processos de negócio, como vendas, marketing, serviços<br />
ao consumidor e suporte a campo. O CRM integra pessoas, processos e tecnologia para<br />
otimizar o gerenciamento de todos os relacionamentos, incluindo consumidores, parceiros<br />
de negócios e canais de distribuição.<br />
O processo de implementação de uma iniciativa de CRM pode ser pensada como uma<br />
série de quatro passos básicos: Identificar, Diferenciar, Interagir e Personalizar.<br />
1. Identificar os clientes: não é possível estabelecer uma relação com alguém que não<br />
se consegue identificar. Assim, torna-se crítico conhecer os clientes individualmente,<br />
com o maior número de detalhes possível e identificar, dentre todos, quais são os<br />
melhores e que podem dar a médio e longo prazo um bom retorno financeiro.<br />
2. Diferenciar os clientes: os clientes podem ser diferenciados de duas maneiras:<br />
pelo nível de valor para a empresa e pelas necessidades que têm de produtos e<br />
serviços da mesma. Assim, uma vez tendo identificado os clientes, o próximo passo<br />
é a diferenciação dos clientes de maneira a: (a) priorizar os esforços e aproveitar<br />
o máximo possível do potencial dos clientes de maior valor e (b) personalizar, na<br />
medida do possível, o comportamento da empresa, baseado nas necessidades indi-<br />
viduais dos clientes. Isso implica estabelecer algum tipo de critério de estratificação,<br />
modelo de lucratividade ou de diferenciação dos clientes.<br />
3. Interagir com os clientes: interagir com os clientes não implica somente bus-<br />
car a forma mais barata ou automatizada de interação, mas também a mais útil<br />
20
em termos de produção de informação, que possa ajudar a fortalecer as relações<br />
empresa-cliente. A etapa de interação está intimamente ligada à de diferenciação<br />
e à de personalização. Além de saber como as necessidades dos clientes mudam,<br />
é necessário um processo de utilização dos feedbacks de um cliente em particular<br />
para que seja possível compreender quais são as necessidades específicas daquele<br />
cliente.<br />
4. Personalizar alguns aspectos de uma empresa/produtos para melhor atender seus<br />
clientes. Isso não significa, entretanto, mudar toda a estrutura da empresa ou criar<br />
um novo produto a partir da necessidade de cada cliente, mas tentar adequar os<br />
fatores pertinentes de forma a atender os melhores clientes de maneira mais satis-<br />
fatória e que impulsione a interação com esses.<br />
Em setores nos quais existe baixa diferenciação de oferta de produtos e alta competi-<br />
tividade, conhecer os clientes e seus comportamentos são condições necessárias para uma<br />
empresa se manter viva no mercado. O setor bancário é um desses, onde os produtos são<br />
muito parecidos e existe um freqüente ”aliciamento” de clientes por outros bancos [18].<br />
Assim, a competição não se limita na aquisição de novos clientes, mas também, e até mais<br />
importante, na manutenção dos clientes atuais, uma vez que adquirir novos clientes pode<br />
ser até 6 vezes mais caro que manter os atuais [12, 7].<br />
Portanto, uma das tendências do marketing tem sido a crescente ênfase em desenvolver<br />
o relacionamento e fidelizar os clientes, para que estes dêem sustentabilidade à empresa.<br />
Assim, torna-se necessário o desenvolvimento de estratégias e formas de se manter os<br />
clientes já conquistados.<br />
É reconhecido pelas empresas que todos os clientes são importantes, porém alguns<br />
são mais importantes que outros. Essa questão foi estudada primeiramente por Vilfredo<br />
Paretto, um renascentista italiano do século XIX, que em 1897 executou um estudo sobre a<br />
distribuição de renda. Através desse estudo, percebeu-se que a distribuição de riqueza não<br />
se dava de maneira uniforme, havendo grande concentração de riqueza (∼ 80%) nas mãos<br />
de uma pequena parcela da população (∼ 20%) [12]. O raciocínio de Paretto, batizado de<br />
Curva ABC ou Curva 80-20, tem sido estendido a outras áreas e atividades tais como a<br />
industrial e a comercial, sendo mais amplamente aplicado a partir da segunda metade do<br />
século XX. No âmbito de marketing, a análise de Paretto é enquadrada na medida em que<br />
perto de 80% do lucro de uma empresa é proveniente de aproximadamente 20% de seus<br />
clientes, que são considerados portanto os mais valiosos, ou mais rentáveis (Figura 6).<br />
21
Figura 6: Diagrama de Paretto (Curva ABC).<br />
Dedicar maior atenção a esses clientes mais valiosos é uma boa estratégia para se<br />
garantir a lucratividade do banco em relação ao cliente no longo prazo e evitar que um<br />
bom cliente migre para um banco concorrente. E quando se perde um cliente, não se perde<br />
apenas o investimento que foi feito na aquisição dele, mas também toda a lucratividade que<br />
ele poderia proporcionar no futuro. Dependendo do produto/serviço vendido, o tempo de<br />
permanência do cliente pode nem ter sido suficiente para pagar o investimento inicial [12].<br />
Ou seja, um cliente infiel pode trazer ao invés de pouco lucro, muito prejuízo.<br />
Para a prestação de serviços bancários, existem algumas características e fatores<br />
estratégicos de sucesso, tais como: especialização técnica, velocidade de solução e in-<br />
formação, preços competitivos, administração de relacionamentos com clientes e outros<br />
parceiros significativos. Ao conhecer os clientes, o banco pode mapear onde o seu pro-<br />
duto/serviço está deficiente, e pode concentrar esforços nos itens que mais impactem na<br />
fidelização de seus clientes.<br />
Assim, o CRM é fundamental na medida em que insere inteligência no relacionamento<br />
com o cliente e através disso permite a utilização do conhecimento gerado para racionalizar<br />
as ações de marketing a fim de explorar todo o potencial de cada cliente, principalmente<br />
dos melhores clientes: os mais rentáveis.<br />
22
2.2 Data Mining<br />
A partir da década de 80, a intensificação da informatização nas empresas possibilitou<br />
grandes saltos operacionais nos negócios. Isso implicou grande aumento no volume de<br />
dados circulando e sendo armazenados. Juntamente com o crescimento desses volumes,<br />
cresceu a dificuldade de se retirar informações úteis dessa enorme gama de dados.<br />
O conceito de Business Intelligence (BI) - Figuras 7 e 8- surgiu para tentar resolver<br />
esse problema e consiste em uma vasta categoria de tecnologias e programas aplicativos<br />
utilizados para extrair, armazenar, analisar e transformar grandes volumes de dados,<br />
produzindo um ambiente de conhecimento, onde há produção sistemática de informação<br />
gerencial, veloz e consistente, capaz de auxiliar as empresas a tomarem as melhores de-<br />
cisões nos negócios. Isso baseado em fatos reais, com profundidade suficiente para desco-<br />
brir as causas de uma tendência ou de um problema, ou tomar decisões que a coloquem<br />
à frente dos concorrentes [11].<br />
Figura 7: Ambiente de Business Intelligence. Fonte: Kakinohana et al, 2005<br />
Duas das soluções que compõem o BI são o OLAP (On-Line Analytical Processing),<br />
que consiste basicamente em geração de relatórios, e o Data Mining.<br />
“Data Mining é a exploração e análise de grandes quantidades de dados a fim de se<br />
descobrir padrões e regras significantes” [2].<br />
A idéia central do DM para CRM é que os dados do passado contém informações<br />
que serão úteis no futuro. Isso se torna verdade na medida em que o comportamento dos<br />
consumidores presente nos dados corporativos não são puramente aleatórios, mas refletem<br />
diferentes necessidades, preferências e propensões. A tarefa de encontrar essas informações<br />
é dificultada porque os padrões nem sempre são fortes, e os muitos sinais coletados são, na<br />
maioria das vezes, ruidosos e confusos. Separar o sinal do ruído - reconhecer os padrões<br />
fundamentais escondidos nas variações randômicas - é um importante desafio do DM [2, 8].<br />
23
Figura 8: Pirâmide de Business Intelligence.<br />
Para ser efetivo, o Data Mining deve ser executado em um contexto que permita à<br />
organização atuar a partir das informações que o DM lhe fornece.<br />
As possibilidades da tarefa de Data mining, e.g. percentual de acerto, etc, dependem<br />
em muito da natureza dos dados disponíveis e não apenas da quantidade.<br />
24<br />
É tarefa do<br />
Data Miner manipular os dados de forma que atendam às necessidades de implementação.<br />
Data mining está muito relacionado com a elaboração de modelos. Um modelo é<br />
simplesmente um algoritmo ou um conjunto de regras que define a relação entre a(s) en-<br />
trada(s) e saída(s). Algumas técnicas utilizadas na construção de modelos são: Regressões,<br />
Redes Neurais, Árvores de Decisão.<br />
2.2.1 Aplicações de Data Mining<br />
⊲ Classificação: Consiste em se examinar as características de um objeto novo que<br />
é apresentado e enquadrá-lo em uma das classes pré-definidas.<br />
⊲ Estimação: Ao passo que Classificação lida com saídas discretas, Sim ou Não,
Figura 9: Metodologia de Data Mining.<br />
25
Quadrado, Redondo ou Retangular, Estimação lida com saídas contínuas.<br />
⊲ Predição: Consiste em se prever um comportamento futuro com base em dados<br />
históricos e/ou classificatórios. Exemplo: prever o gastos com cartão de crédito no próx-<br />
imo mês com base em dados históricos passados e cadastrais dos clientes.<br />
⊲ Agrupamento por afinidade: Consiste em se gerar regras a partir dos dados.<br />
São as “Regras de Associação” Exemplo: pessoas que compram comida de gato também<br />
compram leite com probabilidade P1.<br />
⊲ Clustering: Similar a Classificação, mas não existem número de classes nem as<br />
classes pré-definidas.<br />
⊲ Descrição: Busca descrever o comportamento de consumidores/produtos. Exem-<br />
plo: Mais homens preferem hamburgers do que mulheres na razão de 1.2:1.<br />
O presente projeto se enquadra em duas das tarefas citadas anteriormente: (1) Clas-<br />
sificação: uma vez que se quer classificar os clientes entre churn e não churn;(2) Predição:<br />
uma vez que se quer predizer se o cliente será churn ou não churn com base em dados<br />
históricos e cadastrais dos mesmos.<br />
Figura 10: Tela do software SAS.<br />
Existem alguns softwares que podem ser utilizados para se pôr em prática as ferra-<br />
26
mentas de Data Mining e descobrir informações importantes em grandes massas de dados.<br />
Alguns dos softwares mais utilizados são o SAS (Figura 10), o SPSS e o Microsoft <br />
Access.<br />
A Figura 9 mostra a metodologia completa de DM. Ela é uma norteadora quando o<br />
problema envolve DM.<br />
Em um típico problema de Data Mining, cerca de 60% do tempo é gasto nos passos 1<br />
a 6 da Figura 9, pois deve-se garantir com a maior certeza possível a qualidade dos dados<br />
que serão utilizados na obtenção dos modelos.<br />
“Just as the most powerful engines cannot use crude oil as a fuel, the most power-<br />
ful algorithms (the engines of data mining) are unlikely to find interesting patterns in<br />
unprepared data”. 1 [2].<br />
Figura 11: Transformação de uma ou mais linhas para cada cliente em uma só linha mas<br />
em diferentes colunas: Customer Signature.<br />
Após se garantir a qualidade dos dados, é necessário colocá-los no formato adequado<br />
para modelagem. A transição mostrada na Figura 11 ilustra esse procedimento. Depois<br />
desse processo, em cada linha estarão todas as informações relativas a cada CNPJ. Esse<br />
formato é chamado de Customer Signature [2].<br />
1 Assim como os mais potentes motores não podem utilizar petróleo crú como combustível, os algoritmos<br />
mais poderosos (os motores do Data Mining) dificilmente encontrarão padrões interessantes em<br />
dados despreparados<br />
27
2.3 Taxa de Redução de Erro<br />
O critério da taxa de redução de erro (ERR - do inglês Error Reduction Ratio) [3,<br />
1, 19] pode ser usado na determinação de um número de regressores de um modelo. Ele<br />
estabelece uma medida de importância para cada regressor, pois quantifica a redução no<br />
erro da saída do modelo devido à introdução de cada regressor. Assim, dentre um conjunto<br />
possivelmente grande de regressores candidatos, inclui-se os regressores com maior ERR.<br />
Define-se o seguinte modelo genérico:<br />
y(k) = ψ T (k − 1) ˆ θ + ξ(k) =<br />
nθ <br />
i=1<br />
28<br />
ˆθiψi(k − 1) + ξ(k), (2.1)<br />
sendo que são considerados os regressores até o instante (k − 1), e define-se o modelo<br />
auxiliar<br />
nθ <br />
y(k) = ˆgiωi(k − 1) + ξ(k), (2.2)<br />
i=1<br />
em que os regressores ωi são ortogonais entre si ao longo da massa de dados, ou seja,<br />
sendo que i,j = 1...nθ.<br />
w T i wj =<br />
N<br />
ωi(k)ωj(k) = 0, ∀i = j, (2.3)<br />
A soma dos valores quadráticos de y(k) é 〈y,y〉 ou y T y. Assim,<br />
y(k) 2 =<br />
nθ<br />
k=1<br />
<br />
ˆgiωi(k − 1) + ξ(k)<br />
i=1<br />
nθ<br />
<br />
<br />
ˆgiωi(k − 1) + ξ(k) . (2.4)<br />
Assumindo-se que o sistema seja ergódico, considera-se a média de 2.4 que resulta em<br />
y T nθ <br />
y =<br />
i=1<br />
ˆg 2 i ω 2 nθ nθ <br />
i +<br />
i=1<br />
<br />
j=1<br />
ˆgiˆgjω 2 nθ <br />
i + 2<br />
i=1<br />
i=1<br />
ˆgiωiξ + ξ T nθ <br />
ξ = ˆg 2 i ω 2 i + ξ T ξ. (2.5)<br />
A equação 2.5 mostra que o somatório dos quadrados de y(k) (valor quadrático médio)<br />
pode ser definido como a soma dos valores quadráticos de cada regressor multiplicado pelos<br />
respectivos parâmetros e dos valores quadráticos do vetor de resíduos, que corresponde à<br />
parte não explicada pelos regressores considerados. Assim, quantifica-se a importância de<br />
i=1
cada regressor considerado no modelo [19].<br />
Por conseguinte, é definido a taxa de redução de erro do i-ésimo regressor como<br />
2.4 Regressão<br />
29<br />
[ERR]i = ˆg2 i w2 i<br />
yT . (2.6)<br />
y<br />
Regressão é uma técnica estatística que permite derivar modelos matemáticos que<br />
explicam a variação de uma variável dependente em função de outras independentes. O<br />
software SAS utiliza o MMQ - Método de Mínimos Quadrados - que consiste em se<br />
encontrar os parâmetros dos regressores que minimizem o somatório do quadrado dos<br />
resíduos [1].<br />
Considerando-se que se conhece o valor estimado do vetor de parâmetros, ˆ θ, e que é<br />
cometido um erro ξ ao se tentar explicar o valor observado y a partir do vetor de regresores<br />
x e de ˆ θ, ou seja,<br />
y = x Tˆ θ + ξ. (2.7)<br />
Tomando-se N > nθ aplicações da equação 2.7, a representação matricial torna-se<br />
y = X ˆ θ + ξ, (2.8)<br />
em que ξ∈ R N×1 é o vetor de erros cometidos ao se tentar explicar y ∈ R N×1 como X ˆ θ.<br />
É razoável que uma resposta mais precisa ocorre onde ξ é reduzido em algum sentido.<br />
Assim, define-se o somatório do quadrado dos resíduos, que é a função que pretende-se<br />
minimizar:<br />
JMQ =<br />
N<br />
ξ(i) 2 = ξ T ξ = ξ 2 , (2.9)<br />
i=1<br />
que é um índice que quantifica a qualidade de ajuste de X ˆ θ ao vetor de observações y.<br />
A fim de minimizar a função custo JMQ com relação a ˆ θ, é necessário que (∂JMQ/∂ ˆ θ =<br />
0). Com essa restrição e substituindo ξ de 2.8 em 2.9, tem-se que:
ou seja,<br />
∂JMQ<br />
∂ ˆ θ = −2XT y + 2X T X ˆ θ = 0, (2.10)<br />
ˆθ = [X T X] −1 X T y. (2.11)<br />
Para que ˆ θ seja mínimo, (∂ 2 JMQ/∂ ˆ θ 2 = 2X T X > 0). Como 2X T X > 0 é posi-<br />
tiva definida por construção, a equação 2.11 é o estimador que minimiza o somatório do<br />
quadrado dos erros. Em suma,<br />
ˆθMQ = arg θminJMQ = [X T X] −1 X T y. (2.12)<br />
A equação 2.12 é o estimador de Mínimos Quadrados clássico.<br />
2.4.1 Regressão Linear Múltipla<br />
A regressão linear consiste em se obter um modelo linear nos parâmetros. Um modelo<br />
de regressão linear múltipla é um modelo onde o número de variáveis preditoras, ou<br />
regressores, é maior que um [4, 14]. Tem-se que<br />
Yi = β0,i + β1x1,i + ... + βnθ−1xnθ−1,i + εi, i = 1 . . . N (2.13)<br />
em que Yi = {1 ou 0}, para o caso em que a resposta é binária.<br />
A resposta esperada é dada por:<br />
πi = E(Yi) = β0,i + β1x1,i + ... + βnθ−1xnθ−1,i, i = 1 . . . N (2.14)<br />
em que E é o operador de esperança matemática.<br />
A Figura 12 ilustra uma regressão linear em que há somente uma variável regressora. A<br />
idéia pode ser estendida ao caso com mais de um regressor, em que é gerada uma superfície<br />
nθ + 1-dimensional, onde nθ é o número de regressores. A idéia central é mantida, em<br />
que se deseja encontrar uma superfície tal que o somatório do quadrado dos erros seja<br />
minimizado via Mínimos Quadrados.<br />
30
Figura 12: Regressão linear monovariável.<br />
2.4.2 Regressão Logística Múltipla<br />
A Figura 13 ilustra uma regressão logística onde existe somente uma variável regres-<br />
sora. Similarmente ao caso linear, a idéia pode ser estendida à situação em que o número<br />
de regressores é maior que 1, em que é gerada uma superfície n + 1-dimensional, onde<br />
n é o número de regressores. A resposta de uma função logística sempre varia entre 0 e<br />
1 [10, 13].<br />
Figura 13: Regressão logística monovariável.<br />
Para o caso com mais de um regressor:<br />
E(Yi) = e(β0,i+β1x1,i+...+βnθ−1xnθ −1,i)<br />
1 + e (β0+β1x1,i+...+βn<br />
, i = 1 . . . N. (2.15)<br />
θ−1xnθ −1,i)<br />
31
3 Metodologia<br />
A partir da base de dados inicial, serão descritas todas as informações que foram<br />
disponibilizadas, bem como a faixa de valores que cada uma pode assumir. Conhecer bem<br />
os dados é um passo importante no processo de Data Mining para posterior modelagem<br />
preditiva, que consiste em se obter modelos matemáticos que determinem a probabilidade<br />
de um evento acontecer. No caso desta monografia, o evento (variável dependente) será a<br />
perda de um cliente para o produto Cobrança.<br />
Pode haver inconsistências na base de dados que será utilizada. Elas devem ser identi-<br />
ficadas e eliminadas, ou a qualidade dos modelos pode ser prejudicada. Serão feitas várias<br />
queries em toda a base para identificação de possíveis valores que sejam inconsistentes<br />
com a descrição da base.<br />
Garantida a integridade da base, far-se-á manipulações a fim de se criar novas variáveis<br />
que exprimam relações úteis entre as variáveis já existentes. Um exemplo é o ticket médio,<br />
que é o volume dos títulos liquidados em um determinado mês dividido pelo número de<br />
títulos liquidados no mesmo mês:<br />
tm = VL<br />
NL ,<br />
em que tm é o ticket médio, VL é o volume de títulos liquidados em R$ e NL é o número<br />
de títulos liquidados.<br />
Durante todos esses passos acima, ganha-se intimidade com as informações de que se<br />
dispõe. Resolvidos os problemas dos dados, eles devem ser colocados no formato adequado<br />
para modelagem, o formato Customer Signature (Figura 11), em que cada linha contém<br />
todas as informações relativas a cada CNPJ, conforme descrito no capítulo anterior.<br />
Uma análise será feita nessa base a fim de se identificar as variáveis que não são signi-<br />
ficativas, i.e, que são encontradas na base com muito pouca freqüência. Um exemplo é a<br />
variável Agência, que é uma variável quase única, uma vez que existem muitas agências, o<br />
32
que implica poucos clientes por agência. Se a presença/ausência de uma agência for con-<br />
siderada como uma variável preditora, isso gerará mais de 1000 variáveis independentes.<br />
Assim, percebe-se que Agência deve ser descartada.<br />
A base total será então dividida em três estratos. O objetivo dessa abordagem é tentar<br />
estudar de forma mais profunda a base. Se se modelar a base inteira, intuitivamente,<br />
torna-se mais difícil obter um modelo que seja razoável para todos os estratos.<br />
Tabela 1: Distribuição dos estratos por potencial de liquidação de títulos.<br />
Estrato Número de títulos por mês (potencial) Número de clientes<br />
TOP mais que 110 3831<br />
MEDIUM de 51 a 110 3169<br />
LOW de 21 a 50 4319<br />
A divisão desses estratos segue o projeto global do churn, onde o primeiro estrato é<br />
formado pelos clientes que têm o potencial de liquidação de títulos superior a 110 por mês.<br />
Este estrato têm 3831 clientes. O segundo estrato abrange os clientes com potencial de 51<br />
a 110 títulos liquidados por mês e possui 3169 clientes . O terceiro estrato, por sua vez, é<br />
formado pelos clientes cujo potencial é de 21 a 50 títulos por mês, onde há 4319 clientes.<br />
Os clientes cujos potenciais é menor que 20 títulos não serão estudados pois representam<br />
pouco valor para o banco; são os non-focus. Vide Tabela 1.<br />
Para cada estrato, determinar-se-á o momento do churn. Isso será feito ao se calcular<br />
um limite inferior para cada cliente baseado no potencial exibido até então pelo cliente.<br />
Se o cliente emitir durante três meses consecutivos um número inferior a essa limite, ele<br />
será classificado como churn. O objetivo é ser mais restritivo com os clientes de maior<br />
valor e menos restritivos com os de menor valor, o que implica os valores de limite inferior<br />
serem proporcionalmente maiores para os clientes que emitem mais de 111 títulos por mês.<br />
São considerados três limites para cada estrato, em que as tolerências de emissão durante<br />
3 meses consecutivos seja 60%, 70% e 80% inferior à média dos últimos 3 meses. Isso<br />
representa a sensibilidade do banco para considerar as perdas dos clientes. Por justificativa<br />
de negócio, deseja-se ser mais sensível à perda dos clientes Top e menos sensível à perda<br />
dos Low.<br />
Ao se conhecer o momento da perda do cliente, o comportamento deste nos 3 meses<br />
anteriores será estudado. A esperança é validar se a informação que o cliente iria deixar<br />
o produto estava nesse período, e quais variáveis independentes (regressores) continham<br />
essa informação. A Figura 14 ilustra essa idéia.<br />
Como existem muitos regressores, será aplicado o critério da taxa de redução de erro<br />
33
Figura 14: Momento da perda do cliente e período em que será feito o estudo.<br />
(ERR) no software Matlab 6.0, para tentar se determinar quais regressores melhor expli-<br />
cam a saída. Depois dessa etapa e da redução significativa do número de regressores(para<br />
ambos os modelos lineares e logísticos), mais regressores podem ser descartados através<br />
do teste de p-valor, recurso do SAS . Os regressores com p-valor significativos, i.e. menor<br />
que 0.15, serão mantidos e usados na modelagem.<br />
Uma vez que se têm as variáveis de estudo e as massas de dados por estrato, é<br />
necessário dividi-las em massa de treinamento (onde serão obtidos os modelos) e massa de<br />
validação (onde serão testados os modelos em dados que não foram vistos no treinamento).<br />
Essas massas devem estar balanceadas, ou seja, conter todos os tipos de comportamentos<br />
de empresas.<br />
Conforme foi explicitado no capítulo 2, em um modelo de regressão linear múltipla,<br />
com várias variáveis regressoras:<br />
Yi = β0,i + β1x1,i + ... + βnθ−1xnθ−1,i + εi, i = 1 . . . N,<br />
em que Yi = {1 ou 0}.<br />
A resposta esperada é dada por:<br />
34
πi = E(Yi) = β0,i + β1x1,i + ... + βnθ−1xnθ−1,i,i = 1 . . . N (3.1)<br />
em que E é o operador de esperança.<br />
Para o modelo de regressão logística múltipla:<br />
πi = E(Yi) = e(β0,i+β1x1,i+...+βnθ−1xnθ −1,i)<br />
1 + e (β0+β1x1,i+...+βn<br />
, i = 1 . . . N. (3.2)<br />
θ−1xnθ −1,i)<br />
Assim, a resposta média, quando a variável resposta é uma variável binária (1 ou 0),<br />
sempre representa a probabilidade Y = 1, para os valores das variáveis preditoras xi.<br />
Para o caso em questão, xi poderá ter valores reais (exemplo: receita de tarifa de conta<br />
corrente) ou binários (exemplo: cliente ou não do produto PagLine); para a regressão<br />
logística poderá ser a combinação de mais um regressor em até no segundo grau.<br />
Depois de obtidos os modelos, torna-se necessário saber o quão diferenciativos estão<br />
os modelos, ou seja, se eles estão acertando e se as probabilidades calculadas para clientes<br />
churn e não churn estão pelo menos um pouco distantes umas das outras. Isso será feito<br />
pontuando-se cada modelo com os dados de treinamento e determinando-se os ranges de<br />
cada um. Assim, na base de treinamento observa-se quando uma porcentagem razoável<br />
de churn foi identificada e utiliza-se esse limiar como limiar também na base de validação,<br />
a fim de se confirmar se aquele limiar é um bom delimitador do evento churn. Para os<br />
clientes Top, permitir-se-á uma tolerância maior de falsos churns(i.e. o modelo diz que o<br />
cliente iria sair, mas ele não sai) e um menor número de falsos não churns(i.e. o modelo<br />
diz que o cliente iria ficar mas o cliente vai embora).<br />
A Figura 15 ilustra a composição dos custos. As retas de Calibração podem ser<br />
movidas de forma a ajustar as áreas em cada região. Para os clientes Top, deseja-se que<br />
as perdas de clientes sejam pouco freqüentes, apesar de nesse caso se identificar como<br />
churn vários clientes que não iriam deixar o produto Cobrança; ou seja, atua-se em quem<br />
não era necessário. Como o valor de cada cliente Top é muito alto, essa abordagem se<br />
justifica.<br />
Para os clientes Medium e Low, respectivamente, as retas de calibração devem ser<br />
posicionadas de maneira mais conservadoras, o que significa que como não são clientes<br />
tão valiosos como os Top, o banco pode “errar” mais, guardadas as devidas proporções.<br />
As áreas rotuladas de OK são aquelas onde os modelos foram leais à realidade.<br />
35
Figura 15: Relação entre custos de falsos churns e falsos não churns.<br />
No final, é feita uma comparação dos métodos, se as amostras de validação seguem<br />
a mesma distribuição das amostras de treinamento e se os modelos obtidos realmente<br />
explicam em boa parte o comportamento dos clientes a partir dos dados disponíveis.<br />
36
4 A Base de Dados<br />
Confome foi discutido no capítulo 1, este projeto exigirá aplicação de ferramentas de<br />
Data Mining.<br />
Foi disponibilizada uma base de dados com informações de mais de 213 mil clientes,<br />
que compõem parte da massa de dados de todos os que são clientes PJ do banco ou que<br />
o foram no período de janeiro de 2004 a junho de 2005, ou seja, 18 meses. O tamanho<br />
dessa base era de pouco mais de 1 Gigabyte, em Microsoft Access 2002, contendo mais<br />
de 5,5 milhões de registros.<br />
Em paralelo, a equipe de riscos forneceu o Código Nacional de Atividade Econômica<br />
(CNAE) para cerca de 70% dos CNPJs.<br />
Foi feita também a requisição de outras informações, tais como dados dos produtos dos<br />
quais cada CNPJ é cliente, faturamento estimado e valor em financiamentos. No entanto,<br />
várias informações foram consideradas sensíveis pela direção do banco e não puderam ser<br />
disponibilizadas. Outras não foram disponibilizadas a tempo.<br />
Para cada CNPJ e para cada mês, a base possuía:<br />
• Rede: pode ser de I, II, III, IV ou IV. Representa as 5 macro-regiões em que o<br />
banco divide o Brasil, conforme Figura 16.<br />
• Banco:<br />
008 - Meridional.<br />
033 - Banespa.<br />
353 - Santander.<br />
• Agência: Número da agência a que pertence a conta geradora de determinado<br />
registro para o referido CNPJ.<br />
37
Figura 16: Redes em que o Brasil é dividido.<br />
• Segmento: divisão por faturamento estimado da empresa, conforme Tabela 2. Pode<br />
ser Pymes I, Pymes II, Empresas I e Empresas II.<br />
38
• Código do produto:<br />
2 - Cobrança.<br />
4 - Tarifa de conta corrente.<br />
5 - DAV.<br />
6 - Pagamento a Fornecedores.<br />
7 - Recolhimento de Valores.<br />
9 - Folha de Pagamento.<br />
• Receita de tarifa: valor total (em R$) gerado por cobrança de tarifas.<br />
• Receita financeira: valor total (em R$) gerado pelo dinheiro ”dormir”no banco.<br />
• Número de títulos entrados: número de títulos entrados. Ou seja, só contempla<br />
a modalidade Cobrança com Registro.<br />
• Volume (em reais) de títulos entrados: soma dos valores de face dos títulos<br />
entrados. Ou seja, só contempla a modalidade Cobrança com Registro.<br />
• Número de títulos liquidados: número de títulos que foram efetivamente pagos<br />
na rede bancária. Contempla todas as modalidades de cobrança.<br />
• Volume (em reais) de títulos liquidados: soma dos valores dos títulos que<br />
foram efetivamente pagos na rede bancária. Contempla todas as modalidades de<br />
cobrança.<br />
• Nome da agência: nome da agência a que pertence a conta geradora de determi-<br />
nado registro para o referido CNPJ. Ex: Agência Pouso Alegre.<br />
• Nome da regional: uma regional abrange várias agências e uma rede abrange<br />
várias regionais. Ex: A Agência Pouso Alegre pertence à Regional Belo Horizonte,<br />
que pertence à Rede II.<br />
Tabela 2: Segmentação das empresas por faturamento estimado.<br />
Segmento Faturamento anual (reais)<br />
Pymes I até 1 milhão<br />
Pymes II de 1 a 10 milhões<br />
Empresas I de 10 a 30 milhões<br />
Empresas II de 30 a 100 milhões<br />
39
4.1 Seleção de Variáveis<br />
As informações relativas ao número da agência, nome da agência e nome da regional<br />
foram descartadas pois formam conjuntos únicos de dados e essas características são inú-<br />
teis para a modelagem [2].<br />
O CNAE também foi descartado uma vez que são muitas atividades econômicas pos-<br />
síveis e cada atividade econômica possuía poucos CNPJs. Além disso, a equipe de Riscos<br />
não tinha aproximadamente 30% dos CNAEs dos CNPJs, o que comprometeria a etapa<br />
de modelagem se essa informação fosse considerada.<br />
As informações relacionadas à entrada de títulos, i.e., Número de títulos e Volume<br />
também foram descartados porque abrangem somente Cobrança com Registro. Quando<br />
se trata de dados sobre títulos liquidados, envolvem todas as modalidades de cobrança, o<br />
que justifica em se manterem essas informações.<br />
As informações sobre o produto Recolhimento de Valores também não serão conside-<br />
radas no modelo porque apenas 434 CNPJs são clientes desse produto dentre os mais de<br />
213 mil CNPJs disponibilizados inicialmente.<br />
Os outros dados foram mantidos e serão utilizados, alguns com modificações, na etapa<br />
de modelagem.<br />
4.2 Manipulação de Variáveis<br />
Dentre os mais de 213 mil CNPJs inicialmente apresentados, foram selecionados<br />
16.633, que compreendem aqueles que estavam ativos em qualquer produto do CM ou<br />
em conta corrente durante todos os 18 meses de análise e que são ou foram clientes de<br />
Cobrança, uma vez que é o churn de Cobrança que se deseja analisar.<br />
As informações relativas a esses 16.633 CNPJs estavam na forma relacional e tiveram<br />
que ser adequadas à Customer Signature, onde todas as informações sobre um CNPJ<br />
devem estar em apenas uma linha. A Figura 11 ilustra esse procedimento.<br />
O objetivo é angariar informações sobre quando um CNPJ irá deixar o produto Co-<br />
brança. Assim, se se considerasse cada conta, poder-se-ia estar considerando falsos churns,<br />
pois um cliente pode ter várias contas com cobrança e alternar as emissões entre várias<br />
delas de um mês para o outro.<br />
A Figura 17 ilustra uma situação onde um CNPJ alternou de um mês para outro<br />
40
Figura 17: Exemplo em que o número de títulos emitidos por um cliente na Agência 0123<br />
diminuiu mas o número emitido pelo CNPJ aumentou se somadas as duas agências.<br />
apenas a agência onde emitiu mais títulos. Assim, optou-se em se aglutinar as informações<br />
relativas a um mesmo produto para um mesmo CNPJ. Depois dessa transformação, a base<br />
está com 16.633 linhas, onde cada linha contém todas as informações disponíveis para cada<br />
CNPJ.<br />
Para os produtos Pagamento a Fornecedores e Folha de Pagamento, existiam infor-<br />
mações mensais sobre número de títulos emitidos e receitas de tarifa e DAV. Como esses<br />
produtos possuem variações muito grandes nesses números, foi criada uma variável auxil-<br />
iar, booleana, onde se apontava a presença (1) ou ausência (0) desses produtos na carteira<br />
de cada cliente.<br />
Um mesmo CNPJ pode ter contas em um, dois ou nos três bancos do grupo, Banespa<br />
(033), Meridional (008) e Santander (353). Assim, foram criadas 3 variáveis booleanas que<br />
indicam em quais bancos o cliente possui conta. Similarmente, foram criadas 5 variáveis<br />
booleanas para se determinar em qual(is) rede(s) o cliente possui conta e 4 variáves que<br />
indicam em qual(is) segmento(s) suas contas estão classificadas.<br />
Uma das características que são usadas pelo CM para se entender mais do negócio do<br />
cliente é o Ticket médio, que representa a média do valor de face dos títulos liquidados.<br />
Foi criada uma váriavel com essa informação e foi descartada a variável que representava o<br />
volume total de títulos liquidados, pois ela possui alta correlação com o número de títulos<br />
liquidados.<br />
41
Portanto, depois das exclusões, manipulações e criação de novas variáveis regressoras,<br />
a base possui as seguintes informações:<br />
1. Receita de tarifa de cobrança - mensal: valor total (em R$) gerado por tarifas<br />
do produto cobrança em determinado mês. Símbolo: Rec TarifaMes.<br />
2. Receita financeira - mensal: valor total (em R$) gerado pelo dinheiro proveniente<br />
de cobrança ”dormir”no banco. Símbolo: Rec DAVMes.<br />
3. Número de títulos liquidados - mensal: número de títulos que foram efeti-<br />
vamente pagos na rede bancária. Contempla todas as modalidades de cobrança.<br />
Símbolo: Num TitMes.<br />
4. Ticket médio - mensal: valor médio (em R$) dos títulos que foram efetivamente<br />
pagos na rede bancária. Contempla todas as modalidades de cobrança. Símbolo:<br />
Tick med Mes.<br />
5. Receita de tarifa de conta corrente - mensal: valor total (em R$) gerado por<br />
tarifas de conta corrente em determinado mês. Símbolo: CC Tarifa Mes.<br />
6. Receita financeira de conta corrente - mensal: valor total (em R$) gerado<br />
pelo dinheiro exceto de cobrança ”dormir”no banco. Símbolo: CC DAV Mes.<br />
7. Se cliente possui conta no Meridional: variável booleana que indica se cliente<br />
possui conta no Meridional. Símbolo: Bco008.<br />
8. Se cliente possui conta no Banespa: variável booleana que indica se cliente<br />
possui conta no Banespa. Símbolo: Bco033.<br />
9. Se cliente possui conta no Santander: variável booleana que indica se cliente<br />
possui conta no Santander. Símbolo: Bco353.<br />
10. Se cliente possui conta na Rede I: variável booleana que indica se cliente possui<br />
conta na Rede I. Símbolo: RedeI.<br />
11. Se cliente possui conta na Rede II: variável booleana que indica se cliente possui<br />
conta na Rede II. Símbolo: RedeII.<br />
12. Se cliente possui conta na Rede III: variável booleana que indica se cliente<br />
possui conta na Rede III. Símbolo: RedeIII.<br />
42
13. Se cliente possui conta na Rede IV: variável booleana que indica se cliente<br />
possui conta na Rede IV. Símbolo: RedeIV.<br />
14. Se cliente possui conta na Rede V: variável booleana que indica se cliente possui<br />
conta na Rede V. Símbolo: RedeV.<br />
15. Se cliente possui conta classificada como Pymes I: variável booleana que<br />
indica se cliente possui conta classificada como Pymes I. Símbolo: PymI.<br />
16. Se cliente possui conta classificada como Pymes II: variável booleana que<br />
indica se cliente possui conta classificada como Pymes II. Símbolo: PymII.<br />
17. Se cliente possui conta classificada como Empresas I: variável booleana que<br />
indica se cliente possui conta classificada como Empresas I. Símbolo: EmpI.<br />
18. Se cliente possui conta classificada como Empresas II: variável booleana que<br />
indica se cliente possui conta classificada como Empresas II. Símbolo: EmpII.<br />
19. Se é cliente do produto Pagamento a Fornecedores: variável booleana que<br />
indica se é cliente do produto Pagamento a Fornecedores. Símbolo: PagLine.<br />
20. Se é cliente do produto Folha de Pagamento: variável booleana que indica se<br />
é cliente do produto Folha de Pagamento. Símbolo: FolhaPag.<br />
Nesse ponto, a base possui 2.345.253 registros.<br />
De posse das variáveis regressoras citadas anteriormente, a base foi segmentada pelo<br />
potencial de títulos a serem liquidados em 3 estratos: Top, Medium e Low, seguindo a<br />
estratificação adotada pelo banco no projeto global do churn. Essa abordagem objetiva<br />
tentar se obter modelos que se adequem mais aos dados, do que fazer 1 modelo só que<br />
se adeque a todos os dados ao mesmo tempo. Intuitivamente, espera-se que ao se fazer<br />
3 modelos onde o parâmetro de agrupamento é o potencial de liquidação de títulos, o<br />
resultado seja melhor que se se fizesse apenas um modelo para toda a massa de dados.<br />
A Tabela 1 mostra a distribuição dos estratos por range de número de títulos liquida-<br />
dos e o número de clientes pertencentes a cada estrato. Os clientes com potencial igual<br />
ou menor que 20 títulos são os non-focus e não são abordados pela modelagem preditiva,<br />
por representarem pouco valor para o banco.<br />
O potencial de cada cliente é considerado como maior número de títulos liquidados<br />
em um mês.<br />
43
Estratificados os clientes, deve-se definir a variável dependente, ou target, que neste<br />
trabalho é o churn. Para o banco, um cliente é considerado churn não somente quando seu<br />
volume de títulos cai a zero. Na verdade isso dificilmente acontece, devido à capilaridade<br />
do banco no estado de São Paulo. Assim, é comum um cliente diminuir significativamente<br />
o volume de títulos emitidos, mas ainda emitir quantidade considerável dos títulos no<br />
Santander Banespa para atender a alguns de seus clientes. No entanto, se esse cliente<br />
que antes emitia um número n de títulos começa a emitir um número consideravelmente<br />
menor é forte indício que ele migrou para outro banco e também é considerado churn. É<br />
intenção do banco atuar de forma a fazê-lo emitir a quantidade anterior de boletos.<br />
Assim, faz sentido definir tolerâncias para a determinação do momento do churn.<br />
Neste trabalho, em comum acordo com a área de negócios do CM, escolheu-se que se o<br />
cliente durante 3 meses consecutivos emitisse um número menor que a média dos últimos<br />
3 meses, ele seria considerado churn. A idéia é identificar também aqueles clientes que<br />
tiveram queda expressiva no número de boletos. Serão feitos modelos nos quais as tole-<br />
râncias consideradas foram de 60%, 70% e 80%. Quanto maior o valor dessa tolerância<br />
menor é a queda no número de títulos liquidados para que o cliente seja identificado como<br />
churn, ou seja, mais sensível é o banco à perda do cliente.<br />
44
5 Modelagem<br />
Para cada estrato e para cada valor de tolerância considerados será obtido um modelo<br />
por regressão linear e um por regressão logística, o que totaliza 18 modelos. A base será<br />
dividida entre treinamento e validação. Os dados utilizados na validação não podem ter<br />
sido utilizados no treinamento [1].<br />
Ao todo, para o caso linear, dispõe-se para modelagem 32 regressores mais o Inter-<br />
cepto, que representa o valor onde a função cruza o eixo da variável dependente. Para<br />
a regressão logística, foram considerados também a interação entre os regressores, o que<br />
totalizou mais de 200 novos regressores.<br />
A fim de se determinar os que melhor explicam a relação Entradas-Saída, aplicou-se<br />
o método ERR, para se considerar na etapa de modelagem somente os regressores mais<br />
importantes, i.e., que mais reduzem o somatório dos quadrados dos resíduos. Depois dessa<br />
etapa e da redução significativa do número de regressores, mais regressores puderam ser<br />
descartados usando-se o teste de p-valor, recurso do SAS . Os regressores com p-valor<br />
significativos, i.e. menor que 0,15, foram mantidos e utilizados na etapa de modelagem.<br />
Após ser aplicado o ERR, restava um número razoável de regressores. Os dados foram<br />
inseridos no SAS e após as regressões, eram descartados os regressores com p-valor maior<br />
que 0,15. Isso era refeito até que todos os regressores tivessem p-valor inferior a 0,15.<br />
Para cada estrato e para cada cada tipo de regressão, considerar-se-á um conjunto<br />
possivelmente diferente de variáveis independentes.<br />
Depois de se determinarem os regressores para cada modelo, será feita a estimação<br />
de parâmetros dos regressores. Após essa etapa, serão determinados os ranges nos quais<br />
os clientes churn e não churn foram enquadrados. Essas faixas serão utilizadas depois na<br />
pontuação dos modelos obtidos nos dados de validação, ou seja, testar o quão sensível ao<br />
churn são os modelos e se os modelos obtidos qualificam com determinada precisão se o<br />
cliente é churn ou não churn.<br />
45
5.1 Amostras<br />
Para cada estrato do estudo, dividiram-se as bases em treinamento e validação. A<br />
base de treinamento é utilizada para se construir os modelos e a de validação é utilizada<br />
para apurar o percentual de acerto de cada modelo.<br />
Tabela 3: Divisão das bases em treinamento e validação.<br />
Estrato Número de clientes - Treinamento Número de clientes - Validação<br />
TOP 3132 699<br />
MEDIUM 2570 599<br />
LOW 3520 799<br />
A Tabela 3 mostra como foi dividida a base entre treinamento e validação. A divisão<br />
foi feita procurando-se manter a proporção de clientes churn/não churn da base original.<br />
Antes de se aplicar a Regressão Linear ou a Logística, para cada estrato foi aplicado o<br />
ERR e posteriormente o teste do p-valor, conforme descrito anteriormente neste capítulo.<br />
Para cada estrato e para cada valor de tolerância adotou-se um limiar de falsos churns-<br />
o banco atua sem haver a necessidade - e falsos não churn - o banco não atua havendo a<br />
necessidade.<br />
5.2 Regressão Linear<br />
5.2.1 Top<br />
Na regressão linear para o estrato Top foram selecionados 16 regressores.<br />
A tabela 4 lista os regressores bem como os seus valores. A fim de se determinar os<br />
limites acima dos quais os clientes são considerados churn, analisou-se a distribuição dos<br />
verdadeiros e falsos churns e não churns. Essa análise foi feita fazendo a pontuação da<br />
massa de treinamento.<br />
Com base na distribuição representada pela Figura 18, considera-se o valor 0,30 como o<br />
delimitador das regiões de churn e não churn, pois a partir desse valor de saída, existe uma<br />
razoável identificação dos churns ao passo que uma concomitante redução no número de<br />
não churns. Para valores de saída acima desse limite, obteve-se na massa de treinamento<br />
a identificação de 73,4% dos verdadeiros churns. No entanto, 40,67% dos clientes que<br />
não foram churn estavam nesse intervalo também. Considera-se esse valor aceitável, uma<br />
vez que como se trata de clientes Top, o custo de se perder um cliente desse segmento<br />
46
Tabela 4: Regressores e valores dos parâmetros - Regressão Linear - Top.<br />
Regressor selecionado Parâmetro-60% Parâmetro-70% Parâmetro-80%<br />
Intercepto 0,1113 0,15444 0,21524<br />
Rec Tarifa09 3,964 × 10 −5 5,188 × 10 −5 5,435 × 10 −5<br />
Num Tit09 2,5296 × 10 −4 3,5695 × 10 −4 4,8433 × 10 −4<br />
Tick med 09 5,68 × 10 −6 4,96 × 10 −6 5,12 × 10 −6<br />
Rec DAV10 3,3214 × 10 −4 2,5873 × 10 −4 3,2656 × 10 −4<br />
Tick med 10 −2,552 × 10 −5 −2,674 × 10 −5 −2,101 × 10 −5<br />
CC DAV 10 −9,03 × 10 −6 −1,097 × 10 −5 −1,661 × 10 −5<br />
Rec Tarifa11 −4,997 × 10 −5 −6,387 × 10 −5 −7,069 × 10 −5<br />
Rec DAV11 −3,3269 × 10 −4 −3,4031 × 10 −4 −3,7375 × 10 −4<br />
Num Tit11 −2,4951 × 10 −4 −3,6011 × 10 −4 −4,8374 × 10 −4<br />
Tick med 11 2,019 × 10 −5 1,865 × 10 −5 2,054 × 10 −5<br />
Bco353 0,02404 0,02278 0,03514<br />
PymI −0,02969 −0,02767 −0,02553<br />
EmpI 0,01499 0,03417 0,03891<br />
EmpII 0,05603 0,07820 0,07018<br />
FolhaPag −0,03019 −0,03763 −0,03106<br />
Figura 18: Histograma das freqüências das saídas por Regressão Linear - Top - 80%.<br />
demanda que se seja menos conservador. Observa-se no histograma que não existe um<br />
limite muito definido entre os churn e não churn. Por outro lado, observa-se que os valores<br />
mais prováveis (picos dos histogramas) estão deslocados entre si. Essa diferença indica<br />
que, em média, é possível diferenciar entre churn e não churn, mas essa distinção é de<br />
fato bem difícil, uma vez que os picos estão somente UM POUCO deslocados entre si.<br />
47
5.2.2 Medium<br />
Na regressão linear para o estrato Medium foram utilizados 13 regressores.<br />
Tabela 5: Regressores e valores dos parâmetros - Regressão Linear - Medium.<br />
Regressor selecionado Parâmetro-60% Parâmetro-70% Parâmetro-80%<br />
Intercepto 0,26068 0,32983 0,41049<br />
Rec Tarifa09 2,8819 × 10 −4 3,5683 × 10 −4 3,9176 × 10 −4<br />
Num Tit09 2,88 × 10 −3 4,34 × 10 −3 5,30 × 10 −3<br />
CC Tarifa 09 1,0907 × 10 −4 2,7916 × 10 −4 2,7432 × 10 −4<br />
Num Tit10 −1,38 × 10 −3 −1,38 × 10 −3 −5,2609 × 10 −4<br />
CC Tarifa 10 −9,423 × 10 −5 −2,3505 × 10 −4 −3,0355 × 10 −4<br />
Rec Tarifa11 −2,9711 × 10 −4 −3,99 × 10 −4 −4,1596 × 10 −4<br />
Num Tit11 −5,61 × 10 −3 −7,52 × 10 −3 −9,42 × 10 −3<br />
Bco353 0,04019 0,04119 0,03402<br />
RedeI 0,00999 0,02536 0,01806<br />
RedeV 0,04564 0,05652 0,04376<br />
PymII 0,04748 0,04349 0,05822<br />
EmpI 0,043 0,07132 0,05808<br />
A tabela 5 lista os regressores bem como os seus valores. A fim de se determinar os<br />
limites acima dos quais os clientes são considerados churn, analisou-se a distribuição dos<br />
verdadeiros e falsos churns e não churns. Essa análise foi feita fazendo a pontuação da<br />
massa de treinamento.<br />
Figura 19: Histograma das freqüências das saídas por Regressão Linear - Medium - 70%.<br />
48
Com base na distribuição representada pela Figura 19, considera-se o valor 0,30 como<br />
o delimitador das regiões de churn e não churn. Para valores de saída acima desse limite,<br />
obteve-se na massa de treinamento a identificação de 61,83% dos verdadeiros churns.<br />
No entanto, 10,61% dos clientes que não foram churn estavam nesse intervalo também.<br />
Considera-se esse valor aceitável, uma vez que como se trata de clientes Medium, o custo<br />
de se perder um cliente desse segmento possibilita que se seja mais conservador que no<br />
caso Top.<br />
5.2.3 Low<br />
Na regressão linear para o estrato Low foram utilizados 15 regressores.<br />
Tabela 6: Regressores e valores dos parâmetros - Regressão Linear - Low.<br />
Regressor selecionado Parâmetro-60% Parâmetro-70% Parâmetro-80%<br />
Intercepto 0,29067 0,33780 0,46056<br />
Rec Tarifa09 1,2463 × 10 −4 1,9306 × 10 −4 1,4918 × 10 −4<br />
Rec DAV09 1,35 × 10 −3 1,34 × 10 −3 6,9863 × 10 −4<br />
Num Tit09 4,72 × 10 −3 7,10 × 10 −3 1,154 × 10 −3<br />
Tick med 09 −1,005 × 10 −5 −5,97 × 10 −5 −2,55 × 10 −6<br />
CC Tarifa 09 1,6116 × 10 −4 1,4083 × 10 −4 1,8829 × 10 −4<br />
Rec Tarifa10 2,3180 × 10 −4 1,8166 × 10 −4 2,7462 × 10 −4<br />
Rec DAV10 −1,68 × 10 −3 −1,66 × 10 −3 −1,31 × 10 −3<br />
Rec Tarifa11 −3,2021 × 10 −4 −3,7441 × 10 −4 −5,3089 × 10 −4<br />
Num Tit11 −0,01449 −0,01807 −0,02280<br />
Tick med 11 1,025 × 10 −5 9,63 × 10 −5 1,023 × 10 −5<br />
Bco008 0,12444 0,13654 0,10252<br />
Bco033 0,04842 0,07482 0,05294<br />
Bco353 0,08513 0,10903 0,06957<br />
PymI −0,05622 −0,06071 −0,06526<br />
A tabela 6 lista os regressores bem como os seus valores. A fim de se determinar os<br />
limites acima dos quais os clientes são considerados churn, analisou-se a distribuição dos<br />
verdadeiros e falsos churns e não churns. Essa análise foi feita fazendo a pontuação da<br />
massa de treinamento.<br />
Com base na distribuição representada pela Figura 20, considera-se o valor 0,30 como<br />
o delimitador das regiões de churn e não churn. Para valores de saída acima desse limite,<br />
obteve-se na massa de treinamento a identificação de 56,97% dos verdadeiros churns.<br />
No entanto, 7,35% dos clientes que não foram churn estavam nesse intervalo também.<br />
Considera-se esse valor aceitável, uma vez que como se trata de clientes Low, o custo de<br />
se perder um cliente desse segmento possibilita que se seja bem mais conservador que nos<br />
49
Figura 20: Histograma das freqüências das saídas por Regressão Linear - Low - 60%.<br />
outros casos. Isso significa que o modelo nem precisa identificar todos os churns, desde<br />
que também não aponte muitos falsos churns, demandando assim atuação junto a clientes<br />
sem que haja necessidade.<br />
5.3 Regressão Logística<br />
5.3.1 Top<br />
Na regressão logística para o estrato Top foram utilizados 19 regressores.<br />
A tabela 7 lista os regressores bem como os seus valores. Similarmente ao modo como<br />
foi feito na regressão linear, analisou-se a distribuição dos verdadeiros e falsos churns e<br />
não churns. Essa análise foi feita fazendo a pontuação da massa de treinamento.<br />
Com base na distribuição representada pela Figura 21, considera-se o valor 0,20 como o<br />
delimitador das regiões de churn e não churn, pois a partir desse valor de saída, existe uma<br />
razoável identificação dos churns ao passo que uma concomitante redução no número de<br />
não churns. Para valores de saída acima desse limite, obteve-se na massa de treinamento<br />
a identificação de 70,03% dos verdadeiros churns. No entanto, 25,96% dos clientes que<br />
não foram churn estavam nesse intervalo também. Considera-se esse valor aceitável, uma<br />
50
Tabela 7: Regressores e valores dos parâmetros - Regressão Logística - Top.<br />
Regressor selecionado Parâmetro-60% Parâmetro-70% Parâmetro-80%<br />
Intercepto −0,8096 −0,8569 −0,7962<br />
Rec Tarifa09 0,00165 0,00142 9,67 × 10 −4<br />
Num Tit09 0,00994 0,00963 0,00951<br />
CC Tarifa 09 2,60 × 10 −4 6,52 × 10 −4 7,27 × 10 −4<br />
Num Tit10 0,00401 0,00789 0,00611<br />
Rec Tarifa11 −0,00134 −0,00128 −8,1 × 10 −4<br />
Num Tit11 −0,0269 −0,0253 −0,0201<br />
Tick med 11 1,51 × 10 −4 1,34 × 10 −4 2,23 × 10 −4<br />
RedeI 0,2634 0,2482 0,2042<br />
RedeIV 0,5415 0,4146 0,2610<br />
PymI −0,5672 −0,4549 −0,3038<br />
EmpI 0,3984 0,4917 0,3807<br />
EmpII 1,0523 1,0812 0,7200<br />
Rec Tarifa09 × CC DAV 09 −1,09 × 10 −7 −7,12 × 10 −7 −8,36 × 10 −7<br />
Rec Tarifa11 × Tick med 11 −1,07 × 10 −6 −9,54 × 10 −7 −5,74 × 10 −7<br />
Tick med 11 × Tick med 11 −5,57 × 10 −9 −5,35 × 10 −9 −9,63 × 10 −9<br />
Num Tit09 × Num Tit10 −5,95 × 10 −6 −5,33 × 10 −6 −4,1 × 10 −6<br />
Num Tit09 × Num Tit11 8,997 × 10 −6 7,181 × 10 −6 5,208 × 10 −6<br />
Num Tit09 × Num Tit10 × Num Tit11 −2,22 × 10 −10 −1,42 × 10 −10 −9,12 × 10 −13<br />
Figura 21: Histograma das freqüências das saídas por Regressão Logística - Top - 80%.<br />
vez que como se trata de clientes Top, o custo de se perder um cliente desse segmento<br />
demanda que se seja menos conservador. Observa-se no histograma que já existe um<br />
limite mais definido entre os churn e não churn do que nos resultados via regressão linear.<br />
51
Ao contrário do que aconteceu na regressão linear, não existem picos bem definidos e um<br />
pouco deslocados. Na regressão logística, as distribuições estão mais espalhadas, sendo<br />
que os não churn possuem menor espalhamento e valores mais próximos de zero. Os churn<br />
por sua vez possuem uma distribuição espalhada ao longo de toda a faixa de valores (0 a<br />
1).<br />
5.3.2 Medium<br />
Na regressão logística para o estrato Medium foram utilizados 16 regressores.<br />
Tabela 8: Regressores e valores dos parâmetros - Regressão Logística - Medium.<br />
Regressor selecionado Parâmetro-60% Parâmetro-70% Parâmetro-80%<br />
Intercepto 0,5005 0,4648 0,3953<br />
Rec Tarifa09 0,00116 0,00195 0,00224<br />
Num Tit09 0,0585 0,0689 0,0640<br />
CC Tarifa 09 0,00213 0,00348 0,00273<br />
Rec Tarifa10 −0,00178 −0,00190 −0,00231<br />
Num Tit10 −0,0293 −0,0282 −0,0181<br />
CC Tarifa 10 −0,00433 −0,00440 −0,00374<br />
Rec Tarifa11 −0,00651 −0,00574 −0,00363<br />
Num Tit11 −0,0935 −0,0786 −0,0646<br />
CC Tarifa 11 0,00507 0,00380 0,00201<br />
Rec Tarifa10 × Num Tit10 3,70 × 10 −5 2,80 × 10 −5 4,10 × 10 −5<br />
Rec Tarifa10 × CC Tarifa 10 8,515 × 10 −6 6,988 × 10 −6 6,424 × 10 −6<br />
CC Tarifa 11 × CC Tarifa 11 −5,99 × 10 −6 −5,80 × 10 −6 −3,52 × 10 −6<br />
Rec Tarifa09 × Rec Tarifa11 6,518 × 10 −6 4,778 × 10 −6 2,42 × 10 −6<br />
Num Tit09 × Num Tit11 −8,00 × 10 −4 −9,50 × 10 −4 −8,20 × 10 −4<br />
Num Tit09 × Num Tit10 × Num Tit11 1,00 × 10 −5 1,00 × 10 −5 6,888 × 10 −6<br />
A tabela 8 lista os regressores bem como os seus valores. A fim de se determinar os<br />
limites acima dos quais os clientes são considerados churn, analisou-se a distribuição dos<br />
verdadeiros e falsos churns e não churns. Essa análise foi feita fazendo a pontuação da<br />
massa de Treinamento.<br />
Com base na distribuição representada pela Figura 22, considera-se o valor 0,20 como<br />
o delimitador das regiões de churn e não churn. Para valores de saída acima desse limite,<br />
obteve-se na massa de treinamento a identificação de 73,28% dos verdadeiros churns.<br />
No entanto, 14,52% dos clientes que não foram churn estavam nesse intervalo também.<br />
Considera-se esse valor aceitável, uma vez que como se trata de clientes Medium, o custo<br />
de se perder um cliente desse segmento possibilita que se seja mais conservador que no<br />
caso Top.<br />
52
Figura 22: Histograma das freqüências das saídas por Regressão Logística - Medium -<br />
70%.<br />
5.3.3 Low<br />
Na regressão logística para o estrato Low foram utilizados 21 regressores.<br />
A tabela 9 lista os regressores bem como os seus valores. A fim de se determinar os<br />
limites acima dos quais os clientes são considerados churn, analisou-se a distribuição dos<br />
verdadeiros e falsos churns e não churns. Essa análise foi feita fazendo a pontuação da<br />
massa de treinamento.<br />
Com base na distribuição representada pela Figura 23, considera-se o valor 0,20 como<br />
o delimitador das regiões de churn e não churn. Para valores de saída acima desse limite,<br />
obteve-se na massa de treinamento a identificação de 73,56% dos verdadeiros churns.<br />
No entanto, 11,44% dos clientes que não foram churn estavam nesse intervalo também.<br />
Considera-se esse valor aceitável, uma vez que como se trata de clientes Low, o custo de<br />
se perder um cliente desse segmento possibilita que se seja bem mais conservador que nos<br />
outros casos. Isso significa que o modelo nem precisa identificar todos os churns, desde<br />
que também não aponte muitos falsos churns.<br />
53
Tabela 9: Regressores e valores dos parâmetros - Regressão Logística - Low.<br />
Regressor selecionado Parâmetro-60% Parâmetro-70% Parâmetro-80%<br />
Intercepto 0,00859 0,1642 0,4273<br />
Rec Tarifa09 0,00193 0,00294 0,00332<br />
Rec DAV09 0,0253 0,0212 0,0114<br />
Num Tit09 0,0851 0,0817 0,0932<br />
CC Tarifa 09 0,00160 0,00120 0,00136<br />
Num Tit10 −0,0301 −0,00276 −0,0112<br />
Rec Tarifa11 −0,00346 −0,00282 −0,00252<br />
Num Tit11 −0,2731 −0,2500 −0,2066<br />
Tick med 11 0,00346 6,30 × 10 −5 7,00 × 10 −5<br />
RedeI 0,2829 0,2226 0,0923<br />
RedeII 0,5185 0,2368 −0,0513<br />
RedeIV 0,3623 0,1722 −0,0685<br />
RedeV 0,5807 0,3068 0,0641<br />
EmpII −1,8038 −0,2572 −0,1380<br />
Rec Tarifa10 × Num Tit10 2,26 × 10 −4 1,32 × 10 −4 1,87 × 10 −4<br />
Rec Tarifa11 × Rec DAV11 −6,20 × 10 −4 −3,60 × 10 −4 −2,40 × 10 −4<br />
Rec Tarifa11 × Num Tit11 3,14 × 10 −4 2,71 × 10 −4 1,39 × 10 −4<br />
Rec DAV10 × Rec DAV10 2,29 × 10 −4 4,80 × 10 −5 6,10 × 10 −5<br />
Rec DAV11 × Rec DAV11 2,24 × 10 −4 1,04 × 10 −4 8,10 × 10 −5<br />
Rec Tarifa09 × Rec Tarifa11 −1,00 × 10 −5 −1,00 × 10 −5 −2,00 × 10 −5<br />
Rec DAV09 × Rec DAV10 × Rec DAV11 −3,46 × 10 −6 −6,15 × 10 −7 −8,30 × 10 −7<br />
Figura 23: Histograma das freqüências das saídas por Regressão Logística - Low - 60%.<br />
54
6 Resultados<br />
No capítulo anterior foram estimados os parâmetros dos modelos e definidos os ranges<br />
nos quais se identifica os verdadeiros churns, falsos churns, verdadeiros não churns e<br />
falsos não churns.<br />
É necessário se balancear esses quatro, conforme Figura 15, a fim de<br />
se maximizar para cada estrato a identificação ou não do evento. Para o estrato Top, o<br />
limite de falsos churns foi de 50%; para o Medium de 25% e para o Low, de 15%. Dessa<br />
forma, procura-se racionalizar os esforços de atuação nos clientes mais valiosos.<br />
Neste capítulo, compara-se o valor da pontuação obtida no capítulo anterior (treina-<br />
mento) com a obtida na massa de validação. As tabelas a seguir, uma para a regressão<br />
linear e uma para a logística, possuem para cada segmento e para cada valor de tolerân-<br />
cia para identificação do evento churn, o valor do limite de saída que separa os acertos<br />
(verdadeiro churn) dos erros (falso churn) e os percentuais de acerto no treinamento e<br />
validação, considerando-se aquele limite.<br />
Tabela 10: Comparação dos valores de verdadeiros e falsos churns da regressão linear<br />
nas bases de treinamento e validação. Os valores em negrito indicam casos onde houve<br />
diferença de mais de 10 pontos percentuais entre validação e treinamento.<br />
Linear Treinamento Validação<br />
Tol./Seg. Limite Verdadeiro churn Falso churn Verdadeiro churn Falso churn<br />
60% Top 0,10 72,83 36,55 66,67 31,65<br />
70% Top 0,15 63,79 26,60 50,55 22,53<br />
80% Top 0,30 73,40 40,67 6,35 1,92<br />
60% Medium 0,20 78,33 15,95 90,00 17,7<br />
70% Medium 0,30 61,83 10,61 69,51 11,99<br />
80% Medium 0,30 68,33 19,97 65,96 24,24<br />
60% Low 0,30 56,97 7,35 45,36 5,70<br />
70% Low 0,30 69,18 13,13 61,31 11,33<br />
80% Low 0,40 54,43 11,51 47,94 11,07<br />
Os valores marcados em negrito representam aqueles onde houve variação de mais de<br />
10 pontos percentuais da base de treinamento - onde se determinaram os limites - para a<br />
base de validação.<br />
55
Tabela 11: Comparação dos valores de verdadeiros e falsos churns da regressão logística<br />
nas bases de treinamento e validação. Os valores em negrito indicam casos onde houve<br />
diferença de mais de 10 pontos percentuais entre validação e treinamento.<br />
Logística Treinamento Validação<br />
Tol./Seg. Limite Verdadeiro churn Falso churn Verdadeiro churn Falso churn<br />
60% Top 0,10 81,52 22,06 80,30 18,99<br />
70% Top 0,20 64,53 11,41 56,04 10,53<br />
80% Top 0,20 70,03 25,96 68,25 24,61<br />
60% Medium 0,10 82,51 17,86 93,33 19,48<br />
70% Medium 0,20 73,28 14,52 78,05 18,18<br />
80% Medium 0,30 64,95 15,34 61,70 19,21<br />
60% Low 0,20 73,56 11,44 71,13 10,54<br />
70% Low 0,25 71,34 12,88 62,04 13,29<br />
80% Low 0,30 61,72 14,90 59,79 14,88<br />
Ao se comparar as tabelas 10 e 11, percebe-se que na maioria das vezes a razão<br />
Acerto/Erro é melhor - maior - para os resultados obtidos pela regressão logística. Isso<br />
significa, e pode ser confirmado nos histogramas, que a região de churn e não churn é<br />
mais separável para os resultados obtidos via regressão logística. Além disso, os resultados<br />
desse último método na maioria das vezes também apresenta maior percentual de acerto.<br />
Os percentuais de acerto da massa de treinamento são maiores que na massa de<br />
validação. Isso já era esperado, uma vez que os dados de validação não foram vistos<br />
na etapa de modelagem. No entanto, essa diferença, na maioria das vezes, não é muito<br />
grande. Vale destacar que em duas situações, o valor de acerto na massa de validação<br />
foi superior à na massa de treinamento. Porém, o valor dos erros também aumentaram,<br />
podendo indicar que o limite da massa de validação estava ajustado mais à esquerda nos<br />
histogramas. Ou seja, a relação acerto/erro da massa de treinamento continuou superior.<br />
56
7 Conclusões<br />
Neste PFC objetivou-se obter modelos que tentassem dar melhor insight sobre o churn<br />
de Cobrança do Banco Santander Banespa. Com base nos resultados, considera-se que a<br />
proposta inicial foi cumprida satisfatoriamente.<br />
A base de dados utilizada poderia ter sido complementada por várias outras infor-<br />
mações sobre os clientes, o que provavelmente melhoraria a qualidade dos modelos. No<br />
entanto, mesmo sem muitas informações foi possível fazer o DM, que consumiu cerca de<br />
60% do tempo dedicado ao projeto, a seleção dos regressores e a modelagem com consid-<br />
erável sucesso, uma vez que os percentuais de acerto dos modelos foi significativamente<br />
maior do que 50%, ou seja, maior que simplesmente se jogar cara ou coroa; existiu algum<br />
erro mas se o banco atuar junto aos clientes que, segundo o modelo, seriam churn mas<br />
não o são, não é tão grave quanto não se atuar em clientes que os modelos classificaram<br />
como não churn e são churn; esse trade-off depende do valor do cliente para o banco.<br />
Este deve escolher os limites que devem ser utilizados, baseados também no número de<br />
pessoas disponíveis para se atuar junto aos clientes, além do ROI de cada cliente.<br />
Existem variáveis que não podem ser medidas, tais como promoções da concorrência,<br />
pessimismo/otimismo dos empresários, dentre outros fatores que podem ser determinantes<br />
no churn de Cobrança. Portanto, elas não podem ser modeladas e a parcela de explicaçção<br />
do evento churn que lhes cabe não pôde contribuir para aumentar a qualidade dos modelos.<br />
Assim, considera-se que o presente trabalho contribuiu de forma a ajudar o banco<br />
a saber quais variáveis se deve analisar quando se quer prever a perda de clientes do<br />
produto Cobrança antes mesmo de eles apresentarem sinais claros de que deixariam o<br />
produto; além, disso os modelos obtidos apresentaram boa qualidade.<br />
Os modelos obtidos por regressão logística se mostraram se adequar melhor aos dados<br />
do que os modelos via regressão linear. Isso pode ser explicado porque na regressão<br />
logística foram incluídas interações entre as variáveis e a regressão logística em si é não-<br />
linear. Assim, os modelos via regressão logística devem ser preferidos aos obtidos via<br />
57
egressão linear. Na falta dos modelos logísticos, os modelos linear conseguem explicar o<br />
churn com razoável eficiência.<br />
O banco agora possui uma metodologia de modelagem preditiva do fenômeno churn<br />
e sabe quais variáveis deve observar e quais deve descartar.<br />
58
8 Desenvolvimentos Futuros<br />
A modelagem preditiva realizada poderia ter obtido maior percentual de acerto se<br />
houvesse disponibilidade de mais informações sobre os clientes. Assim, torna-se desejável<br />
que o banco perceba o potencial de retorno que a modelagem preditiva pode trazer à<br />
empresa e não apenas para a detecção do churn de Cobrança, mas também para o churn<br />
em outros produtos, inclusive aqueles que envolvem pessoa física, e assim permita o acesso<br />
a tais informações.<br />
Pode ser interessante também considerar se variáveis macro-econômicas, e.g. taxa de<br />
inflação, variação no preço do dólar, juros, etc, podem ser significativas na determinação<br />
do churn.<br />
A determinação dos limites de saída acima dos quais o banco deve atuar constitui-se<br />
um bom caminho de estudo a ser perseguido, pois a partir da modelagem preditiva e da<br />
estimação dos custos de perda de clientes e de custos de atuação, pode-se otimizar os<br />
esforços de atuação. Neste trabalho apenas estimou-se os limiares aceitáveis a partir do<br />
estrato de cada cliente. Se se fizer um estudo detalhado dos custos de perda e de atuação<br />
relativos aos clientes de cada estrato, os ranges podem ser definidos de forma a otimizar<br />
a aplicação de recursos dedicados à redução da perda de clientes de Cobrança.<br />
No presente projeto a modelagem foi feita via regressões. Uma linha de estudo que<br />
tem tido sucesso na explicação de eventos como o churn são as Redes Neurais Artificais<br />
e as várias ferramentas que nela estão inseridas [2].<br />
59
Referências<br />
[1] AGUIRRE, L.A. (2000). Introdução à identificação de sistemas: técnicas lineares e<br />
não-lineares aplicadas a sistemas reais (2 a Edição). Belo Horizonte: UFMG.<br />
[2] BERRY, J., and LINOFF, G. (2004). Data Mining Techniques: For Marketing,<br />
Sales, and Customer Relationship Management (2 nd edition). Indianapolis, IN: Wiley.<br />
[3] BILLINGS, S.A., CHEN, S., KORENBERG, M.J. (1989). Identification of mimo<br />
nonlinear systems using a forward-regression orthogonal estimator. Int. J. Control.<br />
[4] BUSSAB, W.O., MORETTIN, P.A. (2002). Estatística Básica (5 a Edição). São<br />
Paulo: Editora Saraiva.<br />
[5] Caio Canton. Superintendente de Cash Management. Comunicação Pessoal. Banco<br />
Santander Banespa. São Paulo. 2005.<br />
[6] BILLINGS, S.A., CHEN, S., KORENBERG, M.J. (1989). Identification of mimo<br />
nonlinear systems using a forward-regression orthogonal estimator. Int. J. Control.<br />
[7] EDELSTEIN, H. (2000) Building Profitable Customer Relationships with Data Mining.<br />
White Paper: SPSS Inc.<br />
[8] ELLIOTT, K., SCIONTI, R., PAGE, M. (2003) Two Rivers: The Confluence of<br />
Data Mining and Market Research for Smarter CRM. White Paper: SPSS Inc.<br />
[9] Engenharia de Controle e Automação-UFMG Disponível em<br />
. Acesso em 18 de novembro de 2005.<br />
[10] HOSMER, D.W.Jr. and LEMESHOW, S. (2000) Applied Logistic Regression (2 nd<br />
edition). New York: Wiley.<br />
[11] KAKINOHANA, R.K., SAKANAKA, P.A. e MOSCARDINI, T.B. (2005) e-<br />
BI: Uma Metodologia Para Gerenciamento de Projetos de Business Intelligence<br />
Disponível em . Acesso em 08<br />
de agosto de 2005.<br />
[12] KOTLER, P. (2000) Administração de marketing (10 a Edição) São Paulo: Prentice<br />
Hall.<br />
[13] OGLIARI, P.J. (2004) Regressão Logística Disponível em<br />
. Acesso em 10 de<br />
agosto de 2005.<br />
60
[14] OGLIARI, P.J. (2004) Regressão Linear Múltipla Disponível em<br />
. Acesso em<br />
10 de agosto de 2005.<br />
[15] Relatório Anual 2004 Disponível em . Acesso em<br />
12 de outubro de 2005.<br />
[16] Revista Conexão Santander Banespa (n o 48) Conexão. Publicação interna. Agosto<br />
de 2005.<br />
[17] UFMG 75 anos Disponível em . Acesso em 18 de<br />
novembro de 2005.<br />
[18] VERONA, M.M. (2005) Marketing Bancário Disponível em<br />
. Acesso em 12 de outubro de 2005.<br />
[19] YARED, G.F.G. (2001). Síntese do Movimento Facial Durante a Fala a partir da<br />
Atividade Neuromuscular. Dissertação de mestrado, PPGEE, Universidade Federal<br />
de Minas Gerais.<br />
61