19.06.2013 Views

Rafael Heringer.pdf - download

Rafael Heringer.pdf - download

Rafael Heringer.pdf - download

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Rafael</strong> Bastos <strong>Heringer</strong><br />

Redução do Churn de Cobrança via “Modelagem<br />

Preditiva”<br />

Belo Horizonte<br />

Novembro de 2005


<strong>Rafael</strong> Bastos <strong>Heringer</strong><br />

Redução do Churn de Cobrança via “Modelagem<br />

Preditiva”<br />

Monografia apresentada ao Colegiado<br />

do Curso de Engenharia de Controle<br />

e Automação da Universidade Federal<br />

de Minas Gerais como requisito parcial<br />

para obtenção do título de Bacharel em<br />

Engenharia de Controle e Automação.<br />

Orientador:<br />

Prof. Luis Antônio Aguirre<br />

Supervisor:<br />

Caio Canton<br />

Universidade Federal de Minas Gerais<br />

Escola de Engenharia<br />

Belo Horizonte<br />

Novembro de 2005


Monografia sob o título Redução do Churn de Cobrança via “Modelagem Preditiva”,<br />

defendida por <strong>Rafael</strong> Bastos <strong>Heringer</strong> e aprovada em 25 de Novembro de 2005, em Belo<br />

Horizonte, Estado de Minas Gerais, pela banca examinadora constituída por:<br />

Prof. Luis Antônio Aguirre - DELT-UFMG<br />

Orientador<br />

Caio Canton<br />

Banco Santander Banespa<br />

Banca Examinadora<br />

UFMG


Dedico esta monografia à minha família,<br />

em especial aos meus pais, por tudo o que fizeram para que este dia, que sela minha<br />

graduação, se tornasse<br />

realidade.


Agradecimentos<br />

A Jesus Cristo por ter me dado o dom da vida e saúde, além de ser minha principal<br />

razão de viver.<br />

À minha família por toda a força ao longo de todos esses 23 anos. Também pela<br />

confiança no meu potencial. A eles, que sempre dividiram os momentos mais felizes e<br />

outros nem tanto.<br />

Ao meu orientador Luis Aguirre, por dividir o conhecimento/sabedoria e ao mesmo<br />

tempo confiar na minha capacidade de dar resultados em curto espaço de tempo. Pelas<br />

direções certas ao longo do projeto.<br />

A meus amigos e colegas, com quem sempre tenho aprendido sobre todas as coisas.<br />

Ao meu supervisor Caio Canton pelo conhecimento compartilhado e também por<br />

confiar um projeto com essa importância a um - até então - leigo no assunto.<br />

E finalmente à Viação Cometa, que mais de 60 vezes ao longo do ano me levou e me<br />

trouxe em segurança de Belo Horizonte a São Paulo, onde foi feito este PFC.


“Se o Senhor não edificar a casa, em vão trabalham os que a edificam; se o Senhor não<br />

guardar a cidade, em vão vigia a sentinela. Inútil vos será levantar de madrugada, repousar<br />

tarde, comer o pão que penosamente granjeastes; aos seus amados ele o dá enquanto<br />

dormem.”<br />

Salmos 127:1,2.


Resumo<br />

A área de Cash Management de um banco cuida do fluxo de caixa das empresas:<br />

fornece soluções em pagamentos e recebimentos. A Cobrança é o produto mais importante,<br />

por estreitar o relacionamento com os clientes PJ (Pessoa Jurídica) e ser o maior<br />

gerador de receita. No Banco Santander Banespa foi apurado que havia uma alta taxa<br />

de Churn (perda de clientes) de Cobrança e sabe-se que é mais caro conquistar novos<br />

clientes do que manter os existentes. Foi desenvolvido um amplo projeto, considerando as<br />

diversas fases do ciclo de vida do cliente com o produto - Ativação, Modelagem Preditiva,<br />

Retenção e Reativação. A fase de Modelagem Preditiva visa, a partir de dados históricos<br />

com o comportamento de milhares de empresas, obter modelos que permitam saber os<br />

clientes propensos a deixar o banco no futuro, e assim poder atuar junto a eles de maneira<br />

preventiva, antes mesmo de iniciarem o movimento de queda de relacionamento com o<br />

produto. Para isso utilizam-se ferramentas de Data Mining (Mineração de Dados) - uma<br />

vez que existe uma grande massa de dados para análise - e regressões, a fim de se obter<br />

os modelos preditivos que direcionarão as ações de redução do Churn.


Abstract<br />

In a bank, Cash Management takes care of cash flow inside the companies: provides<br />

solutions in payments and receivings. Charge is the most important product, since it<br />

draws near the relationship with the PJ clients. At Banco Santander Banespa a high<br />

level of Churn (loss of clients) for the product Charge was perceived, and it is known<br />

that is more expensive to get new customers than to maintain the current ones. A large<br />

project was created considering all the life cicle of a client with the product - Activation,<br />

Predictive Modelling, Retention and Reactivation. Predictive Modelling aims, based on<br />

historical data containing the behavior of thousands of companies, to build models which<br />

allow to estimate which customers would leave the bank in the near future, and therefore<br />

could be used in a preventive manner, before they even begin the down movement on<br />

relationship with the product. For this goal, Data Mining tools have been used- since<br />

there is a huge database to analyse - and regressions, to obtain the predictive models that<br />

will focus Churn reduction actions.


Lista de Figuras<br />

Lista de Tabelas<br />

Lista de Siglas<br />

Sumário<br />

1 Introdução p. 10<br />

1.1 Engenharia de Controle e Automação - UFMG . . . . . . . . . . . . . . . p. 10<br />

1.2 Apresentação da Empresa . . . . . . . . . . . . . . . . . . . . . . . . . . p. 11<br />

1.2.1 História . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 11<br />

1.2.2 Valores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 12<br />

1.2.3 O maior entre as menores . . . . . . . . . . . . . . . . . . . . . . p. 13<br />

1.2.4 Cash Management . . . . . . . . . . . . . . . . . . . . . . . . . . p. 13<br />

1.3 Contextualização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 16<br />

1.4 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 17<br />

1.5 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 19<br />

1.6 Organização da Monografia . . . . . . . . . . . . . . . . . . . . . . . . . p. 20<br />

2 Fundamentação Teórica p. 21<br />

2.1 Gestão do Relacionamento com os Clientes . . . . . . . . . . . . . . . . . p. 21<br />

2.2 Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 24<br />

2.2.1 Aplicações de Data Mining . . . . . . . . . . . . . . . . . . . . . . p. 25<br />

2.3 Taxa de Redução de Erro . . . . . . . . . . . . . . . . . . . . . . . . . . p. 30


Sumário<br />

2.4 Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 31<br />

2.4.1 Regressão Linear Múltipla . . . . . . . . . . . . . . . . . . . . . . p. 32<br />

2.4.2 Regressão Logística Múltipla . . . . . . . . . . . . . . . . . . . . . p. 33<br />

3 Metodologia p. 35<br />

4 A Base de Dados p. 41<br />

4.1 Seleção de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 43<br />

4.2 Manipulação de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . p. 44<br />

5 Modelagem p. 49<br />

5.1 Amostras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 50<br />

5.2 Regressão Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 50<br />

5.2.1 Top . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 50<br />

5.2.2 Medium . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 52<br />

5.2.3 Low . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 53<br />

5.3 Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 55<br />

5.3.1 Top . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 55<br />

5.3.2 Medium . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 56<br />

5.3.3 Low . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 57<br />

6 Resultados p. 61<br />

7 Conclusões p. 63<br />

8 Desenvolvimentos Futuros p. 65<br />

Referências p. 66


Lista de Figuras<br />

1 Brasão da Universidade Federal de Minas Gerais. . . . . . . . . . . . . . p. 10<br />

2 Logotipo do Banco Santander Banespa. . . . . . . . . . . . . . . . . . . . p. 12<br />

3 Produtos do Cash Management Santander Banespa. . . . . . . . . . . . . p. 13<br />

4 Exemplo de título, ou boleto. . . . . . . . . . . . . . . . . . . . . . . . . p. 15<br />

5 Curva conceitual de relacionamento do cliente. . . . . . . . . . . . . . . . p. 18<br />

6 Diagrama de Paretto (Curva ABC). . . . . . . . . . . . . . . . . . . . . . p. 23<br />

7 Ambiente de Business Intelligence. Fonte: Kakinohana et al, 2005 . . . . p. 25<br />

8 Pirâmide de Business Intelligence. . . . . . . . . . . . . . . . . . . . . . . p. 26<br />

9 Metodologia de Data Mining. . . . . . . . . . . . . . . . . . . . . . . . . p. 27<br />

10 Tela do software SAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 28<br />

11 Transformação de uma ou mais linhas para cada cliente em uma só linha<br />

mas em diferentes colunas: Customer Signature. . . . . . . . . . . . . . . p. 29<br />

12 Regressão linear monovariável. . . . . . . . . . . . . . . . . . . . . . . . . p. 33<br />

13 Regressão logística monovariável. . . . . . . . . . . . . . . . . . . . . . . p. 33<br />

14 Momento da perda do cliente e período em que será feito o estudo. . . . . p. 37<br />

15 Relação entre custos de falsos churns e falsos não churns. . . . . . . . . . p. 39<br />

16 Redes em que o Brasil é dividido. . . . . . . . . . . . . . . . . . . . . . . p. 42<br />

17 Exemplo em que o número de títulos emitidos por um cliente na Agência<br />

0123 diminuiu mas o número emitido pelo CNPJ aumentou se somadas<br />

as duas agências. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 45<br />

18 Histograma das freqüências das saídas por Regressão Linear - Top - 80%. p. 51<br />

19 Histograma das freqüências das saídas por Regressão Linear - Medium -<br />

70%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 53


Lista de Figuras<br />

20 Histograma das freqüências das saídas por Regressão Linear - Low - 60%. p. 54<br />

21 Histograma das freqüências das saídas por Regressão Logística - Top -<br />

80%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 56<br />

22 Histograma das freqüências das saídas por Regressão Logística - Medium<br />

- 70%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 58<br />

23 Histograma das freqüências das saídas por Regressão Logística - Low -<br />

60%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 60


Lista de Tabelas<br />

1 Distribuição dos estratos por potencial de liquidação de títulos. . . . . . p. 36<br />

2 Segmentação das empresas por faturamento estimado. . . . . . . . . . . . p. 43<br />

3 Divisão das bases em treinamento e validação. . . . . . . . . . . . . . . . p. 50<br />

4 Regressores e valores dos parâmetros - Regressão Linear - Top. . . . . . . p. 51<br />

5 Regressores e valores dos parâmetros - Regressão Linear - Medium. . . . p. 52<br />

6 Regressores e valores dos parâmetros - Regressão Linear - Low. . . . . . . p. 54<br />

7 Regressores e valores dos parâmetros - Regressão Logística - Top. . . . . p. 55<br />

8 Regressores e valores dos parâmetros - Regressão Logística - Medium. . . p. 57<br />

9 Regressores e valores dos parâmetros - Regressão Logística - Low. . . . . p. 59<br />

10 Comparação dos valores de verdadeiros e falsos churns da regressão lin-<br />

ear nas bases de treinamento e validação. Os valores em negrito indicam<br />

casos onde houve diferença de mais de 10 pontos percentuais entre vali-<br />

dação e treinamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 61<br />

11 Comparação dos valores de verdadeiros e falsos churns da regressão logís-<br />

tica nas bases de treinamento e validação. Os valores em negrito indicam<br />

casos onde houve diferença de mais de 10 pontos percentuais entre vali-<br />

dação e treinamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 62


BACEN: Banco Central do Brasil;<br />

BD: Banco de Dados;<br />

BI: Business Intelligence;<br />

CM: Cash Management;<br />

Lista de Siglas<br />

CNAE: Código Nacional de Atividade Econômica;<br />

CNPJ: Cadastro Nacional de Pessoa Jurídica;<br />

CRM: Customer Relationship Management;<br />

DAV: Depósito A Vista;<br />

DM: Data Mining;<br />

MMQ: Método de Mínimos Quadrados;<br />

OLAP: On-Line Analytical Processing;<br />

PJ: Pessoa Jurídica;<br />

ROI: Return Over Investment;


1 Introdução<br />

1.1 Engenharia de Controle e Automação - UFMG<br />

Fundada em 1927, a Universidade Federal de Minas Gerais (UFMG) é uma das princi-<br />

pais instituições de ensino do país. A alta qualificação do seu corpo docente, a competência<br />

do pessoal técnico e administrativo, a qualidade de seus alunos e a diversidade dos campos<br />

em que atua contribuem decisivamente para a excelência do seu desempenho no ensino,<br />

na pesquisa e na extensão. Fazem parte da comunidade da UFMG mais de 35 mil alunos,<br />

mais de 2.400 professores (89,6% mestres ou doutores) e mais de 4.400 funcionários [17].<br />

Figura 1: Brasão da Universidade Federal de Minas Gerais.<br />

Um dos cursos criados recentemente na UFMG é o bacharelado em Engenharia de<br />

Controle e Automação. O Departamento de Engenharia Eletrônica (DELT), sede da área<br />

de conhecimento em Engenharia de Controle na UFMG, apresentou o projeto de cri-<br />

ação do Curso de Engenharia de Controle e Automação em fevereiro de 1996. O projeto<br />

foi discutido e aprovado nas diversas instâncias da Universidade (Câmaras Departamen-<br />

tais, Congregação da Escola de Engenharia, Câmara de Graduação, Conselho de Ensino,<br />

Pesquisa e Extensão) e, finalmente, em 12/06/97, o Curso foi aprovado pelo Conselho<br />

Universitário para iniciar suas atividades em 1998 [9].<br />

10


Esta é a sétima turma a se formar. Como parte integrante do currículo inclui-se o<br />

Projeto Final de Curso(PFC) que é realizado pelos alunos nos dois últimos semestres do<br />

curso. O objetivo é que os alunos apliquem o conhecimento aprendido ao longo dos 5 anos<br />

do curso sendo supervisionados por um professor de um dos departamentos integrantes<br />

do curso e por um supervisor na empresa onde o projeto está sendo implementado.<br />

Ao final, o aluno defende publicamente o seu projeto e apresenta uma monografia.<br />

1.2 Apresentação da Empresa<br />

1.2.1 História<br />

Em 1982, foi instalado o primeiro escritório de representação do Santander no Brasil e,<br />

nove anos depois, começaram as operações do Santander Investment. O processo de forte<br />

expansão dos negócios no Brasil foi iniciado em 1997, com a aquisição do Banco Geral do<br />

Comércio. Nos anos seguintes, foram mais três aquisições, que fizeram o Grupo ganhar<br />

posição entre os maiores players do setor. Em 1998, foi comprado o Banco Noroeste,<br />

em janeiro de 2000 foi anunciada a aquisição do Conglomerado Financeiro Meridional -<br />

formado pelos bancos Meridional e Bozano, Simonsen - e, em novembro do mesmo ano, o<br />

Santander comprou o controle do Banco do Estado de São Paulo, Banespa.<br />

Em 2001, foi formado o Banco Santander Banespa, após a reestruturação societária re-<br />

alizada no primeiro semestre do ano, envolvendo operações contábeis para a transferência<br />

das ações do Banespa, de propriedade do Banco Santander Central Hispano, para o Banco<br />

Santander S/A. O Grupo é formado pelas empresas financeiras Banco Santander Central<br />

Hispano, com sede em Madri, Banespa, Banco Santander Meridional, Banco Santander<br />

Brasil e Banco Santander S/A (antigo Banco Bozano, Simonsen).<br />

Figura 2: Logotipo do Banco Santander Banespa.<br />

Atualmente, o Banco Santander Banespa possui mais de 6,5 milhões de clientes, aten-<br />

didos por 21 mil profissionais e uma rede de 1.888 agências e postos de atendimento<br />

bancário(PABs), além de 7.334 caixas eletrônicos. Os ativos totais somaram R$69,6 bil-<br />

hões, o que lhe confere o quarto lugar no ranking do Banco Central, entre as instituições<br />

privadas. É um banco múltiplo, com presença ativa em operações diversificadas de varejo<br />

11


e atacado, com uma gama de negócios e produtos em diferentes segmentos de clientes -<br />

pessoas físicas (6,3 milhões de clientes), pequenas e médias empresas (180 mil clientes),<br />

corporações (8,8 mil clientes), governos e instituições (18 mil clientes) [15].<br />

1.2.2 Valores<br />

O Santander Banespa está apoiado em sólidos valores:<br />

• Foco no cliente<br />

• Compromisso<br />

• Equipe<br />

• Eficiência<br />

• Qualidade<br />

• Inovação<br />

• Transparência<br />

• Solidez<br />

• Comprometimento com as comunidades nas quais opera.<br />

1.2.3 O maior entre as menores<br />

Em 2005, o Santander Banespa definiu uma meta a ser cumprida em 3 anos: ser<br />

considerado como referência entre as empresas com faturamento anual até R$100 milhões:<br />

consideradas pequenas e médias empresas. A fim de cumprir esse objetivo, encomendou-se<br />

uma pesquisa de mercado, a fim de se fazer um amplo diagnóstico sobre as dimensões,<br />

características e necessidades desse mercado [16].<br />

É nesse contexto de busca de aumento de participação nesse mercado que se insere o<br />

presente projeto.<br />

1.2.4 Cash Management<br />

O Cash Management é o setor responsável pelo gerenciamento do fluxo de caixa<br />

das empresas através de soluções de recebimentos e pagamentos para otimizar o dia-a-<br />

12


dia financeiro/operacional das empresas. A figura 3 mostra os serviços e produtos que<br />

compõem as soluções do Cash Management Santander Banespa.<br />

Figura 3: Produtos do Cash Management Santander Banespa.<br />

Se o resultado do fluxo de caixa de uma empresa é positivo, ela investe o excedente.<br />

Se é negativo, ela deve cobrir esse déficit via operação de crédito ou será considerada<br />

inadimplente.<br />

• RECEBIMENTOS<br />

Cobrança ⇒ Serviço prestado aos correntistas, Pessoas Jurídicas ou Pessoas Físicas<br />

para recebimento de seus créditos futuros, oriundos de transações comerciais entre vende-<br />

dor e comprador. Os títulos (boletos - vide Figura 4 1 ) podem ser colocados em cobrança<br />

na forma física ou eletrônica. Existem duas modalidades: Cobrança com Registro, onde<br />

o banco registra cada título e cobra tanto pela emissão quanto pela liquidação; permite<br />

serviço como protesto automático. Cobrança sem Registro, onde o banco só conhece o<br />

título quando ele é liquidado. Só é cobrada tarifa se o título for liquidado.<br />

Recolhimento de Valores ⇒ É um serviço de recolhimento e transporte de valores,<br />

direcionado para empresas que tenham grandes volumes de numerários, cheques e tíquetes<br />

em seus pontos de venda. Por meio de empresa de segurança terceirizada, o Santander<br />

coleta, prepara, credita e informa a posição gerencial dos recursos com segurança e rapidez.<br />

1 dados fictícios<br />

13


Custódia de Cheques ⇒ Serviço oferecido a clientes Pessoa Jurídica do Banespa,<br />

que possibilita a guarda, controle e depósitos de cheques pré-datados, até a data do<br />

vencimento. Os cheques entregues pelo cliente são identificados e guardados com toda<br />

segurança até a data de seu respectivo depósito.<br />

Depósito Identificado ⇒ Permite aos clientes Banespa identificar a procedência dos<br />

depósitos que são efetuados em sua conta corrente. A identificação do depositante é feita<br />

através de um código de 06 algarismos, que é fornecida pelo cliente ao seu depositante.<br />

Este deve transcrever o código recebido no formulário de depósito utilizado pelo Banco.<br />

Débito Automático ⇒ Possibilita à empresa conveniada efetuar a cobrança de<br />

seus recebíveis através de lançamentos diretos na conta corrente, relativos a compromis-<br />

sos assumidos pelos clientes correntistas. A empresa contratante do serviço de débito<br />

automático, além de efetuar os seus recebimentos de modo seguro, proporciona ao seu<br />

cliente a comodidade de efetuar os pagamentos sem a necessidade de ir ao banco.<br />

Arrecadação/Código de Barras ⇒ Serviço destinado a recebimentos diversos (ex:<br />

impostos) no qual existe captura por meio de leitura ou digitação da respectiva represen-<br />

tação numérica, ou pela digitação dos campos do documento (não é necessário o envio do<br />

documento físico para a prestação de contas). Pelo código identificador o valor é creditado<br />

na conta do contratante.<br />

Figura 4: Exemplo de título, ou boleto.<br />

14


• PAGAMENTOS<br />

PagLine ⇒ Também chamado de Pagamento a Fornecedores, o PagLine é o serviço<br />

oferecido aos clientes PJ que têm condições de operacionalizar o seu contas a pagar de<br />

forma automatizada com o banco. O cliente gera e transmite ao banco um arquivo<br />

eletrônico contendo as informações sobre os pagamentos que deseja efetuar - para quem,<br />

de que forma, quando e quanto - ficando o banco responsável por cumprir as ordens do<br />

cliente: processar seus pagamentos e acatar instruções.<br />

Folha de Pagamento ⇒ É um serviço totalmente automatizado e seguro que visa<br />

facilitar a folha de pagamentos. A empresa envia os dados para a agência que debita da<br />

sua conta e credita nas contas dos funcionários. Os funcionários se tornam correntistas<br />

do banco e têm direito a pacotes de serviços em condições especiais.<br />

Tributos ⇒ Convênios firmados entre o banco e órgãos municipais, estaduais e fed-<br />

erais, que possibilita ao banco ser um agente arrecadador de diversos tributos e taxas. O<br />

banco repassa ao órgão os recursos mediante crédito em conta.<br />

Concessionárias ⇒ Produto onde a empresa conveniada pode otimizar o pagamento<br />

de suas obrigações junto a diversas concessionárias.<br />

visto pela óptica de quem está pagando.<br />

Confirming ⇒<br />

15<br />

É o similar do Débito Automático,<br />

É um produto de empréstimo que atua na cadeia produtiva dos<br />

clientes, proporcionando aos fornecedores desses a possibilidade de antecipar recursos<br />

referentes a venda de bens e prestação de serviços, sem a necessidade dos fornecedores<br />

possuírem linha de crédito no banco.<br />

1.3 Contextualização<br />

O produto Cobrança (boletos: desde planos de saúde a TV por assinatura) do San-<br />

tander Banespa é o maior gerador de receita e maior estreitador de relacionamento com<br />

os clientes PJ. Dentre as empresas que são clientes de Cash Management, cerca de 80%<br />

possuem Cobrança em seu portfólio de produtos. Por ter essa alta taxa de penetração


junto aos clientes, a Cobrança pode fomentar a implantação de outros produtos de CM<br />

nas empresas. E a expressividade da receita que o produto gera não é advindo somente<br />

do número de clientes, mas também pela variedade de receitas. As mais importantes são:<br />

• Registro de títulos: o banco cobra uma tarifa fixa por boleto enviado para cobrança.<br />

• Liquidação de títulos: essa tarifa só é cobrada quando o título é efetivamente pago<br />

na rede bancária conveniada.<br />

• Instruções (Baixa, Pedido Protesto, Sustação de Protesto, Abatimento, Desconto<br />

Financeiro, Alteração de Vencimento, Multas, Juros de Mora): para cada linha de<br />

instrução, existe tarifação.<br />

• Boletos sob medida: o banco personaliza o boleto com a logomarca do cliente, col-<br />

orido, com característica que conferem maior segurança, etc. O preço varia conforme<br />

a customização.<br />

• DAV: refere-se à receita que é apurada pelo banco decorrente do número de dias<br />

(float) que o banco fica com o dinheiro antes de repassar ao cedente.<br />

Para ilustrar o potencial de receita que é gerado de DAV, lista-se o seguinte exemplo:<br />

Cliente possui um faturamento de R$ 5,0 MM/mês - EMPRESAS II - e recebe<br />

metade desse valor via Cobrança.<br />

Consideramos que a taxa SELIC é de 19,50% ao ano, que o Depósito Compul-<br />

sório no BACEN é de 70% e que o banco negociou com esse cliente 3 dias de<br />

float, ou seja, depois que o título é pago na rede bancária conveniada, o banco<br />

só repassa o recurso 3 dias depois. O dinheiro dorme no banco 3 dias.<br />

Assim, a receita provida pelo DAV é:<br />

a(1 + b) d<br />

k = 750.000,00 x ((1 + 19,5%) 3<br />

252 − 1) = R$1.592,27 por mês.<br />

onde a é o valor livre de compulsório, b é a taxa SELIC, d é o número de dias<br />

de float e k é o número de dias úteis no ano.<br />

Assim, apenas com esse cliente fictício o banco lucraria em um mês mais de mil e<br />

quinhentos reais apenas de receita de DAV. Somando-se a isso a receita provida pelas<br />

tarifas, pode-se ver a importância que cada cliente tem para o banco, em termos de geração<br />

de receita.<br />

16


1.4 Motivação<br />

Entre janeiro de 2004 e janeiro de 2005, foi apurado que o índice de Churn de Cobrança<br />

chegou perto dos 50% [5]. A perda desses clientes implica grandes perdas financeiras para<br />

o banco, tanto de tarifas quanto de DAV. Segundo Kotler (2000), existe um tempo de<br />

“pagamento” do cliente, que é o período mínimo que o cliente deve permanecer comprando<br />

produtos para pagar o custo que a empresa teve de prospectá-lo. Esse custo inclui esforços<br />

de Marketing, visitas de especialistas e, no caso de Cobrança, instalação e treinamento<br />

para a utilização do Gerador de Arquivos, que é um software que gerencia a troca de<br />

informações entre a empresa e o banco. O objetivo do Santander Banespa, entretanto,<br />

não é apenas que o cliente se pague, mas que ele permaneça o maior tempo possível ativo<br />

em Cobrança e que, durante esse tempo, seu potencial seja explorado ao máximo.<br />

Com esse objetivo em foco, a área de CM criou um amplo projeto que abrange todas<br />

as fases do ciclo de relacionamento do cliente com o produto Cobrança, com ações nas<br />

fases de Prospecção, Ativação, Retenção e Reativação, além da Modelagem Preditiva, foco<br />

deste trabalho. A Figura 5 ilustra as fases em que as ações ocorrem.<br />

Figura 5: Curva conceitual de relacionamento do cliente.<br />

Para cada fase desse ciclo, o CM instituiu ações de forma a aumentar a base de clientes<br />

ao mesmo tempo que mitiga a perda deles. São elas:<br />

Prospecção - Manter e intensificar os esforços de conquista de novos clientes.<br />

Ativação - Contatos feitos pela Mesa de Negócios para estreitar o relacionamento, iden-<br />

tificar eventuais problemas e acompanhar de perto o cliente.<br />

17


Modelagem Preditiva - estudar o comportamento histórico dos clientes e a partir<br />

de modelos, tentar prever os clientes mais propensos a sair antes mesmo deles<br />

começarem a diminuir o relacionamento com o banco. Identificados os clientes<br />

propensos a sair o banco atua com a mesma metodologia da fase de Retenção.<br />

Retenção - Contato telefônico feito por especialistas, pela Mesa de Negócios, pelos Ge-<br />

rentes de Negócios das agências ou pelo Call Center, dependendo do valor do cliente<br />

para o produto. Possíveis ações de encantamento, como brindes, e mapeamento do<br />

porquê da diminuição do relacionamento do cliente com o banco. Especialistas têm<br />

alçada para negociar redução de tarifas. As outras frentes de ação terão um limite<br />

para desconto.<br />

Reativação - Pesquisa com clientes inativos para mapear motivos de perda, e nortear<br />

ações e melhoras nos produtos e no atendimento.<br />

As abordagens de Retenção e Reativação são reativas, ou seja, depois que o cliente<br />

deu sinais claros de deixar o produto, o CM procura os clientes e tenta reverter a perda.<br />

O esforço de Prospecção e Ativação já são feitos, ainda que neste projeto objetiva-se<br />

intensificar esses esforços.<br />

A novidade é a Modelagem Preditiva, através de que se pretende ter um insight<br />

antes de o cliente entrar nas fases de Retenção e Reativação e poder atuar antes, o que<br />

poderá com grandes chances diminuir o índice de churn e potencializar o ROI(Return<br />

Over Investment) de cada cliente dentro do produto Cobrança.<br />

1.5 Objetivos<br />

O objetivo deste trabalho é, a partir de modelos matemáticos, identificar a cada<br />

mês os clientes com maior propensão a abandonar o produto Cobrança. Serão utilizadas<br />

ferramentas de Data Mining (Mineração de Dados) [2, 7, 8] a fim de a partir de uma base<br />

histórica de comportamento de todos os clientes (ativos e inativos - 18 meses), construir<br />

modelos, via regressões, para a detecção prévia do momento de queda do relacionamento<br />

do cliente com o produto cobrança. Este trabalho se insere em um projeto maior de<br />

toda a área, que envolve esforços desde a prospecção de novos clientes até a tentativa de<br />

recuperação dos inativos. Os modelos serão obtidos via Regressão Linear [4] e Regressão<br />

Logística [10].<br />

18


Com essa modelagem preditiva, o banco poderá orientar os esforços de atuação nos<br />

clientes mais valiosos e que estiverem com maior risco, segundo os modelos, de abandonar<br />

o produto Cobrança.<br />

1.6 Organização da Monografia<br />

O conteúdo desta monografia está dividida em capítulos.<br />

O capítulo 1 trouxe uma breve introdução aos contextos onde o presente projeto foi<br />

realizado, bem como apresentou as instituições nele envolvidas.<br />

O capítulo 2 descreve os principais conceitos utilizados neste projeto, tais como Data<br />

Mining e Regressão, além de todo o ferramental matemático a ser utilizado. O capítulo 3<br />

traz a metodologia adotada ao longo da implementação do projeto. O capítulo 4 descreve<br />

a base de dados e os esforços de adequação da mesma para a etapa de Modelagem. O<br />

capítulo 5 expõe como a Modelagem foi feita e em quais amostras. O capítulo 6 mostrra<br />

os resultados obtidos para cada modelo. Finalmente, o capítulo 7 traz as conclusões<br />

depreendidas do projeto e no capítulo 8 são apresentadas sugestões para trabalhos futuros.<br />

19


2 Fundamentação Teórica<br />

2.1 Gestão do Relacionamento com os Clientes<br />

O CRM (do inglês Customer Relationship Management) é uma estratégia de gestão de<br />

negócios através do relacionamento com o cliente, para a realização de maior lucratividade<br />

e ganhos de vantagem competitiva, destacando para isso a participação da tecnologia como<br />

forma de automatizar os diversos processos de negócio, como vendas, marketing, serviços<br />

ao consumidor e suporte a campo. O CRM integra pessoas, processos e tecnologia para<br />

otimizar o gerenciamento de todos os relacionamentos, incluindo consumidores, parceiros<br />

de negócios e canais de distribuição.<br />

O processo de implementação de uma iniciativa de CRM pode ser pensada como uma<br />

série de quatro passos básicos: Identificar, Diferenciar, Interagir e Personalizar.<br />

1. Identificar os clientes: não é possível estabelecer uma relação com alguém que não<br />

se consegue identificar. Assim, torna-se crítico conhecer os clientes individualmente,<br />

com o maior número de detalhes possível e identificar, dentre todos, quais são os<br />

melhores e que podem dar a médio e longo prazo um bom retorno financeiro.<br />

2. Diferenciar os clientes: os clientes podem ser diferenciados de duas maneiras:<br />

pelo nível de valor para a empresa e pelas necessidades que têm de produtos e<br />

serviços da mesma. Assim, uma vez tendo identificado os clientes, o próximo passo<br />

é a diferenciação dos clientes de maneira a: (a) priorizar os esforços e aproveitar<br />

o máximo possível do potencial dos clientes de maior valor e (b) personalizar, na<br />

medida do possível, o comportamento da empresa, baseado nas necessidades indi-<br />

viduais dos clientes. Isso implica estabelecer algum tipo de critério de estratificação,<br />

modelo de lucratividade ou de diferenciação dos clientes.<br />

3. Interagir com os clientes: interagir com os clientes não implica somente bus-<br />

car a forma mais barata ou automatizada de interação, mas também a mais útil<br />

20


em termos de produção de informação, que possa ajudar a fortalecer as relações<br />

empresa-cliente. A etapa de interação está intimamente ligada à de diferenciação<br />

e à de personalização. Além de saber como as necessidades dos clientes mudam,<br />

é necessário um processo de utilização dos feedbacks de um cliente em particular<br />

para que seja possível compreender quais são as necessidades específicas daquele<br />

cliente.<br />

4. Personalizar alguns aspectos de uma empresa/produtos para melhor atender seus<br />

clientes. Isso não significa, entretanto, mudar toda a estrutura da empresa ou criar<br />

um novo produto a partir da necessidade de cada cliente, mas tentar adequar os<br />

fatores pertinentes de forma a atender os melhores clientes de maneira mais satis-<br />

fatória e que impulsione a interação com esses.<br />

Em setores nos quais existe baixa diferenciação de oferta de produtos e alta competi-<br />

tividade, conhecer os clientes e seus comportamentos são condições necessárias para uma<br />

empresa se manter viva no mercado. O setor bancário é um desses, onde os produtos são<br />

muito parecidos e existe um freqüente ”aliciamento” de clientes por outros bancos [18].<br />

Assim, a competição não se limita na aquisição de novos clientes, mas também, e até mais<br />

importante, na manutenção dos clientes atuais, uma vez que adquirir novos clientes pode<br />

ser até 6 vezes mais caro que manter os atuais [12, 7].<br />

Portanto, uma das tendências do marketing tem sido a crescente ênfase em desenvolver<br />

o relacionamento e fidelizar os clientes, para que estes dêem sustentabilidade à empresa.<br />

Assim, torna-se necessário o desenvolvimento de estratégias e formas de se manter os<br />

clientes já conquistados.<br />

É reconhecido pelas empresas que todos os clientes são importantes, porém alguns<br />

são mais importantes que outros. Essa questão foi estudada primeiramente por Vilfredo<br />

Paretto, um renascentista italiano do século XIX, que em 1897 executou um estudo sobre a<br />

distribuição de renda. Através desse estudo, percebeu-se que a distribuição de riqueza não<br />

se dava de maneira uniforme, havendo grande concentração de riqueza (∼ 80%) nas mãos<br />

de uma pequena parcela da população (∼ 20%) [12]. O raciocínio de Paretto, batizado de<br />

Curva ABC ou Curva 80-20, tem sido estendido a outras áreas e atividades tais como a<br />

industrial e a comercial, sendo mais amplamente aplicado a partir da segunda metade do<br />

século XX. No âmbito de marketing, a análise de Paretto é enquadrada na medida em que<br />

perto de 80% do lucro de uma empresa é proveniente de aproximadamente 20% de seus<br />

clientes, que são considerados portanto os mais valiosos, ou mais rentáveis (Figura 6).<br />

21


Figura 6: Diagrama de Paretto (Curva ABC).<br />

Dedicar maior atenção a esses clientes mais valiosos é uma boa estratégia para se<br />

garantir a lucratividade do banco em relação ao cliente no longo prazo e evitar que um<br />

bom cliente migre para um banco concorrente. E quando se perde um cliente, não se perde<br />

apenas o investimento que foi feito na aquisição dele, mas também toda a lucratividade que<br />

ele poderia proporcionar no futuro. Dependendo do produto/serviço vendido, o tempo de<br />

permanência do cliente pode nem ter sido suficiente para pagar o investimento inicial [12].<br />

Ou seja, um cliente infiel pode trazer ao invés de pouco lucro, muito prejuízo.<br />

Para a prestação de serviços bancários, existem algumas características e fatores<br />

estratégicos de sucesso, tais como: especialização técnica, velocidade de solução e in-<br />

formação, preços competitivos, administração de relacionamentos com clientes e outros<br />

parceiros significativos. Ao conhecer os clientes, o banco pode mapear onde o seu pro-<br />

duto/serviço está deficiente, e pode concentrar esforços nos itens que mais impactem na<br />

fidelização de seus clientes.<br />

Assim, o CRM é fundamental na medida em que insere inteligência no relacionamento<br />

com o cliente e através disso permite a utilização do conhecimento gerado para racionalizar<br />

as ações de marketing a fim de explorar todo o potencial de cada cliente, principalmente<br />

dos melhores clientes: os mais rentáveis.<br />

22


2.2 Data Mining<br />

A partir da década de 80, a intensificação da informatização nas empresas possibilitou<br />

grandes saltos operacionais nos negócios. Isso implicou grande aumento no volume de<br />

dados circulando e sendo armazenados. Juntamente com o crescimento desses volumes,<br />

cresceu a dificuldade de se retirar informações úteis dessa enorme gama de dados.<br />

O conceito de Business Intelligence (BI) - Figuras 7 e 8- surgiu para tentar resolver<br />

esse problema e consiste em uma vasta categoria de tecnologias e programas aplicativos<br />

utilizados para extrair, armazenar, analisar e transformar grandes volumes de dados,<br />

produzindo um ambiente de conhecimento, onde há produção sistemática de informação<br />

gerencial, veloz e consistente, capaz de auxiliar as empresas a tomarem as melhores de-<br />

cisões nos negócios. Isso baseado em fatos reais, com profundidade suficiente para desco-<br />

brir as causas de uma tendência ou de um problema, ou tomar decisões que a coloquem<br />

à frente dos concorrentes [11].<br />

Figura 7: Ambiente de Business Intelligence. Fonte: Kakinohana et al, 2005<br />

Duas das soluções que compõem o BI são o OLAP (On-Line Analytical Processing),<br />

que consiste basicamente em geração de relatórios, e o Data Mining.<br />

“Data Mining é a exploração e análise de grandes quantidades de dados a fim de se<br />

descobrir padrões e regras significantes” [2].<br />

A idéia central do DM para CRM é que os dados do passado contém informações<br />

que serão úteis no futuro. Isso se torna verdade na medida em que o comportamento dos<br />

consumidores presente nos dados corporativos não são puramente aleatórios, mas refletem<br />

diferentes necessidades, preferências e propensões. A tarefa de encontrar essas informações<br />

é dificultada porque os padrões nem sempre são fortes, e os muitos sinais coletados são, na<br />

maioria das vezes, ruidosos e confusos. Separar o sinal do ruído - reconhecer os padrões<br />

fundamentais escondidos nas variações randômicas - é um importante desafio do DM [2, 8].<br />

23


Figura 8: Pirâmide de Business Intelligence.<br />

Para ser efetivo, o Data Mining deve ser executado em um contexto que permita à<br />

organização atuar a partir das informações que o DM lhe fornece.<br />

As possibilidades da tarefa de Data mining, e.g. percentual de acerto, etc, dependem<br />

em muito da natureza dos dados disponíveis e não apenas da quantidade.<br />

24<br />

É tarefa do<br />

Data Miner manipular os dados de forma que atendam às necessidades de implementação.<br />

Data mining está muito relacionado com a elaboração de modelos. Um modelo é<br />

simplesmente um algoritmo ou um conjunto de regras que define a relação entre a(s) en-<br />

trada(s) e saída(s). Algumas técnicas utilizadas na construção de modelos são: Regressões,<br />

Redes Neurais, Árvores de Decisão.<br />

2.2.1 Aplicações de Data Mining<br />

⊲ Classificação: Consiste em se examinar as características de um objeto novo que<br />

é apresentado e enquadrá-lo em uma das classes pré-definidas.<br />

⊲ Estimação: Ao passo que Classificação lida com saídas discretas, Sim ou Não,


Figura 9: Metodologia de Data Mining.<br />

25


Quadrado, Redondo ou Retangular, Estimação lida com saídas contínuas.<br />

⊲ Predição: Consiste em se prever um comportamento futuro com base em dados<br />

históricos e/ou classificatórios. Exemplo: prever o gastos com cartão de crédito no próx-<br />

imo mês com base em dados históricos passados e cadastrais dos clientes.<br />

⊲ Agrupamento por afinidade: Consiste em se gerar regras a partir dos dados.<br />

São as “Regras de Associação” Exemplo: pessoas que compram comida de gato também<br />

compram leite com probabilidade P1.<br />

⊲ Clustering: Similar a Classificação, mas não existem número de classes nem as<br />

classes pré-definidas.<br />

⊲ Descrição: Busca descrever o comportamento de consumidores/produtos. Exem-<br />

plo: Mais homens preferem hamburgers do que mulheres na razão de 1.2:1.<br />

O presente projeto se enquadra em duas das tarefas citadas anteriormente: (1) Clas-<br />

sificação: uma vez que se quer classificar os clientes entre churn e não churn;(2) Predição:<br />

uma vez que se quer predizer se o cliente será churn ou não churn com base em dados<br />

históricos e cadastrais dos mesmos.<br />

Figura 10: Tela do software SAS.<br />

Existem alguns softwares que podem ser utilizados para se pôr em prática as ferra-<br />

26


mentas de Data Mining e descobrir informações importantes em grandes massas de dados.<br />

Alguns dos softwares mais utilizados são o SAS (Figura 10), o SPSS e o Microsoft <br />

Access.<br />

A Figura 9 mostra a metodologia completa de DM. Ela é uma norteadora quando o<br />

problema envolve DM.<br />

Em um típico problema de Data Mining, cerca de 60% do tempo é gasto nos passos 1<br />

a 6 da Figura 9, pois deve-se garantir com a maior certeza possível a qualidade dos dados<br />

que serão utilizados na obtenção dos modelos.<br />

“Just as the most powerful engines cannot use crude oil as a fuel, the most power-<br />

ful algorithms (the engines of data mining) are unlikely to find interesting patterns in<br />

unprepared data”. 1 [2].<br />

Figura 11: Transformação de uma ou mais linhas para cada cliente em uma só linha mas<br />

em diferentes colunas: Customer Signature.<br />

Após se garantir a qualidade dos dados, é necessário colocá-los no formato adequado<br />

para modelagem. A transição mostrada na Figura 11 ilustra esse procedimento. Depois<br />

desse processo, em cada linha estarão todas as informações relativas a cada CNPJ. Esse<br />

formato é chamado de Customer Signature [2].<br />

1 Assim como os mais potentes motores não podem utilizar petróleo crú como combustível, os algoritmos<br />

mais poderosos (os motores do Data Mining) dificilmente encontrarão padrões interessantes em<br />

dados despreparados<br />

27


2.3 Taxa de Redução de Erro<br />

O critério da taxa de redução de erro (ERR - do inglês Error Reduction Ratio) [3,<br />

1, 19] pode ser usado na determinação de um número de regressores de um modelo. Ele<br />

estabelece uma medida de importância para cada regressor, pois quantifica a redução no<br />

erro da saída do modelo devido à introdução de cada regressor. Assim, dentre um conjunto<br />

possivelmente grande de regressores candidatos, inclui-se os regressores com maior ERR.<br />

Define-se o seguinte modelo genérico:<br />

y(k) = ψ T (k − 1) ˆ θ + ξ(k) =<br />

nθ <br />

i=1<br />

28<br />

ˆθiψi(k − 1) + ξ(k), (2.1)<br />

sendo que são considerados os regressores até o instante (k − 1), e define-se o modelo<br />

auxiliar<br />

nθ <br />

y(k) = ˆgiωi(k − 1) + ξ(k), (2.2)<br />

i=1<br />

em que os regressores ωi são ortogonais entre si ao longo da massa de dados, ou seja,<br />

sendo que i,j = 1...nθ.<br />

w T i wj =<br />

N<br />

ωi(k)ωj(k) = 0, ∀i = j, (2.3)<br />

A soma dos valores quadráticos de y(k) é 〈y,y〉 ou y T y. Assim,<br />

y(k) 2 =<br />

nθ<br />

k=1<br />

<br />

ˆgiωi(k − 1) + ξ(k)<br />

i=1<br />

nθ<br />

<br />

<br />

ˆgiωi(k − 1) + ξ(k) . (2.4)<br />

Assumindo-se que o sistema seja ergódico, considera-se a média de 2.4 que resulta em<br />

y T nθ <br />

y =<br />

i=1<br />

ˆg 2 i ω 2 nθ nθ <br />

i +<br />

i=1<br />

<br />

j=1<br />

ˆgiˆgjω 2 nθ <br />

i + 2<br />

i=1<br />

i=1<br />

ˆgiωiξ + ξ T nθ <br />

ξ = ˆg 2 i ω 2 i + ξ T ξ. (2.5)<br />

A equação 2.5 mostra que o somatório dos quadrados de y(k) (valor quadrático médio)<br />

pode ser definido como a soma dos valores quadráticos de cada regressor multiplicado pelos<br />

respectivos parâmetros e dos valores quadráticos do vetor de resíduos, que corresponde à<br />

parte não explicada pelos regressores considerados. Assim, quantifica-se a importância de<br />

i=1


cada regressor considerado no modelo [19].<br />

Por conseguinte, é definido a taxa de redução de erro do i-ésimo regressor como<br />

2.4 Regressão<br />

29<br />

[ERR]i = ˆg2 i w2 i<br />

yT . (2.6)<br />

y<br />

Regressão é uma técnica estatística que permite derivar modelos matemáticos que<br />

explicam a variação de uma variável dependente em função de outras independentes. O<br />

software SAS utiliza o MMQ - Método de Mínimos Quadrados - que consiste em se<br />

encontrar os parâmetros dos regressores que minimizem o somatório do quadrado dos<br />

resíduos [1].<br />

Considerando-se que se conhece o valor estimado do vetor de parâmetros, ˆ θ, e que é<br />

cometido um erro ξ ao se tentar explicar o valor observado y a partir do vetor de regresores<br />

x e de ˆ θ, ou seja,<br />

y = x Tˆ θ + ξ. (2.7)<br />

Tomando-se N > nθ aplicações da equação 2.7, a representação matricial torna-se<br />

y = X ˆ θ + ξ, (2.8)<br />

em que ξ∈ R N×1 é o vetor de erros cometidos ao se tentar explicar y ∈ R N×1 como X ˆ θ.<br />

É razoável que uma resposta mais precisa ocorre onde ξ é reduzido em algum sentido.<br />

Assim, define-se o somatório do quadrado dos resíduos, que é a função que pretende-se<br />

minimizar:<br />

JMQ =<br />

N<br />

ξ(i) 2 = ξ T ξ = ξ 2 , (2.9)<br />

i=1<br />

que é um índice que quantifica a qualidade de ajuste de X ˆ θ ao vetor de observações y.<br />

A fim de minimizar a função custo JMQ com relação a ˆ θ, é necessário que (∂JMQ/∂ ˆ θ =<br />

0). Com essa restrição e substituindo ξ de 2.8 em 2.9, tem-se que:


ou seja,<br />

∂JMQ<br />

∂ ˆ θ = −2XT y + 2X T X ˆ θ = 0, (2.10)<br />

ˆθ = [X T X] −1 X T y. (2.11)<br />

Para que ˆ θ seja mínimo, (∂ 2 JMQ/∂ ˆ θ 2 = 2X T X > 0). Como 2X T X > 0 é posi-<br />

tiva definida por construção, a equação 2.11 é o estimador que minimiza o somatório do<br />

quadrado dos erros. Em suma,<br />

ˆθMQ = arg θminJMQ = [X T X] −1 X T y. (2.12)<br />

A equação 2.12 é o estimador de Mínimos Quadrados clássico.<br />

2.4.1 Regressão Linear Múltipla<br />

A regressão linear consiste em se obter um modelo linear nos parâmetros. Um modelo<br />

de regressão linear múltipla é um modelo onde o número de variáveis preditoras, ou<br />

regressores, é maior que um [4, 14]. Tem-se que<br />

Yi = β0,i + β1x1,i + ... + βnθ−1xnθ−1,i + εi, i = 1 . . . N (2.13)<br />

em que Yi = {1 ou 0}, para o caso em que a resposta é binária.<br />

A resposta esperada é dada por:<br />

πi = E(Yi) = β0,i + β1x1,i + ... + βnθ−1xnθ−1,i, i = 1 . . . N (2.14)<br />

em que E é o operador de esperança matemática.<br />

A Figura 12 ilustra uma regressão linear em que há somente uma variável regressora. A<br />

idéia pode ser estendida ao caso com mais de um regressor, em que é gerada uma superfície<br />

nθ + 1-dimensional, onde nθ é o número de regressores. A idéia central é mantida, em<br />

que se deseja encontrar uma superfície tal que o somatório do quadrado dos erros seja<br />

minimizado via Mínimos Quadrados.<br />

30


Figura 12: Regressão linear monovariável.<br />

2.4.2 Regressão Logística Múltipla<br />

A Figura 13 ilustra uma regressão logística onde existe somente uma variável regres-<br />

sora. Similarmente ao caso linear, a idéia pode ser estendida à situação em que o número<br />

de regressores é maior que 1, em que é gerada uma superfície n + 1-dimensional, onde<br />

n é o número de regressores. A resposta de uma função logística sempre varia entre 0 e<br />

1 [10, 13].<br />

Figura 13: Regressão logística monovariável.<br />

Para o caso com mais de um regressor:<br />

E(Yi) = e(β0,i+β1x1,i+...+βnθ−1xnθ −1,i)<br />

1 + e (β0+β1x1,i+...+βn<br />

, i = 1 . . . N. (2.15)<br />

θ−1xnθ −1,i)<br />

31


3 Metodologia<br />

A partir da base de dados inicial, serão descritas todas as informações que foram<br />

disponibilizadas, bem como a faixa de valores que cada uma pode assumir. Conhecer bem<br />

os dados é um passo importante no processo de Data Mining para posterior modelagem<br />

preditiva, que consiste em se obter modelos matemáticos que determinem a probabilidade<br />

de um evento acontecer. No caso desta monografia, o evento (variável dependente) será a<br />

perda de um cliente para o produto Cobrança.<br />

Pode haver inconsistências na base de dados que será utilizada. Elas devem ser identi-<br />

ficadas e eliminadas, ou a qualidade dos modelos pode ser prejudicada. Serão feitas várias<br />

queries em toda a base para identificação de possíveis valores que sejam inconsistentes<br />

com a descrição da base.<br />

Garantida a integridade da base, far-se-á manipulações a fim de se criar novas variáveis<br />

que exprimam relações úteis entre as variáveis já existentes. Um exemplo é o ticket médio,<br />

que é o volume dos títulos liquidados em um determinado mês dividido pelo número de<br />

títulos liquidados no mesmo mês:<br />

tm = VL<br />

NL ,<br />

em que tm é o ticket médio, VL é o volume de títulos liquidados em R$ e NL é o número<br />

de títulos liquidados.<br />

Durante todos esses passos acima, ganha-se intimidade com as informações de que se<br />

dispõe. Resolvidos os problemas dos dados, eles devem ser colocados no formato adequado<br />

para modelagem, o formato Customer Signature (Figura 11), em que cada linha contém<br />

todas as informações relativas a cada CNPJ, conforme descrito no capítulo anterior.<br />

Uma análise será feita nessa base a fim de se identificar as variáveis que não são signi-<br />

ficativas, i.e, que são encontradas na base com muito pouca freqüência. Um exemplo é a<br />

variável Agência, que é uma variável quase única, uma vez que existem muitas agências, o<br />

32


que implica poucos clientes por agência. Se a presença/ausência de uma agência for con-<br />

siderada como uma variável preditora, isso gerará mais de 1000 variáveis independentes.<br />

Assim, percebe-se que Agência deve ser descartada.<br />

A base total será então dividida em três estratos. O objetivo dessa abordagem é tentar<br />

estudar de forma mais profunda a base. Se se modelar a base inteira, intuitivamente,<br />

torna-se mais difícil obter um modelo que seja razoável para todos os estratos.<br />

Tabela 1: Distribuição dos estratos por potencial de liquidação de títulos.<br />

Estrato Número de títulos por mês (potencial) Número de clientes<br />

TOP mais que 110 3831<br />

MEDIUM de 51 a 110 3169<br />

LOW de 21 a 50 4319<br />

A divisão desses estratos segue o projeto global do churn, onde o primeiro estrato é<br />

formado pelos clientes que têm o potencial de liquidação de títulos superior a 110 por mês.<br />

Este estrato têm 3831 clientes. O segundo estrato abrange os clientes com potencial de 51<br />

a 110 títulos liquidados por mês e possui 3169 clientes . O terceiro estrato, por sua vez, é<br />

formado pelos clientes cujo potencial é de 21 a 50 títulos por mês, onde há 4319 clientes.<br />

Os clientes cujos potenciais é menor que 20 títulos não serão estudados pois representam<br />

pouco valor para o banco; são os non-focus. Vide Tabela 1.<br />

Para cada estrato, determinar-se-á o momento do churn. Isso será feito ao se calcular<br />

um limite inferior para cada cliente baseado no potencial exibido até então pelo cliente.<br />

Se o cliente emitir durante três meses consecutivos um número inferior a essa limite, ele<br />

será classificado como churn. O objetivo é ser mais restritivo com os clientes de maior<br />

valor e menos restritivos com os de menor valor, o que implica os valores de limite inferior<br />

serem proporcionalmente maiores para os clientes que emitem mais de 111 títulos por mês.<br />

São considerados três limites para cada estrato, em que as tolerências de emissão durante<br />

3 meses consecutivos seja 60%, 70% e 80% inferior à média dos últimos 3 meses. Isso<br />

representa a sensibilidade do banco para considerar as perdas dos clientes. Por justificativa<br />

de negócio, deseja-se ser mais sensível à perda dos clientes Top e menos sensível à perda<br />

dos Low.<br />

Ao se conhecer o momento da perda do cliente, o comportamento deste nos 3 meses<br />

anteriores será estudado. A esperança é validar se a informação que o cliente iria deixar<br />

o produto estava nesse período, e quais variáveis independentes (regressores) continham<br />

essa informação. A Figura 14 ilustra essa idéia.<br />

Como existem muitos regressores, será aplicado o critério da taxa de redução de erro<br />

33


Figura 14: Momento da perda do cliente e período em que será feito o estudo.<br />

(ERR) no software Matlab 6.0, para tentar se determinar quais regressores melhor expli-<br />

cam a saída. Depois dessa etapa e da redução significativa do número de regressores(para<br />

ambos os modelos lineares e logísticos), mais regressores podem ser descartados através<br />

do teste de p-valor, recurso do SAS . Os regressores com p-valor significativos, i.e. menor<br />

que 0.15, serão mantidos e usados na modelagem.<br />

Uma vez que se têm as variáveis de estudo e as massas de dados por estrato, é<br />

necessário dividi-las em massa de treinamento (onde serão obtidos os modelos) e massa de<br />

validação (onde serão testados os modelos em dados que não foram vistos no treinamento).<br />

Essas massas devem estar balanceadas, ou seja, conter todos os tipos de comportamentos<br />

de empresas.<br />

Conforme foi explicitado no capítulo 2, em um modelo de regressão linear múltipla,<br />

com várias variáveis regressoras:<br />

Yi = β0,i + β1x1,i + ... + βnθ−1xnθ−1,i + εi, i = 1 . . . N,<br />

em que Yi = {1 ou 0}.<br />

A resposta esperada é dada por:<br />

34


πi = E(Yi) = β0,i + β1x1,i + ... + βnθ−1xnθ−1,i,i = 1 . . . N (3.1)<br />

em que E é o operador de esperança.<br />

Para o modelo de regressão logística múltipla:<br />

πi = E(Yi) = e(β0,i+β1x1,i+...+βnθ−1xnθ −1,i)<br />

1 + e (β0+β1x1,i+...+βn<br />

, i = 1 . . . N. (3.2)<br />

θ−1xnθ −1,i)<br />

Assim, a resposta média, quando a variável resposta é uma variável binária (1 ou 0),<br />

sempre representa a probabilidade Y = 1, para os valores das variáveis preditoras xi.<br />

Para o caso em questão, xi poderá ter valores reais (exemplo: receita de tarifa de conta<br />

corrente) ou binários (exemplo: cliente ou não do produto PagLine); para a regressão<br />

logística poderá ser a combinação de mais um regressor em até no segundo grau.<br />

Depois de obtidos os modelos, torna-se necessário saber o quão diferenciativos estão<br />

os modelos, ou seja, se eles estão acertando e se as probabilidades calculadas para clientes<br />

churn e não churn estão pelo menos um pouco distantes umas das outras. Isso será feito<br />

pontuando-se cada modelo com os dados de treinamento e determinando-se os ranges de<br />

cada um. Assim, na base de treinamento observa-se quando uma porcentagem razoável<br />

de churn foi identificada e utiliza-se esse limiar como limiar também na base de validação,<br />

a fim de se confirmar se aquele limiar é um bom delimitador do evento churn. Para os<br />

clientes Top, permitir-se-á uma tolerância maior de falsos churns(i.e. o modelo diz que o<br />

cliente iria sair, mas ele não sai) e um menor número de falsos não churns(i.e. o modelo<br />

diz que o cliente iria ficar mas o cliente vai embora).<br />

A Figura 15 ilustra a composição dos custos. As retas de Calibração podem ser<br />

movidas de forma a ajustar as áreas em cada região. Para os clientes Top, deseja-se que<br />

as perdas de clientes sejam pouco freqüentes, apesar de nesse caso se identificar como<br />

churn vários clientes que não iriam deixar o produto Cobrança; ou seja, atua-se em quem<br />

não era necessário. Como o valor de cada cliente Top é muito alto, essa abordagem se<br />

justifica.<br />

Para os clientes Medium e Low, respectivamente, as retas de calibração devem ser<br />

posicionadas de maneira mais conservadoras, o que significa que como não são clientes<br />

tão valiosos como os Top, o banco pode “errar” mais, guardadas as devidas proporções.<br />

As áreas rotuladas de OK são aquelas onde os modelos foram leais à realidade.<br />

35


Figura 15: Relação entre custos de falsos churns e falsos não churns.<br />

No final, é feita uma comparação dos métodos, se as amostras de validação seguem<br />

a mesma distribuição das amostras de treinamento e se os modelos obtidos realmente<br />

explicam em boa parte o comportamento dos clientes a partir dos dados disponíveis.<br />

36


4 A Base de Dados<br />

Confome foi discutido no capítulo 1, este projeto exigirá aplicação de ferramentas de<br />

Data Mining.<br />

Foi disponibilizada uma base de dados com informações de mais de 213 mil clientes,<br />

que compõem parte da massa de dados de todos os que são clientes PJ do banco ou que<br />

o foram no período de janeiro de 2004 a junho de 2005, ou seja, 18 meses. O tamanho<br />

dessa base era de pouco mais de 1 Gigabyte, em Microsoft Access 2002, contendo mais<br />

de 5,5 milhões de registros.<br />

Em paralelo, a equipe de riscos forneceu o Código Nacional de Atividade Econômica<br />

(CNAE) para cerca de 70% dos CNPJs.<br />

Foi feita também a requisição de outras informações, tais como dados dos produtos dos<br />

quais cada CNPJ é cliente, faturamento estimado e valor em financiamentos. No entanto,<br />

várias informações foram consideradas sensíveis pela direção do banco e não puderam ser<br />

disponibilizadas. Outras não foram disponibilizadas a tempo.<br />

Para cada CNPJ e para cada mês, a base possuía:<br />

• Rede: pode ser de I, II, III, IV ou IV. Representa as 5 macro-regiões em que o<br />

banco divide o Brasil, conforme Figura 16.<br />

• Banco:<br />

008 - Meridional.<br />

033 - Banespa.<br />

353 - Santander.<br />

• Agência: Número da agência a que pertence a conta geradora de determinado<br />

registro para o referido CNPJ.<br />

37


Figura 16: Redes em que o Brasil é dividido.<br />

• Segmento: divisão por faturamento estimado da empresa, conforme Tabela 2. Pode<br />

ser Pymes I, Pymes II, Empresas I e Empresas II.<br />

38


• Código do produto:<br />

2 - Cobrança.<br />

4 - Tarifa de conta corrente.<br />

5 - DAV.<br />

6 - Pagamento a Fornecedores.<br />

7 - Recolhimento de Valores.<br />

9 - Folha de Pagamento.<br />

• Receita de tarifa: valor total (em R$) gerado por cobrança de tarifas.<br />

• Receita financeira: valor total (em R$) gerado pelo dinheiro ”dormir”no banco.<br />

• Número de títulos entrados: número de títulos entrados. Ou seja, só contempla<br />

a modalidade Cobrança com Registro.<br />

• Volume (em reais) de títulos entrados: soma dos valores de face dos títulos<br />

entrados. Ou seja, só contempla a modalidade Cobrança com Registro.<br />

• Número de títulos liquidados: número de títulos que foram efetivamente pagos<br />

na rede bancária. Contempla todas as modalidades de cobrança.<br />

• Volume (em reais) de títulos liquidados: soma dos valores dos títulos que<br />

foram efetivamente pagos na rede bancária. Contempla todas as modalidades de<br />

cobrança.<br />

• Nome da agência: nome da agência a que pertence a conta geradora de determi-<br />

nado registro para o referido CNPJ. Ex: Agência Pouso Alegre.<br />

• Nome da regional: uma regional abrange várias agências e uma rede abrange<br />

várias regionais. Ex: A Agência Pouso Alegre pertence à Regional Belo Horizonte,<br />

que pertence à Rede II.<br />

Tabela 2: Segmentação das empresas por faturamento estimado.<br />

Segmento Faturamento anual (reais)<br />

Pymes I até 1 milhão<br />

Pymes II de 1 a 10 milhões<br />

Empresas I de 10 a 30 milhões<br />

Empresas II de 30 a 100 milhões<br />

39


4.1 Seleção de Variáveis<br />

As informações relativas ao número da agência, nome da agência e nome da regional<br />

foram descartadas pois formam conjuntos únicos de dados e essas características são inú-<br />

teis para a modelagem [2].<br />

O CNAE também foi descartado uma vez que são muitas atividades econômicas pos-<br />

síveis e cada atividade econômica possuía poucos CNPJs. Além disso, a equipe de Riscos<br />

não tinha aproximadamente 30% dos CNAEs dos CNPJs, o que comprometeria a etapa<br />

de modelagem se essa informação fosse considerada.<br />

As informações relacionadas à entrada de títulos, i.e., Número de títulos e Volume<br />

também foram descartados porque abrangem somente Cobrança com Registro. Quando<br />

se trata de dados sobre títulos liquidados, envolvem todas as modalidades de cobrança, o<br />

que justifica em se manterem essas informações.<br />

As informações sobre o produto Recolhimento de Valores também não serão conside-<br />

radas no modelo porque apenas 434 CNPJs são clientes desse produto dentre os mais de<br />

213 mil CNPJs disponibilizados inicialmente.<br />

Os outros dados foram mantidos e serão utilizados, alguns com modificações, na etapa<br />

de modelagem.<br />

4.2 Manipulação de Variáveis<br />

Dentre os mais de 213 mil CNPJs inicialmente apresentados, foram selecionados<br />

16.633, que compreendem aqueles que estavam ativos em qualquer produto do CM ou<br />

em conta corrente durante todos os 18 meses de análise e que são ou foram clientes de<br />

Cobrança, uma vez que é o churn de Cobrança que se deseja analisar.<br />

As informações relativas a esses 16.633 CNPJs estavam na forma relacional e tiveram<br />

que ser adequadas à Customer Signature, onde todas as informações sobre um CNPJ<br />

devem estar em apenas uma linha. A Figura 11 ilustra esse procedimento.<br />

O objetivo é angariar informações sobre quando um CNPJ irá deixar o produto Co-<br />

brança. Assim, se se considerasse cada conta, poder-se-ia estar considerando falsos churns,<br />

pois um cliente pode ter várias contas com cobrança e alternar as emissões entre várias<br />

delas de um mês para o outro.<br />

A Figura 17 ilustra uma situação onde um CNPJ alternou de um mês para outro<br />

40


Figura 17: Exemplo em que o número de títulos emitidos por um cliente na Agência 0123<br />

diminuiu mas o número emitido pelo CNPJ aumentou se somadas as duas agências.<br />

apenas a agência onde emitiu mais títulos. Assim, optou-se em se aglutinar as informações<br />

relativas a um mesmo produto para um mesmo CNPJ. Depois dessa transformação, a base<br />

está com 16.633 linhas, onde cada linha contém todas as informações disponíveis para cada<br />

CNPJ.<br />

Para os produtos Pagamento a Fornecedores e Folha de Pagamento, existiam infor-<br />

mações mensais sobre número de títulos emitidos e receitas de tarifa e DAV. Como esses<br />

produtos possuem variações muito grandes nesses números, foi criada uma variável auxil-<br />

iar, booleana, onde se apontava a presença (1) ou ausência (0) desses produtos na carteira<br />

de cada cliente.<br />

Um mesmo CNPJ pode ter contas em um, dois ou nos três bancos do grupo, Banespa<br />

(033), Meridional (008) e Santander (353). Assim, foram criadas 3 variáveis booleanas que<br />

indicam em quais bancos o cliente possui conta. Similarmente, foram criadas 5 variáveis<br />

booleanas para se determinar em qual(is) rede(s) o cliente possui conta e 4 variáves que<br />

indicam em qual(is) segmento(s) suas contas estão classificadas.<br />

Uma das características que são usadas pelo CM para se entender mais do negócio do<br />

cliente é o Ticket médio, que representa a média do valor de face dos títulos liquidados.<br />

Foi criada uma váriavel com essa informação e foi descartada a variável que representava o<br />

volume total de títulos liquidados, pois ela possui alta correlação com o número de títulos<br />

liquidados.<br />

41


Portanto, depois das exclusões, manipulações e criação de novas variáveis regressoras,<br />

a base possui as seguintes informações:<br />

1. Receita de tarifa de cobrança - mensal: valor total (em R$) gerado por tarifas<br />

do produto cobrança em determinado mês. Símbolo: Rec TarifaMes.<br />

2. Receita financeira - mensal: valor total (em R$) gerado pelo dinheiro proveniente<br />

de cobrança ”dormir”no banco. Símbolo: Rec DAVMes.<br />

3. Número de títulos liquidados - mensal: número de títulos que foram efeti-<br />

vamente pagos na rede bancária. Contempla todas as modalidades de cobrança.<br />

Símbolo: Num TitMes.<br />

4. Ticket médio - mensal: valor médio (em R$) dos títulos que foram efetivamente<br />

pagos na rede bancária. Contempla todas as modalidades de cobrança. Símbolo:<br />

Tick med Mes.<br />

5. Receita de tarifa de conta corrente - mensal: valor total (em R$) gerado por<br />

tarifas de conta corrente em determinado mês. Símbolo: CC Tarifa Mes.<br />

6. Receita financeira de conta corrente - mensal: valor total (em R$) gerado<br />

pelo dinheiro exceto de cobrança ”dormir”no banco. Símbolo: CC DAV Mes.<br />

7. Se cliente possui conta no Meridional: variável booleana que indica se cliente<br />

possui conta no Meridional. Símbolo: Bco008.<br />

8. Se cliente possui conta no Banespa: variável booleana que indica se cliente<br />

possui conta no Banespa. Símbolo: Bco033.<br />

9. Se cliente possui conta no Santander: variável booleana que indica se cliente<br />

possui conta no Santander. Símbolo: Bco353.<br />

10. Se cliente possui conta na Rede I: variável booleana que indica se cliente possui<br />

conta na Rede I. Símbolo: RedeI.<br />

11. Se cliente possui conta na Rede II: variável booleana que indica se cliente possui<br />

conta na Rede II. Símbolo: RedeII.<br />

12. Se cliente possui conta na Rede III: variável booleana que indica se cliente<br />

possui conta na Rede III. Símbolo: RedeIII.<br />

42


13. Se cliente possui conta na Rede IV: variável booleana que indica se cliente<br />

possui conta na Rede IV. Símbolo: RedeIV.<br />

14. Se cliente possui conta na Rede V: variável booleana que indica se cliente possui<br />

conta na Rede V. Símbolo: RedeV.<br />

15. Se cliente possui conta classificada como Pymes I: variável booleana que<br />

indica se cliente possui conta classificada como Pymes I. Símbolo: PymI.<br />

16. Se cliente possui conta classificada como Pymes II: variável booleana que<br />

indica se cliente possui conta classificada como Pymes II. Símbolo: PymII.<br />

17. Se cliente possui conta classificada como Empresas I: variável booleana que<br />

indica se cliente possui conta classificada como Empresas I. Símbolo: EmpI.<br />

18. Se cliente possui conta classificada como Empresas II: variável booleana que<br />

indica se cliente possui conta classificada como Empresas II. Símbolo: EmpII.<br />

19. Se é cliente do produto Pagamento a Fornecedores: variável booleana que<br />

indica se é cliente do produto Pagamento a Fornecedores. Símbolo: PagLine.<br />

20. Se é cliente do produto Folha de Pagamento: variável booleana que indica se<br />

é cliente do produto Folha de Pagamento. Símbolo: FolhaPag.<br />

Nesse ponto, a base possui 2.345.253 registros.<br />

De posse das variáveis regressoras citadas anteriormente, a base foi segmentada pelo<br />

potencial de títulos a serem liquidados em 3 estratos: Top, Medium e Low, seguindo a<br />

estratificação adotada pelo banco no projeto global do churn. Essa abordagem objetiva<br />

tentar se obter modelos que se adequem mais aos dados, do que fazer 1 modelo só que<br />

se adeque a todos os dados ao mesmo tempo. Intuitivamente, espera-se que ao se fazer<br />

3 modelos onde o parâmetro de agrupamento é o potencial de liquidação de títulos, o<br />

resultado seja melhor que se se fizesse apenas um modelo para toda a massa de dados.<br />

A Tabela 1 mostra a distribuição dos estratos por range de número de títulos liquida-<br />

dos e o número de clientes pertencentes a cada estrato. Os clientes com potencial igual<br />

ou menor que 20 títulos são os non-focus e não são abordados pela modelagem preditiva,<br />

por representarem pouco valor para o banco.<br />

O potencial de cada cliente é considerado como maior número de títulos liquidados<br />

em um mês.<br />

43


Estratificados os clientes, deve-se definir a variável dependente, ou target, que neste<br />

trabalho é o churn. Para o banco, um cliente é considerado churn não somente quando seu<br />

volume de títulos cai a zero. Na verdade isso dificilmente acontece, devido à capilaridade<br />

do banco no estado de São Paulo. Assim, é comum um cliente diminuir significativamente<br />

o volume de títulos emitidos, mas ainda emitir quantidade considerável dos títulos no<br />

Santander Banespa para atender a alguns de seus clientes. No entanto, se esse cliente<br />

que antes emitia um número n de títulos começa a emitir um número consideravelmente<br />

menor é forte indício que ele migrou para outro banco e também é considerado churn. É<br />

intenção do banco atuar de forma a fazê-lo emitir a quantidade anterior de boletos.<br />

Assim, faz sentido definir tolerâncias para a determinação do momento do churn.<br />

Neste trabalho, em comum acordo com a área de negócios do CM, escolheu-se que se o<br />

cliente durante 3 meses consecutivos emitisse um número menor que a média dos últimos<br />

3 meses, ele seria considerado churn. A idéia é identificar também aqueles clientes que<br />

tiveram queda expressiva no número de boletos. Serão feitos modelos nos quais as tole-<br />

râncias consideradas foram de 60%, 70% e 80%. Quanto maior o valor dessa tolerância<br />

menor é a queda no número de títulos liquidados para que o cliente seja identificado como<br />

churn, ou seja, mais sensível é o banco à perda do cliente.<br />

44


5 Modelagem<br />

Para cada estrato e para cada valor de tolerância considerados será obtido um modelo<br />

por regressão linear e um por regressão logística, o que totaliza 18 modelos. A base será<br />

dividida entre treinamento e validação. Os dados utilizados na validação não podem ter<br />

sido utilizados no treinamento [1].<br />

Ao todo, para o caso linear, dispõe-se para modelagem 32 regressores mais o Inter-<br />

cepto, que representa o valor onde a função cruza o eixo da variável dependente. Para<br />

a regressão logística, foram considerados também a interação entre os regressores, o que<br />

totalizou mais de 200 novos regressores.<br />

A fim de se determinar os que melhor explicam a relação Entradas-Saída, aplicou-se<br />

o método ERR, para se considerar na etapa de modelagem somente os regressores mais<br />

importantes, i.e., que mais reduzem o somatório dos quadrados dos resíduos. Depois dessa<br />

etapa e da redução significativa do número de regressores, mais regressores puderam ser<br />

descartados usando-se o teste de p-valor, recurso do SAS . Os regressores com p-valor<br />

significativos, i.e. menor que 0,15, foram mantidos e utilizados na etapa de modelagem.<br />

Após ser aplicado o ERR, restava um número razoável de regressores. Os dados foram<br />

inseridos no SAS e após as regressões, eram descartados os regressores com p-valor maior<br />

que 0,15. Isso era refeito até que todos os regressores tivessem p-valor inferior a 0,15.<br />

Para cada estrato e para cada cada tipo de regressão, considerar-se-á um conjunto<br />

possivelmente diferente de variáveis independentes.<br />

Depois de se determinarem os regressores para cada modelo, será feita a estimação<br />

de parâmetros dos regressores. Após essa etapa, serão determinados os ranges nos quais<br />

os clientes churn e não churn foram enquadrados. Essas faixas serão utilizadas depois na<br />

pontuação dos modelos obtidos nos dados de validação, ou seja, testar o quão sensível ao<br />

churn são os modelos e se os modelos obtidos qualificam com determinada precisão se o<br />

cliente é churn ou não churn.<br />

45


5.1 Amostras<br />

Para cada estrato do estudo, dividiram-se as bases em treinamento e validação. A<br />

base de treinamento é utilizada para se construir os modelos e a de validação é utilizada<br />

para apurar o percentual de acerto de cada modelo.<br />

Tabela 3: Divisão das bases em treinamento e validação.<br />

Estrato Número de clientes - Treinamento Número de clientes - Validação<br />

TOP 3132 699<br />

MEDIUM 2570 599<br />

LOW 3520 799<br />

A Tabela 3 mostra como foi dividida a base entre treinamento e validação. A divisão<br />

foi feita procurando-se manter a proporção de clientes churn/não churn da base original.<br />

Antes de se aplicar a Regressão Linear ou a Logística, para cada estrato foi aplicado o<br />

ERR e posteriormente o teste do p-valor, conforme descrito anteriormente neste capítulo.<br />

Para cada estrato e para cada valor de tolerância adotou-se um limiar de falsos churns-<br />

o banco atua sem haver a necessidade - e falsos não churn - o banco não atua havendo a<br />

necessidade.<br />

5.2 Regressão Linear<br />

5.2.1 Top<br />

Na regressão linear para o estrato Top foram selecionados 16 regressores.<br />

A tabela 4 lista os regressores bem como os seus valores. A fim de se determinar os<br />

limites acima dos quais os clientes são considerados churn, analisou-se a distribuição dos<br />

verdadeiros e falsos churns e não churns. Essa análise foi feita fazendo a pontuação da<br />

massa de treinamento.<br />

Com base na distribuição representada pela Figura 18, considera-se o valor 0,30 como o<br />

delimitador das regiões de churn e não churn, pois a partir desse valor de saída, existe uma<br />

razoável identificação dos churns ao passo que uma concomitante redução no número de<br />

não churns. Para valores de saída acima desse limite, obteve-se na massa de treinamento<br />

a identificação de 73,4% dos verdadeiros churns. No entanto, 40,67% dos clientes que<br />

não foram churn estavam nesse intervalo também. Considera-se esse valor aceitável, uma<br />

vez que como se trata de clientes Top, o custo de se perder um cliente desse segmento<br />

46


Tabela 4: Regressores e valores dos parâmetros - Regressão Linear - Top.<br />

Regressor selecionado Parâmetro-60% Parâmetro-70% Parâmetro-80%<br />

Intercepto 0,1113 0,15444 0,21524<br />

Rec Tarifa09 3,964 × 10 −5 5,188 × 10 −5 5,435 × 10 −5<br />

Num Tit09 2,5296 × 10 −4 3,5695 × 10 −4 4,8433 × 10 −4<br />

Tick med 09 5,68 × 10 −6 4,96 × 10 −6 5,12 × 10 −6<br />

Rec DAV10 3,3214 × 10 −4 2,5873 × 10 −4 3,2656 × 10 −4<br />

Tick med 10 −2,552 × 10 −5 −2,674 × 10 −5 −2,101 × 10 −5<br />

CC DAV 10 −9,03 × 10 −6 −1,097 × 10 −5 −1,661 × 10 −5<br />

Rec Tarifa11 −4,997 × 10 −5 −6,387 × 10 −5 −7,069 × 10 −5<br />

Rec DAV11 −3,3269 × 10 −4 −3,4031 × 10 −4 −3,7375 × 10 −4<br />

Num Tit11 −2,4951 × 10 −4 −3,6011 × 10 −4 −4,8374 × 10 −4<br />

Tick med 11 2,019 × 10 −5 1,865 × 10 −5 2,054 × 10 −5<br />

Bco353 0,02404 0,02278 0,03514<br />

PymI −0,02969 −0,02767 −0,02553<br />

EmpI 0,01499 0,03417 0,03891<br />

EmpII 0,05603 0,07820 0,07018<br />

FolhaPag −0,03019 −0,03763 −0,03106<br />

Figura 18: Histograma das freqüências das saídas por Regressão Linear - Top - 80%.<br />

demanda que se seja menos conservador. Observa-se no histograma que não existe um<br />

limite muito definido entre os churn e não churn. Por outro lado, observa-se que os valores<br />

mais prováveis (picos dos histogramas) estão deslocados entre si. Essa diferença indica<br />

que, em média, é possível diferenciar entre churn e não churn, mas essa distinção é de<br />

fato bem difícil, uma vez que os picos estão somente UM POUCO deslocados entre si.<br />

47


5.2.2 Medium<br />

Na regressão linear para o estrato Medium foram utilizados 13 regressores.<br />

Tabela 5: Regressores e valores dos parâmetros - Regressão Linear - Medium.<br />

Regressor selecionado Parâmetro-60% Parâmetro-70% Parâmetro-80%<br />

Intercepto 0,26068 0,32983 0,41049<br />

Rec Tarifa09 2,8819 × 10 −4 3,5683 × 10 −4 3,9176 × 10 −4<br />

Num Tit09 2,88 × 10 −3 4,34 × 10 −3 5,30 × 10 −3<br />

CC Tarifa 09 1,0907 × 10 −4 2,7916 × 10 −4 2,7432 × 10 −4<br />

Num Tit10 −1,38 × 10 −3 −1,38 × 10 −3 −5,2609 × 10 −4<br />

CC Tarifa 10 −9,423 × 10 −5 −2,3505 × 10 −4 −3,0355 × 10 −4<br />

Rec Tarifa11 −2,9711 × 10 −4 −3,99 × 10 −4 −4,1596 × 10 −4<br />

Num Tit11 −5,61 × 10 −3 −7,52 × 10 −3 −9,42 × 10 −3<br />

Bco353 0,04019 0,04119 0,03402<br />

RedeI 0,00999 0,02536 0,01806<br />

RedeV 0,04564 0,05652 0,04376<br />

PymII 0,04748 0,04349 0,05822<br />

EmpI 0,043 0,07132 0,05808<br />

A tabela 5 lista os regressores bem como os seus valores. A fim de se determinar os<br />

limites acima dos quais os clientes são considerados churn, analisou-se a distribuição dos<br />

verdadeiros e falsos churns e não churns. Essa análise foi feita fazendo a pontuação da<br />

massa de treinamento.<br />

Figura 19: Histograma das freqüências das saídas por Regressão Linear - Medium - 70%.<br />

48


Com base na distribuição representada pela Figura 19, considera-se o valor 0,30 como<br />

o delimitador das regiões de churn e não churn. Para valores de saída acima desse limite,<br />

obteve-se na massa de treinamento a identificação de 61,83% dos verdadeiros churns.<br />

No entanto, 10,61% dos clientes que não foram churn estavam nesse intervalo também.<br />

Considera-se esse valor aceitável, uma vez que como se trata de clientes Medium, o custo<br />

de se perder um cliente desse segmento possibilita que se seja mais conservador que no<br />

caso Top.<br />

5.2.3 Low<br />

Na regressão linear para o estrato Low foram utilizados 15 regressores.<br />

Tabela 6: Regressores e valores dos parâmetros - Regressão Linear - Low.<br />

Regressor selecionado Parâmetro-60% Parâmetro-70% Parâmetro-80%<br />

Intercepto 0,29067 0,33780 0,46056<br />

Rec Tarifa09 1,2463 × 10 −4 1,9306 × 10 −4 1,4918 × 10 −4<br />

Rec DAV09 1,35 × 10 −3 1,34 × 10 −3 6,9863 × 10 −4<br />

Num Tit09 4,72 × 10 −3 7,10 × 10 −3 1,154 × 10 −3<br />

Tick med 09 −1,005 × 10 −5 −5,97 × 10 −5 −2,55 × 10 −6<br />

CC Tarifa 09 1,6116 × 10 −4 1,4083 × 10 −4 1,8829 × 10 −4<br />

Rec Tarifa10 2,3180 × 10 −4 1,8166 × 10 −4 2,7462 × 10 −4<br />

Rec DAV10 −1,68 × 10 −3 −1,66 × 10 −3 −1,31 × 10 −3<br />

Rec Tarifa11 −3,2021 × 10 −4 −3,7441 × 10 −4 −5,3089 × 10 −4<br />

Num Tit11 −0,01449 −0,01807 −0,02280<br />

Tick med 11 1,025 × 10 −5 9,63 × 10 −5 1,023 × 10 −5<br />

Bco008 0,12444 0,13654 0,10252<br />

Bco033 0,04842 0,07482 0,05294<br />

Bco353 0,08513 0,10903 0,06957<br />

PymI −0,05622 −0,06071 −0,06526<br />

A tabela 6 lista os regressores bem como os seus valores. A fim de se determinar os<br />

limites acima dos quais os clientes são considerados churn, analisou-se a distribuição dos<br />

verdadeiros e falsos churns e não churns. Essa análise foi feita fazendo a pontuação da<br />

massa de treinamento.<br />

Com base na distribuição representada pela Figura 20, considera-se o valor 0,30 como<br />

o delimitador das regiões de churn e não churn. Para valores de saída acima desse limite,<br />

obteve-se na massa de treinamento a identificação de 56,97% dos verdadeiros churns.<br />

No entanto, 7,35% dos clientes que não foram churn estavam nesse intervalo também.<br />

Considera-se esse valor aceitável, uma vez que como se trata de clientes Low, o custo de<br />

se perder um cliente desse segmento possibilita que se seja bem mais conservador que nos<br />

49


Figura 20: Histograma das freqüências das saídas por Regressão Linear - Low - 60%.<br />

outros casos. Isso significa que o modelo nem precisa identificar todos os churns, desde<br />

que também não aponte muitos falsos churns, demandando assim atuação junto a clientes<br />

sem que haja necessidade.<br />

5.3 Regressão Logística<br />

5.3.1 Top<br />

Na regressão logística para o estrato Top foram utilizados 19 regressores.<br />

A tabela 7 lista os regressores bem como os seus valores. Similarmente ao modo como<br />

foi feito na regressão linear, analisou-se a distribuição dos verdadeiros e falsos churns e<br />

não churns. Essa análise foi feita fazendo a pontuação da massa de treinamento.<br />

Com base na distribuição representada pela Figura 21, considera-se o valor 0,20 como o<br />

delimitador das regiões de churn e não churn, pois a partir desse valor de saída, existe uma<br />

razoável identificação dos churns ao passo que uma concomitante redução no número de<br />

não churns. Para valores de saída acima desse limite, obteve-se na massa de treinamento<br />

a identificação de 70,03% dos verdadeiros churns. No entanto, 25,96% dos clientes que<br />

não foram churn estavam nesse intervalo também. Considera-se esse valor aceitável, uma<br />

50


Tabela 7: Regressores e valores dos parâmetros - Regressão Logística - Top.<br />

Regressor selecionado Parâmetro-60% Parâmetro-70% Parâmetro-80%<br />

Intercepto −0,8096 −0,8569 −0,7962<br />

Rec Tarifa09 0,00165 0,00142 9,67 × 10 −4<br />

Num Tit09 0,00994 0,00963 0,00951<br />

CC Tarifa 09 2,60 × 10 −4 6,52 × 10 −4 7,27 × 10 −4<br />

Num Tit10 0,00401 0,00789 0,00611<br />

Rec Tarifa11 −0,00134 −0,00128 −8,1 × 10 −4<br />

Num Tit11 −0,0269 −0,0253 −0,0201<br />

Tick med 11 1,51 × 10 −4 1,34 × 10 −4 2,23 × 10 −4<br />

RedeI 0,2634 0,2482 0,2042<br />

RedeIV 0,5415 0,4146 0,2610<br />

PymI −0,5672 −0,4549 −0,3038<br />

EmpI 0,3984 0,4917 0,3807<br />

EmpII 1,0523 1,0812 0,7200<br />

Rec Tarifa09 × CC DAV 09 −1,09 × 10 −7 −7,12 × 10 −7 −8,36 × 10 −7<br />

Rec Tarifa11 × Tick med 11 −1,07 × 10 −6 −9,54 × 10 −7 −5,74 × 10 −7<br />

Tick med 11 × Tick med 11 −5,57 × 10 −9 −5,35 × 10 −9 −9,63 × 10 −9<br />

Num Tit09 × Num Tit10 −5,95 × 10 −6 −5,33 × 10 −6 −4,1 × 10 −6<br />

Num Tit09 × Num Tit11 8,997 × 10 −6 7,181 × 10 −6 5,208 × 10 −6<br />

Num Tit09 × Num Tit10 × Num Tit11 −2,22 × 10 −10 −1,42 × 10 −10 −9,12 × 10 −13<br />

Figura 21: Histograma das freqüências das saídas por Regressão Logística - Top - 80%.<br />

vez que como se trata de clientes Top, o custo de se perder um cliente desse segmento<br />

demanda que se seja menos conservador. Observa-se no histograma que já existe um<br />

limite mais definido entre os churn e não churn do que nos resultados via regressão linear.<br />

51


Ao contrário do que aconteceu na regressão linear, não existem picos bem definidos e um<br />

pouco deslocados. Na regressão logística, as distribuições estão mais espalhadas, sendo<br />

que os não churn possuem menor espalhamento e valores mais próximos de zero. Os churn<br />

por sua vez possuem uma distribuição espalhada ao longo de toda a faixa de valores (0 a<br />

1).<br />

5.3.2 Medium<br />

Na regressão logística para o estrato Medium foram utilizados 16 regressores.<br />

Tabela 8: Regressores e valores dos parâmetros - Regressão Logística - Medium.<br />

Regressor selecionado Parâmetro-60% Parâmetro-70% Parâmetro-80%<br />

Intercepto 0,5005 0,4648 0,3953<br />

Rec Tarifa09 0,00116 0,00195 0,00224<br />

Num Tit09 0,0585 0,0689 0,0640<br />

CC Tarifa 09 0,00213 0,00348 0,00273<br />

Rec Tarifa10 −0,00178 −0,00190 −0,00231<br />

Num Tit10 −0,0293 −0,0282 −0,0181<br />

CC Tarifa 10 −0,00433 −0,00440 −0,00374<br />

Rec Tarifa11 −0,00651 −0,00574 −0,00363<br />

Num Tit11 −0,0935 −0,0786 −0,0646<br />

CC Tarifa 11 0,00507 0,00380 0,00201<br />

Rec Tarifa10 × Num Tit10 3,70 × 10 −5 2,80 × 10 −5 4,10 × 10 −5<br />

Rec Tarifa10 × CC Tarifa 10 8,515 × 10 −6 6,988 × 10 −6 6,424 × 10 −6<br />

CC Tarifa 11 × CC Tarifa 11 −5,99 × 10 −6 −5,80 × 10 −6 −3,52 × 10 −6<br />

Rec Tarifa09 × Rec Tarifa11 6,518 × 10 −6 4,778 × 10 −6 2,42 × 10 −6<br />

Num Tit09 × Num Tit11 −8,00 × 10 −4 −9,50 × 10 −4 −8,20 × 10 −4<br />

Num Tit09 × Num Tit10 × Num Tit11 1,00 × 10 −5 1,00 × 10 −5 6,888 × 10 −6<br />

A tabela 8 lista os regressores bem como os seus valores. A fim de se determinar os<br />

limites acima dos quais os clientes são considerados churn, analisou-se a distribuição dos<br />

verdadeiros e falsos churns e não churns. Essa análise foi feita fazendo a pontuação da<br />

massa de Treinamento.<br />

Com base na distribuição representada pela Figura 22, considera-se o valor 0,20 como<br />

o delimitador das regiões de churn e não churn. Para valores de saída acima desse limite,<br />

obteve-se na massa de treinamento a identificação de 73,28% dos verdadeiros churns.<br />

No entanto, 14,52% dos clientes que não foram churn estavam nesse intervalo também.<br />

Considera-se esse valor aceitável, uma vez que como se trata de clientes Medium, o custo<br />

de se perder um cliente desse segmento possibilita que se seja mais conservador que no<br />

caso Top.<br />

52


Figura 22: Histograma das freqüências das saídas por Regressão Logística - Medium -<br />

70%.<br />

5.3.3 Low<br />

Na regressão logística para o estrato Low foram utilizados 21 regressores.<br />

A tabela 9 lista os regressores bem como os seus valores. A fim de se determinar os<br />

limites acima dos quais os clientes são considerados churn, analisou-se a distribuição dos<br />

verdadeiros e falsos churns e não churns. Essa análise foi feita fazendo a pontuação da<br />

massa de treinamento.<br />

Com base na distribuição representada pela Figura 23, considera-se o valor 0,20 como<br />

o delimitador das regiões de churn e não churn. Para valores de saída acima desse limite,<br />

obteve-se na massa de treinamento a identificação de 73,56% dos verdadeiros churns.<br />

No entanto, 11,44% dos clientes que não foram churn estavam nesse intervalo também.<br />

Considera-se esse valor aceitável, uma vez que como se trata de clientes Low, o custo de<br />

se perder um cliente desse segmento possibilita que se seja bem mais conservador que nos<br />

outros casos. Isso significa que o modelo nem precisa identificar todos os churns, desde<br />

que também não aponte muitos falsos churns.<br />

53


Tabela 9: Regressores e valores dos parâmetros - Regressão Logística - Low.<br />

Regressor selecionado Parâmetro-60% Parâmetro-70% Parâmetro-80%<br />

Intercepto 0,00859 0,1642 0,4273<br />

Rec Tarifa09 0,00193 0,00294 0,00332<br />

Rec DAV09 0,0253 0,0212 0,0114<br />

Num Tit09 0,0851 0,0817 0,0932<br />

CC Tarifa 09 0,00160 0,00120 0,00136<br />

Num Tit10 −0,0301 −0,00276 −0,0112<br />

Rec Tarifa11 −0,00346 −0,00282 −0,00252<br />

Num Tit11 −0,2731 −0,2500 −0,2066<br />

Tick med 11 0,00346 6,30 × 10 −5 7,00 × 10 −5<br />

RedeI 0,2829 0,2226 0,0923<br />

RedeII 0,5185 0,2368 −0,0513<br />

RedeIV 0,3623 0,1722 −0,0685<br />

RedeV 0,5807 0,3068 0,0641<br />

EmpII −1,8038 −0,2572 −0,1380<br />

Rec Tarifa10 × Num Tit10 2,26 × 10 −4 1,32 × 10 −4 1,87 × 10 −4<br />

Rec Tarifa11 × Rec DAV11 −6,20 × 10 −4 −3,60 × 10 −4 −2,40 × 10 −4<br />

Rec Tarifa11 × Num Tit11 3,14 × 10 −4 2,71 × 10 −4 1,39 × 10 −4<br />

Rec DAV10 × Rec DAV10 2,29 × 10 −4 4,80 × 10 −5 6,10 × 10 −5<br />

Rec DAV11 × Rec DAV11 2,24 × 10 −4 1,04 × 10 −4 8,10 × 10 −5<br />

Rec Tarifa09 × Rec Tarifa11 −1,00 × 10 −5 −1,00 × 10 −5 −2,00 × 10 −5<br />

Rec DAV09 × Rec DAV10 × Rec DAV11 −3,46 × 10 −6 −6,15 × 10 −7 −8,30 × 10 −7<br />

Figura 23: Histograma das freqüências das saídas por Regressão Logística - Low - 60%.<br />

54


6 Resultados<br />

No capítulo anterior foram estimados os parâmetros dos modelos e definidos os ranges<br />

nos quais se identifica os verdadeiros churns, falsos churns, verdadeiros não churns e<br />

falsos não churns.<br />

É necessário se balancear esses quatro, conforme Figura 15, a fim de<br />

se maximizar para cada estrato a identificação ou não do evento. Para o estrato Top, o<br />

limite de falsos churns foi de 50%; para o Medium de 25% e para o Low, de 15%. Dessa<br />

forma, procura-se racionalizar os esforços de atuação nos clientes mais valiosos.<br />

Neste capítulo, compara-se o valor da pontuação obtida no capítulo anterior (treina-<br />

mento) com a obtida na massa de validação. As tabelas a seguir, uma para a regressão<br />

linear e uma para a logística, possuem para cada segmento e para cada valor de tolerân-<br />

cia para identificação do evento churn, o valor do limite de saída que separa os acertos<br />

(verdadeiro churn) dos erros (falso churn) e os percentuais de acerto no treinamento e<br />

validação, considerando-se aquele limite.<br />

Tabela 10: Comparação dos valores de verdadeiros e falsos churns da regressão linear<br />

nas bases de treinamento e validação. Os valores em negrito indicam casos onde houve<br />

diferença de mais de 10 pontos percentuais entre validação e treinamento.<br />

Linear Treinamento Validação<br />

Tol./Seg. Limite Verdadeiro churn Falso churn Verdadeiro churn Falso churn<br />

60% Top 0,10 72,83 36,55 66,67 31,65<br />

70% Top 0,15 63,79 26,60 50,55 22,53<br />

80% Top 0,30 73,40 40,67 6,35 1,92<br />

60% Medium 0,20 78,33 15,95 90,00 17,7<br />

70% Medium 0,30 61,83 10,61 69,51 11,99<br />

80% Medium 0,30 68,33 19,97 65,96 24,24<br />

60% Low 0,30 56,97 7,35 45,36 5,70<br />

70% Low 0,30 69,18 13,13 61,31 11,33<br />

80% Low 0,40 54,43 11,51 47,94 11,07<br />

Os valores marcados em negrito representam aqueles onde houve variação de mais de<br />

10 pontos percentuais da base de treinamento - onde se determinaram os limites - para a<br />

base de validação.<br />

55


Tabela 11: Comparação dos valores de verdadeiros e falsos churns da regressão logística<br />

nas bases de treinamento e validação. Os valores em negrito indicam casos onde houve<br />

diferença de mais de 10 pontos percentuais entre validação e treinamento.<br />

Logística Treinamento Validação<br />

Tol./Seg. Limite Verdadeiro churn Falso churn Verdadeiro churn Falso churn<br />

60% Top 0,10 81,52 22,06 80,30 18,99<br />

70% Top 0,20 64,53 11,41 56,04 10,53<br />

80% Top 0,20 70,03 25,96 68,25 24,61<br />

60% Medium 0,10 82,51 17,86 93,33 19,48<br />

70% Medium 0,20 73,28 14,52 78,05 18,18<br />

80% Medium 0,30 64,95 15,34 61,70 19,21<br />

60% Low 0,20 73,56 11,44 71,13 10,54<br />

70% Low 0,25 71,34 12,88 62,04 13,29<br />

80% Low 0,30 61,72 14,90 59,79 14,88<br />

Ao se comparar as tabelas 10 e 11, percebe-se que na maioria das vezes a razão<br />

Acerto/Erro é melhor - maior - para os resultados obtidos pela regressão logística. Isso<br />

significa, e pode ser confirmado nos histogramas, que a região de churn e não churn é<br />

mais separável para os resultados obtidos via regressão logística. Além disso, os resultados<br />

desse último método na maioria das vezes também apresenta maior percentual de acerto.<br />

Os percentuais de acerto da massa de treinamento são maiores que na massa de<br />

validação. Isso já era esperado, uma vez que os dados de validação não foram vistos<br />

na etapa de modelagem. No entanto, essa diferença, na maioria das vezes, não é muito<br />

grande. Vale destacar que em duas situações, o valor de acerto na massa de validação<br />

foi superior à na massa de treinamento. Porém, o valor dos erros também aumentaram,<br />

podendo indicar que o limite da massa de validação estava ajustado mais à esquerda nos<br />

histogramas. Ou seja, a relação acerto/erro da massa de treinamento continuou superior.<br />

56


7 Conclusões<br />

Neste PFC objetivou-se obter modelos que tentassem dar melhor insight sobre o churn<br />

de Cobrança do Banco Santander Banespa. Com base nos resultados, considera-se que a<br />

proposta inicial foi cumprida satisfatoriamente.<br />

A base de dados utilizada poderia ter sido complementada por várias outras infor-<br />

mações sobre os clientes, o que provavelmente melhoraria a qualidade dos modelos. No<br />

entanto, mesmo sem muitas informações foi possível fazer o DM, que consumiu cerca de<br />

60% do tempo dedicado ao projeto, a seleção dos regressores e a modelagem com consid-<br />

erável sucesso, uma vez que os percentuais de acerto dos modelos foi significativamente<br />

maior do que 50%, ou seja, maior que simplesmente se jogar cara ou coroa; existiu algum<br />

erro mas se o banco atuar junto aos clientes que, segundo o modelo, seriam churn mas<br />

não o são, não é tão grave quanto não se atuar em clientes que os modelos classificaram<br />

como não churn e são churn; esse trade-off depende do valor do cliente para o banco.<br />

Este deve escolher os limites que devem ser utilizados, baseados também no número de<br />

pessoas disponíveis para se atuar junto aos clientes, além do ROI de cada cliente.<br />

Existem variáveis que não podem ser medidas, tais como promoções da concorrência,<br />

pessimismo/otimismo dos empresários, dentre outros fatores que podem ser determinantes<br />

no churn de Cobrança. Portanto, elas não podem ser modeladas e a parcela de explicaçção<br />

do evento churn que lhes cabe não pôde contribuir para aumentar a qualidade dos modelos.<br />

Assim, considera-se que o presente trabalho contribuiu de forma a ajudar o banco<br />

a saber quais variáveis se deve analisar quando se quer prever a perda de clientes do<br />

produto Cobrança antes mesmo de eles apresentarem sinais claros de que deixariam o<br />

produto; além, disso os modelos obtidos apresentaram boa qualidade.<br />

Os modelos obtidos por regressão logística se mostraram se adequar melhor aos dados<br />

do que os modelos via regressão linear. Isso pode ser explicado porque na regressão<br />

logística foram incluídas interações entre as variáveis e a regressão logística em si é não-<br />

linear. Assim, os modelos via regressão logística devem ser preferidos aos obtidos via<br />

57


egressão linear. Na falta dos modelos logísticos, os modelos linear conseguem explicar o<br />

churn com razoável eficiência.<br />

O banco agora possui uma metodologia de modelagem preditiva do fenômeno churn<br />

e sabe quais variáveis deve observar e quais deve descartar.<br />

58


8 Desenvolvimentos Futuros<br />

A modelagem preditiva realizada poderia ter obtido maior percentual de acerto se<br />

houvesse disponibilidade de mais informações sobre os clientes. Assim, torna-se desejável<br />

que o banco perceba o potencial de retorno que a modelagem preditiva pode trazer à<br />

empresa e não apenas para a detecção do churn de Cobrança, mas também para o churn<br />

em outros produtos, inclusive aqueles que envolvem pessoa física, e assim permita o acesso<br />

a tais informações.<br />

Pode ser interessante também considerar se variáveis macro-econômicas, e.g. taxa de<br />

inflação, variação no preço do dólar, juros, etc, podem ser significativas na determinação<br />

do churn.<br />

A determinação dos limites de saída acima dos quais o banco deve atuar constitui-se<br />

um bom caminho de estudo a ser perseguido, pois a partir da modelagem preditiva e da<br />

estimação dos custos de perda de clientes e de custos de atuação, pode-se otimizar os<br />

esforços de atuação. Neste trabalho apenas estimou-se os limiares aceitáveis a partir do<br />

estrato de cada cliente. Se se fizer um estudo detalhado dos custos de perda e de atuação<br />

relativos aos clientes de cada estrato, os ranges podem ser definidos de forma a otimizar<br />

a aplicação de recursos dedicados à redução da perda de clientes de Cobrança.<br />

No presente projeto a modelagem foi feita via regressões. Uma linha de estudo que<br />

tem tido sucesso na explicação de eventos como o churn são as Redes Neurais Artificais<br />

e as várias ferramentas que nela estão inseridas [2].<br />

59


Referências<br />

[1] AGUIRRE, L.A. (2000). Introdução à identificação de sistemas: técnicas lineares e<br />

não-lineares aplicadas a sistemas reais (2 a Edição). Belo Horizonte: UFMG.<br />

[2] BERRY, J., and LINOFF, G. (2004). Data Mining Techniques: For Marketing,<br />

Sales, and Customer Relationship Management (2 nd edition). Indianapolis, IN: Wiley.<br />

[3] BILLINGS, S.A., CHEN, S., KORENBERG, M.J. (1989). Identification of mimo<br />

nonlinear systems using a forward-regression orthogonal estimator. Int. J. Control.<br />

[4] BUSSAB, W.O., MORETTIN, P.A. (2002). Estatística Básica (5 a Edição). São<br />

Paulo: Editora Saraiva.<br />

[5] Caio Canton. Superintendente de Cash Management. Comunicação Pessoal. Banco<br />

Santander Banespa. São Paulo. 2005.<br />

[6] BILLINGS, S.A., CHEN, S., KORENBERG, M.J. (1989). Identification of mimo<br />

nonlinear systems using a forward-regression orthogonal estimator. Int. J. Control.<br />

[7] EDELSTEIN, H. (2000) Building Profitable Customer Relationships with Data Mining.<br />

White Paper: SPSS Inc.<br />

[8] ELLIOTT, K., SCIONTI, R., PAGE, M. (2003) Two Rivers: The Confluence of<br />

Data Mining and Market Research for Smarter CRM. White Paper: SPSS Inc.<br />

[9] Engenharia de Controle e Automação-UFMG Disponível em<br />

. Acesso em 18 de novembro de 2005.<br />

[10] HOSMER, D.W.Jr. and LEMESHOW, S. (2000) Applied Logistic Regression (2 nd<br />

edition). New York: Wiley.<br />

[11] KAKINOHANA, R.K., SAKANAKA, P.A. e MOSCARDINI, T.B. (2005) e-<br />

BI: Uma Metodologia Para Gerenciamento de Projetos de Business Intelligence<br />

Disponível em . Acesso em 08<br />

de agosto de 2005.<br />

[12] KOTLER, P. (2000) Administração de marketing (10 a Edição) São Paulo: Prentice<br />

Hall.<br />

[13] OGLIARI, P.J. (2004) Regressão Logística Disponível em<br />

. Acesso em 10 de<br />

agosto de 2005.<br />

60


[14] OGLIARI, P.J. (2004) Regressão Linear Múltipla Disponível em<br />

. Acesso em<br />

10 de agosto de 2005.<br />

[15] Relatório Anual 2004 Disponível em . Acesso em<br />

12 de outubro de 2005.<br />

[16] Revista Conexão Santander Banespa (n o 48) Conexão. Publicação interna. Agosto<br />

de 2005.<br />

[17] UFMG 75 anos Disponível em . Acesso em 18 de<br />

novembro de 2005.<br />

[18] VERONA, M.M. (2005) Marketing Bancário Disponível em<br />

. Acesso em 12 de outubro de 2005.<br />

[19] YARED, G.F.G. (2001). Síntese do Movimento Facial Durante a Fala a partir da<br />

Atividade Neuromuscular. Dissertação de mestrado, PPGEE, Universidade Federal<br />

de Minas Gerais.<br />

61

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!