O diabo se esconde atrás dos dados... dos fundos de investimentos

 

O maior desafio de um pesquisador é interpretar corretamente os dados de experimentos e através dele inferir algum modelo que possa traduzir a natureza. Dos primórdios tempos de investigação científica, os estudos e observações da natureza eram voltados para compreender os eventos. Previsão era assumida como mera conseqüência de uma teoria bem construída a ponto de entender as variações e surpresas da natureza. Esse apreço pela previsão sempre foi considerado coisa de bruxas nos idos da idade média. Muitos cientistas se esconderam atrás de dados e modelos de previsões com medo da fogueira da inquisição. Tomados como exemplo, Giordano Bruno e Galileu foram obrigados a renunciar de seus modelos sobre o movimentos dos corpos celestes, pois esse "assunto" pertencia a Deus.

Bem, se o modelo pertence a Deus e ninguém poderia discutir sobre esse assunto ou discutir com Ele uma forma de melhorar a natureza, passaram-se então a apenas guardar dados. E foram tantos dados já arquivados na vida humana, que as interpretações dos mesmos já geraram diversas controvérsias em todas as áreas de pesquisa. Seja por dados errados, dados mal coletados, dados forjados, dados perdidos, dados roubados ou qualquer outra forma de se trabalhar com dados que, entre os pesquisadores uma outra entidade apareceu para se mostrar: o diabo. É jargão entre os pesquisadores, quando um trabalho não acerta a realidade dos fatos, dizer que "o diabo se esconde nos dados".

Nos tempos atuais o diabo se esconde nos dados e nos "softwares" ou programas de computadores baseados em informações e regras de funcionamento (algoritmos). Até o fim da década de 1960, os investidores acreditavam na contabilidade tradicional para seus investimentos. Tudo era romântico e calmo, e os dados do mercado eram atualizados anualmente, através de almanaques grossos e cheio de dados (onde será que estava o diabo?). Com o advento do computador, esse romantismo acabou e entrou em cena uma relação mais direta com os dados do que com os modelos. O importante é coletar dados e usar os computadores para as estatísticas e está tudo resolvido. Os grandes fundos de investimentos enviaram e contrataram PHDs (doutores de Harvard, Chicago, Stanford, etc) para aplicar os modelos aos milhões de dados que chegavam a cada hora em suas mesas.

E após os PHDs acertarem e também errarem muito, a percepção que ficou é que o mercado não precisava mais deles. Bastava enviar funcionários aprenderem e em tempo rápido o que os PHDs sabiam. Sim, proliferaram cursos e mais cursos, com a receita mágica de ensinar conhecimento de 15 anos em 2 anos. E para todos esses funcionários, agora conhecidos como "especialistas", nada melhor do que usar micro-computadores para guardar os próprios dados. No fim da década de 1980 já se destacavam o software Lotus123 e o Excel para criar banco de dados. E o Excel foi mais longe ao bater no Lotus123 quando criou a estrutura de planilhas com fórmulas que faziam operações entre as colunas e linhas. E então ele foi comprado e distribuído pela Microsoft.

E nunca mais os fundos se preocuparam com isso pois é um problema já resolvido esse de modelos e dados. Basta chamar meu especialista de plantão, pedir a ele a curva de risco do portfólio e juntos decidirem quais tem a melhor distribuição de probabilidades para se investir. Santo erro... e o diabo apareceu de forma cruel e avassaladora entre os humanos.

O livro "Modern Portfolio Theory and Investment Analysis" de Edwin J. Elton e outros, em sua sexta edição, na página 133 diz: "...assim é conveniente ter o termo epson não correlacionado...onde estimativas de alpha, beta e sigma são obtidas por análise de regressão em séries temporais... assumidas como simplificação para representação da realidade...". Na página 163 ele escreve: " ... por definição a variância residual da ação i é igual a sigma ao quadrado...". No contexto, significa que ele está usando uma distribuição de probabilidade conhecida como gaussiana ou Normal. Na mesma página ele volta a dizer:"... vamos assumir que as correlações cruzadas dos ruídos sejam nulas..." e ainda "...esta é uma simplificação que representa a aproximação da realidade. Se for observada a figura da página 584 para a probabilidade do retorno, se vê uma curva gaussiana perfeita.

Onde está o diabo? Na verdade vamos ver o inferno como um todo. O autor, honestamente está dizendo diversas vezes que é uma aproximação e a medida que os capítulos passam, ele se apressa em dizer que é uma simplificação. Ora, uma simplificação de uma aproximação de um modelo com dados que são coletados por amostras. Deixemos então a teoria de lado, pois ela bonita e do ponto de vista matemático muito bem estruturada a ponto de receber o Nobel por diversos pesquisadores.

Se essa é só a porta do inferno, cadê o diabo? A simulação computacional é uma técnica fabulosa para extrair o máximo do computador e estatisticamente construir dados sintéticos muito próximos da realidade. Mas para a simulação, os algoritmos (regras para o computador obedecer) devem ser perfeitos. Esses sim, não podem de forma alguma oferecer dúvidas ou erro. Quem trabalha com curvas de risco, está mais do que experiente em fazer escolhas de ativos usando o famoso Excel da Microsoft.

O teste que apresento agora é espantoso, mas não novo. Quando se simula no computador uma distribuição (curva de dados) de probabilidade, o gráfico conhecido como histograma das freqüências deve ser perfeito. Não se pode admitir erros muito fora da realidade, pois sua estratégia de investimento pode ser comprometida. Como um detetive, programamos o Excel para gerar dados muito simples, com média zero e desvio padrão (erro em torno da média) igual a um. A curva de sino da gaussiana, deve ser muito próxima, ou deveria. O comando aleatório do Excel na programação se chama RND ( que vem de random) e na planilha é o mesmo com o nome "Aleatório()".

A maneira mais rápida e simples de gerar esses dados é assim: 1- some 12 números RND. O resultado da soma subtrai-se 6, multiplique pelo desvio desejado e some a média desejada, assim: (soma-6)*desvio+média. 2-repita o passo um para outro número gaussiano. 3- termine o programa com quantos dados desejar.


Foram gerados 500 dados para cada gráfico ao lado (os histogramas) e repetidos experimentos pelo menos cinquenta vezes. A curva de sino deveria ser perfeita com a maior barra em zero. O que vemos é o retrato do diabo! Se repetido esse experimento quantas vezes desejar, os resultados e erros absurdos "sempre" aparecem. Numa das figuras observa-se que a média que o programa encontra está muito longe de zero e negativa em -0,26 quando deveria ser zero! No outro histograma tem-se uma curva conhecida como bi-modal, ou seja, dois valores mais frequentes quando deveria ser somente a maior barra em zero. Para comparar o resultado, o mesmo experimento foi feito em outro software, no caso o Matlab da mathmworks. A figura resultante está ao lado. Quase perfeito e muito aceitável, sem a caricatura do diabo onde a barra em zero é a maior de todas com desvio em um.


Com quem você deixa seu dinheiro? Com Deus ou com o diabo, não importa, mas sim com quem consegue enjaular o diabo, pois o dinheiro é seu e não dele.

 

 

 

 


 

Sexta-feira, 17 de Março, 2010