Um erro constante também é um acerto

Eu tenho uma esteira ergométrica com defeito. Ela funciona normalmente, mas o visor não marca a velocidade corretamente. Geralmente, eu caminho a 6 km/h, mas o visor marca 4,5 km/h quando eu ando em minha velocidade de cruzeiro. Vou jogar fora a esteira por causa disso? Claro que não. O visor não deixa de ser útil, mesmo marcando errado. Basta saber que há um erro e adotar um “coeficiente de correção”. Assim, quando a velocidade está em 4,5, sei que cheguei a 6,0 km/h. E vida que segue.

Um medidor é bom quando acerta, mas também é bom quando erra de maneira não aleatória. Um medidor que sempre erra para cima ou para baixo de maneira constante é tão bom quanto um medidor que acerta, pois sabemos, uma vez conhecido o erro, quanto devemos corrigir a leitura para chegar na medida correta.

Nesse sentido, as pesquisas do IPEC são úteis. Dado que os seus erros não foram aleatórios na maioria das vezes, basta corrigir o seu resultado para chegar em uma medida mais próxima da realidade. Por exemplo, na véspera do 1o turno, o instituto indicava 14 pontos de diferença entre Lula e Bolsonaro. Como sabemos, a diferença foi de 5 pontos.

Assim, usando uma regrinha de três simples, se a diferença medida pelo mesmo instituto está agora em 9 pontos, podemos estimar a real diferença como algo em torno de 3 a 4 pontos. Aliás, é essa diferença que vem sendo apontada por outros institutos que se aproximaram melhor do resultado final do que o IPEC.

Por fim, há jornalistas, como Maria Cristina Fernandes, do Valor, para quem o erro do IPEC não existiu. Continua analisando os números como se nada tivesse acontecido. O IPEC, assim como o DataFolha, são o “padrão ouro” das pesquisas, e se a medição não bate com a realidade, dane-se a realidade. Seria cômico se não fosse ridículo.

A questão da transparência das pesquisas eleitorais

Sobre a polêmica das pesquisas eleitorais, a melhor sugestão, na minha opinião, veio do professor do Instituto de Matemática e Estatística da USP, Alexandre Patriota: transparência.

Muitas vezes saí frustrado na busca de detalhes de pesquisas. Por exemplo, informações sobre cortes específicos do DataFolha eram publicados na imprensa, mas o acesso ao dado bruto para conferir não era disponibilizado. A manchete era a mesma em vários veículos, ficando claro que sua fonte era um press release do próprio DataFolha, e não o resultado de uma análise do próprio veículo. E, como sabemos, quem faz a manchete faz a notícia.

O deputado Ricardo Barros, ontem, defendeu uma legislação para punir os “erros” dos institutos. O problema de uma legislação desse tipo é definir o que vem a ser “erro”. Uma coisa é o papo de bar ou na rede social. Outra coisa é definir de maneira precisa na legislação. Creio que uma legislação muito mais eficiente estaria na linha sugerida pelo professor do IME: obrigar os institutos a divulgarem detalhes de suas metodologias amostrais, além dos dados brutos, de forma que investigadores pudessem reconstruir os resultados de forma independente.

A CVM exige que as empresas de capital aberto publiquem uma série de informações de maneira padronizada, tomando muito cuidado para que todos os players tenham as mesmas informações ao mesmo tempo. Assim, analistas podem ter acesso aos dados para chegar a conclusões sobre a saúde das empresas de maneira independente da direção dessas mesmas empresas. Esse cuidado se justifica, dado que é a poupança de milhões de investidores que está em jogo.

No caso das pesquisas, está em jogo o futuro de todos os brasileiros, e o cuidado deveria ser ainda maior. Uma legislação que exigisse um nível mínimo de transparência e padronização das informações por parte dos institutos já seria um grande avanço.

Breves notas sobre as eleições

1) Os institutos de pesquisa são os grandes perdedores dessa eleição. As consideradas “padrão ouro” se provaram “padrão estrume”. Ainda vou fazer um levantamento mais sistemático dos erros, mas não precisa ser estatístico para isso, são visíveis a olho nu. A conclusão é de que talvez seja melhor mesmo contar motos em motociatas do que olhar os números das pesquisas.

2) Fernando Gabeira, na Globo News, com sua usual honestidade intelectual, reconheceu que o conservadorismo é uma força política a ser considerada na equação da democracia brasileira. Ele confessou que subestimou essa força em suas análises.

3) Bolsonaro chega ao 2o turno com moral muito mais elevado do que seu adversário. Isso, no entanto, não torna sua vida mais fácil. Faltaram apenas 1,7% dos votos para Lula ganhar no 1o turno. Ele ficou muito perto da vitória. Bolsonaro, para ganhar, precisa virar votos do próprio Lula, não basta conquistar os eleitores de Ciro e Tebet. Não é uma missão impossível, mas é bem difícil.

4) Janaína Paschoal teve 450 mil votos, menos de 1/4 do que obteve em 2018. Quando escrevi aqui que ela errou completamente o timing de sua candidatura ao senado, muitos se revoltaram, afirmando que iriam votar na deputada. Infelizmente, Janaína perdeu o tempo da política.

5) Tiririca teve apenas 70 mil votos, uma sombra do que já teve no passado. Foi eleito pelo quociente eleitoral. Ele, que já foi puxador de votos, dessa vez foi puxado.

Indício de problema de amostragem

Essa é a pesquisa DataFolha para a eleição de São Paulo, publicada há cerca de uma semana, mostrando Fernando Haddad com uma frente significativa (11 pontos percentuais) sobre a soma de seus dois principais adversários.

Mas o que realmente me chamou a atenção foi a pontuação obtida por candidatos de partidos nanicos de extrema esquerda. Na soma, os candidatos de UP (!), PCB, PSTU e PCO somam 6 pontos percentuais, mais da metade da pontuação do atual governador. Mais ainda, cada um deles têm pontuação igual ou maior do que candidatos de partidos maiores e com mais exposição pública, caso de Elvis Cezar (PDT) e Vinicius Poit (Novo).

Não sou daqueles que duvidam da boa fé dos institutos de pesquisa. No entanto, neste caso, simplesmente não é possível que a amostra usada pelo DataFolha reflita minimamente o perfil da população de São Paulo. Não tem explicação que candidatos de partidos que costumam marcar traço nas eleições tenham esse montante de intenção de votos, inclusive antes do início da campanha eleitoral.

Essa distorção não teria importância alguma se se limitasse aos candidatos nanicos. Mas podemos deduzir, pela lógica, que, se o perfil da pesquisa está enviesado para a esquerda, então Haddad apresenta uma quantidade menor de intenções de voto do que a que é mostrada nessa pesquisa. E mais, se a mesma metodologia de construção de amostras está sendo usada na eleição nacional, então a diferença entre Lula e Bolsonaro talvez não seja tão grande quanto a que mostra a pesquisa DataFolha.

É normalmente difícil identificar problemas de amostragem nas pesquisas, pois não sabemos o perfil real da população depois de 12 anos do último censo. Mas esse detalhe dos candidatos de partidos de esquerda nanicos em São Paulo pode ser um forte indício de que há problemas no DataFolha.

Estou confuso

Estou pensando em votar nulo em um segundo turno entre o Nine e o Bozo.

Bolsonaristas me dizem que, ao votar nulo, estarei ajudando a eleição de Lula.

Mas estes mesmos bolsonaristas não acreditam nas pesquisas e, com base em sua própria experiência, afirmam que Bolsonaro está na frente e vai vencer a eleição.

Mas, se Bolsonaro está na frente, então meu voto nulo, na verdade, irá ajudar a eleger Bolsonaro.

Estou confuso.

O que nos diz a pesquisa Datafolha

A pesquisa Datafolha publicada hoje está dando o que falar. Não é à toa: Lula aparece com 48% das intenções de voto, indicando vitória já no 1o turno, 21 pontos à frente de Bolsonaro. É a maior pontuação de Lula desde o início do ano, e a maior diferença desde fevereiro, quando uma pesquisa da Genial/Quaest apontou diferença de 22 pontos.

Mas vamos analisar um pouco mais. O gráfico abaixo mostra o acompanhamento de todas as pesquisas publicadas desde o início do ano (total de 44 pesquisas até o momento). Cada ponto representa uma pesquisa, e a linha continua é a média das pesquisas feitas nos últimos 15 dias. A ideia é pegar a tendência de curto prazo.

Podemos observar que o número do Datafolha não muda a tendência para Lula de maneira relevante, que já vinha oscilando entre 40 e 45 pontos desde o início do ano, e continua lá. Seria necessário que outras pesquisas confirmassem o Datafolha para mostrar uma tendência de crescimento.

Também para Bolsonaro, que vem oscilando entre 30 e 35 pontos desde a desistência de Moro, o Datafolha não mudou de maneira relevante a tendência. Assim como para Lula, seria preciso que outras pesquisas confirmassem a tendência.

Até o momento, a única mudança relevante no quadro eleitoral foi a desistência de Moro, que fez com que Bolsonaro saltasse da faixa de 25-30 para 30-35 pontos, enquanto “Outros” (já sem Moro) recuou de 20 para 15 pontos. E é sob este prisma que gostaria de analisar essa pesquisa do Datafolha.

A última pesquisa Datafolha foi feita no dia 22/03, antes, portanto, da desistência de Moro. Até o momento, como vimos, todas as pesquisas mostraram uma migração de votos de Moro para Bolsonaro. Estranhamente, não foi o que aconteceu no Datafolha, em que “Outros” emagreceu de 21 para 13 pontos, mas esses pontos migraram para Lula, que subiu de 43 para 48 pontos. Não faz muito sentido, e vai contra todas as outras pesquisas do último mês.

Também ainda não consegui a abertura da pesquisa para ver onde Lula cresceu, assim que conseguir complemento essa análise.

De qualquer forma, valem duas observações:

1) É preciso acompanhar as pesquisas de outros institutos para ver se o Datafolha é um outlier ou uma mudança de tendência e

2) Pesquisa em maio ainda é recall, estamos longe da campanha eleitoral propriamente dita. Obviamente, significa que, se a eleição fosse hoje, Lula estaria eleito. Mas a eleição não é hoje, é daqui a 5 meses. E 5 meses são uma eternidade.

Enquete não é pesquisa

Reza a lenda que Rodrigo Constantino é economista. Como todo economista aprende na faculdade, existe um negócio chamado “amostragem”, em que se procura aferir as características de uma população a partir de uma amostra dessa mesma população, de modo a reproduzir as características da população como um todo.

Em pesquisas eleitorais, procura-se reproduzir na amostra as características de gênero, idade, região, renda, escolaridade, etc da população como um todo. Dessa forma, tenta-se aproximar o melhor possível as características da população como um todo. Óbvio que a amostragem sempre será imperfeita, por isso temos a chamada “margem de erro”.

Pode-se questionar o método de amostragem ou mesmo a boa fé desse ou daquele instituto de pesquisa. Mas Constantino inovou, ao declarar que enquete é muito melhor do que pesquisa por amostragem para aferir a preferência do eleitorado.

Vou procurar dar um exemplo do absurdo da ideia. Imagine que você tem dois sacos com 100 bolas cada uma. Um dos sacos só tem bolas vermelhas e o outro só tem bolas brancas, mas você não sabe disso de antemão. A única coisa que você sabe é que as bolas não foram distribuídas aleatoriamente entre os sacos. Ou seja, pode haver proporções diferentes de bolas vermelhas e brancas a depender do saco. A sua missão é tentar descobrir a proporção de bolas vermelhas e brancas que existem na soma dos dois sacos.

O método científico indica que você deveria tirar um número igual de bolas de cada um dos dois sacos, pois os dois sacos têm o mesmo número de bolas (100). A estatística mostra que, após um número relativamente reduzido de bolas retiradas de cada saco, é possível saber com razoável precisão qual a proporção de bolas vermelhas e brancas nos dois sacos.

Constantino teve uma ideia diferente. Ele propõe tirar todas as bolas de um saco só. A ideia é de que, como serão muitas bolas retiradas, o resultado será muito mais confiável. Ora, não precisa ser um gênio da estatística para sacar que, a depender do saco escolhido, a conclusão será de que existem 100% de bolas vermelhas ou 100% de bolas brancas, o que está muito longe da realidade.

Esta é a diferença entre enquete e pesquisa. Na pesquisa, toma-se o cuidado de escolher uma amostra que represente a população. Na enquete, por outro lado, qualquer um vota. Por maior que seja o número de votantes, parece óbvio que não há compromisso algum com uma amostra representativa da população. Corremos o risco de tirar todas as bolas de um mesmo saco.

No caso específico da enquete que dá ampla vantagem a Bolsonaro, quem tende a votar é quem frequenta as redes sociais. Sabemos que este é um terreno dominado por Bolsonaro, que tem mais seguidores do que todos os seus competidores somados. Ocorre que esta é uma amostra enviesada da população. Segundo todas as pesquisas com amostragem corretamente estratificada, Lula lidera com folga no estrato com renda até dois salários mínimos, que tende a ter menor presença na internet. Em resumo, a enquete tende a tirar bolas somente de um dos sacos. Portanto, por mais bolas que sejam retiradas, não representa a proporção correta de votos.

Constantino sabe disso, ele é um bom economista. Uma pena ter enterrado sua carreira de maneira tão melancólica.

PS.: no final, Bolsonaro até pode ganhar as eleições, há toda uma campanha pela frente, e pesquisa é um retrato do momento, não quer dizer nada sobre o que vai acontecer daqui a 5 meses. Isso não significa, porém, que enquete seja melhor que pesquisa por amostragem para aferir a proporção de intenção de voto da população. Não se trata de opinião, isso é matemática.

A falta de demanda pela terceira via

Dada a largada para a análise de pesquisas eleitorais nessa página. Se você é daqueles que não acreditam em pesquisas eleitorais, não perca o seu e o meu tempo, simplesmente ignore. Aqui, como fiz em 2018, procuro entender as grandes tendências e chamar a atenção dos leitores para coisas que me chamaram a atenção.

O gráfico abaixo mostra todas as pesquisas publicadas neste ano, por ordem cronológica. Cada instituto tem sua metodologia de amostragem, então é natural que gerem resultados diferentes. Mas é possível derivar um certo padrão.

Lula lidera em todas as pesquisas, com intenções de voto entre 40% e 45%. Bolsonaro, igualmente em todas as pesquisas, segue em 2o lugar, com intenções de voto entre 25% e 30%. A menor diferença está na pesquisa da Paraná (40 x 30), enquanto todas as outras mostram distâncias maiores.

Mas é para o grupo “Outros” que eu gostaria de chamar a atenção. Em todas as pesquisas, este grupo perde de Bolsonaro. Ou seja, todos os outros candidatos não conseguem somar a intenção de voto em Bolsonaro. Fiz questão de plotar a intenção de voto estimulada, para não ter a desculpa de que o pesquisado não lembrou de algum candidato em que poderia votar. Estão todos listados, então a pessoa escolheu Lula ou Bolsonaro tendo como opção um terceiro nome na lista.

Houve um certo desalento essa semana com a chamada “terceira via”, depois da desistência fake de Dória e da desistência “no momento” de Moro. A grande premissa da terceira via é a união em torno de um único nome que pudesse desbancar um dos dois candidatos que estão na ponta, que hoje seria Bolsonaro. Ocorre que, mesmo na remotíssima possibilidade de que essa unificação ocorresse e que todos os que dizem votar em algum candidato que não Lula/Bolsonaro votassem nesse candidato único, o que as pesquisas dizem HOJE é que este candidato único não tiraria o lugar de Bolsonaro.

Para que houvesse alguma chance de a terceira via decolar, precisaríamos estar vendo, neste momento, uma maior dispersão de intenção de votos entre os candidatos, de modo que um eventual nome único não precisasse carrear 100% dos votos dos candidatos que desistissem para ocupar a 2a vaga no segundo turno, pois isso não vai acontecer.

Eliane Catanhêde termina sua coluna de hoje no Estadão com a seguinte frase: “Há uma desesperada demanda pela terceira via no eleitorado, mas as lideranças políticas são incapazaes de oferecer o produto”. Bem, não sei onde a colunista está vendo essa “demanda desesperada por uma terceira via”. O que eu estou vendo, olhando as pesquisas dos mais diversos institutos, é que o eleitor escolhe Lula ou Bolsonaro, MESMO TENDO OUTRAS OPÇÕES NO CARDÁPIO. Ou seja, a tal demanda parece ser mais um desejo do que uma realidade.

Claro, tudo sempre pode mudar, treino é treino, campanha é campanha, e o imponderável futebol clube sempre pode dar as caras. Mas o retrato de hoje do mercado eleitoral é demanda e oferta se encontrando em um ponto insuficiente para romper a polarização entre Lula e Bolsonaro.

Pesquisas eleitorais

À esquerda, temos uma pesquisa do Datafolha em 13/07/2016 para a prefeitura de São Paulo. À direita, a pesquisa do Ipespe para o governo de São Paulo, publicada hoje.

Como sabemos, Doria ganhou aquela eleição em 1o turno, feito nunca antes conquistado por nenhum prefeito de São Paulo. Isso só para dizer que, se pesquisa a 3 meses das eleições não significa nada, quanto mais a 6 meses.

Análise da pesquisa Ibope

Pesquisa Ibope. Bolsonaro parece ter estacionado nos 28, mesmo nível da pesquisa anterior. Haddad continuou subindo, de 19 para 22. Os outros variaram de 31 para 32, de modo que Haddad subiu às custas da diminuição dos não-votos (brancos, nulos, indecisos). Ou seja, a transferência de Lula continua. Ainda temos 18% de não-votos.

Na véspera do 1o turno de 2014, o não-voto totalizava 12%. Se o mesmo padrão for seguido, e 100% dos não-votos continuarem a migrar para Haddad, o candidato do PT poderia chegar a 28, mesmo percentual de Bolsonaro.

Vamos ver a clivagem “direita x esquerda” que venho mostrando aqui. Isso, em tese, daria um “cheiro” do que poderia ser o voto útil no 1o turno, ou mesmo a votação do 2o turno.

Na “direita” estão classificados Bolsonaro, Alckmin, Amoêdo, Alvaro, Meirelles, Daciolo e Eymael. Na esquerda, Haddad, Ciro, Marina, Boulos, Vera e Goulart. Obviamente, trata-se de uma simplificação grosseira, muitos eleitores do Alckmin vão votar no Haddad, assim como uma parcela não desprezível dos eleitores do Ciro podem votar no Bolsonaro. Enfim, é tão chute quanto qualquer outro exercício que se faça.

Podemos observar que a “direita” perdeu 0,5 ponto, enquanto a “esquerda” ganhou quase 2 pontos, principalmente vindos dos indecisos (lembrando que esse exercício considera somente os votos válidos). É o mesmo movimento que vimos acima: Haddad ganhando votos dos indecisos.

Não vemos ainda as candidaturas nanicas e as do pelotão do meio perdendo votos, a não ser Marina, que deve ter doado muitos votos para o Haddad. Este movimento específico parece estar no fim. Como disse acima, para crescer, Haddad precisa agora continuar recebendo votos dos antigos eleitores de Lula. E Bolsonaro, para crescer, precisa começar a roubar votos de outros candidatos da “direita”.