Machine Learning

5 aplicações práticas para tarefas de Mineração e Classificação de textos

25 de agosto de 2017
5 aplicações práticas para tarefas de Mineração e Classificação de textos

Textos estão em todo lugar. São posts de blog, comentários em redes sociais, logs de manutenção de equipamentos, mensagens de aplicativos como o WhatsApp, registros médicos, registros de compras e de descrição de produtos, feeds do Twitter, e de muitas outras fontes. Estamos falando de uma verdadeira “avalanche” na forma de textos não estruturados.

No interior dessa “avalanche” se encontra um verdadeiro tesouro, uma vez que todos estes dados “contam histórias”, revelam tendências e constituem-se num guia para a criação de inteligência de negócios e pensamento estratégico. Não importa o setor, os dados revelam segredos que você sequer sabe que existem.

Se você parar para refletir sobre o que estamos vivendo hoje no mundo da tecnologia e do entretenimento, por exemplo, chegará a uma conclusão irrefutável: aqueles que estão conseguindo extrair o valor e o significado latente em grandes conjuntos de dados estão construindo verdadeiros impérios. Basta ver Netflix e Amazon com seus sistemas de recomendações sempre oportunos; o Spotify que, baseado nos termos que nós digitamos no campo de busca e combinado-os com algumas outras métricas, consegue compreender bem quais são os nossos gostos, que artistas gostamos de seguir, que tipo de ritmo nós apreciamos e qual será o próximo grande sucesso a sacudir o mundo da música. Perceba que, com base em dados essencialmente textuais, eles conseguem personalizar toda a nossa experiência com o aplicativo.

Nas próximas linhas, vou listar cinco situações interessantes onde a aplicação de técnicas de mineração e classificação de textos pode se constituir numa ferramenta bastante útil.

Mineração de opinião

Você acabou de lançar um produto novo no mercado e isto gerou “barulho” em vários cantos da internet. Comentários no Twitter, reviews em blogs, comentários na Fanpage da sua empresa, etc. Você precisa saber qual é o índice de aceitação do seu produto, de modo que possa melhorá-lo constantemente ao longo do tempo. Que maneira melhor de obter esta métrica do que baseado nas opiniões daqueles que realmente o estão utilizando? A mineração de opinião é uma técnica de classificação de texto que permite descobrir qual é o “sentimento” do público em relação ao seu produto. Técnicas de aprendizado de máquina aplicadas nesses dados permitirão analisar e classificar todas as centenas e milhares de opiniões existentes e fornecer insights a respeito da aceitação do seu produto ou da percepção da sua marca (qual foi o índice de reprovação?); são estes insights que orientarão suas próximas decisões.

Respostas rápidas em situações tensas

Imagine que você tenha uma empresa de hospedagem de sites e o site de um de seus clientes saiu do ar. O cliente entra em pânico e, insatisfeito com a demora para ser atendido, posta uma mensagem no Twitter demonstrando todo o seu descontentamento com o produto e/ou serviço oferecido pela sua empresa. Um algoritmo de machine learning conseguiria identificar este texto, classificar a sua polaridade e, com base neste resultado, emitir um alerta para o seu setor comercial, ou suporte técnico, ao mesmo tempo em que responde ao comentário do seu cliente e define o nível de prioridade para o ticket que será aberto.

Prevenção de falhas em equipamentos

Todo equipamento operável precisa de manutenção. É importante que a manutenção seja sempre realizada de maneira planejada, em horários onde o uso do equipamento pode ser dispensado. A manutenção preditiva, ou ainda a preventiva, são sempre preferíveis em relação à manutenção corretiva, que gera custos maiores, para não dizer que leva a prejuízos.

Então, podemos concluir que prever falhas em equipamentos é tarefa essencial – um maquinário parado em virtude de falhas representa um gargalo na produção, e gargalos é tudo o que você quer evitar. A análise preditiva de falhas normalmente se baseia em logs de manutenção gerados ao longo do tempo pelo pessoal responsável por fazer reparos nestes equipamentos. Estes arquivos de logs correspondem a entradas de texto, onde normalmente está implícito os componentes do equipamento e as falhas associadas a cada um deles.

Por meio de técnicas de mineração de texto, processamento de linguagem natural e análise semântica, será possível extrair informação útil destes arquivos de texto. O conhecimento obtido a partir destas fontes de informação será suficiente para detectar falhas em potencial bem antes de elas ocorrerem, de modo que seja possível providenciar a manutenção do equipamento em tempo hábil e programado.

Detecção de fraudes em cartão de crédito

Imagine a seguinte situação, presumindo que seja atípica: Num dia de sábado qualquer, às 23:00, você fez uma compra num site de ecommerce qualquer, mas teve que passar pela experiência desagradável de ter a compra negada pela empresa do cartão de crédito. Não houve motivo aparente, considerando que havia limite de crédito o suficiente para a conclusão da compra. Você entra em contato a empresa do cartão e recebe a notícia de que a sua compra foi bloqueada por motivos de segurança, por se tratar de uma situação incomum, já que você não costuma fazer compras em sites de ecommerce naquele horário – poderia ser um hacker, ou outra pessoas não autorizada a utilizar o seu cartão de crédito.

Tudo isso foi feito automaticamente por meio da aplicação de algoritmos de aprendizado de máquina. Com base na análise de dados históricos referentes às suas compras, o algoritmo analisa a situação e calcula o risco envolvido; se a probabilidade de fraude for elevada, o bloqueio é feito imediatamente. Bom saber que existe este tipo de proteção, não acha?

E o interessante exemplo da Target

A empresa Target foi capaz de sair na frente dos seus concorrentes e gerar vendas de artigos para bebês nos momentos mais oportunos, porque fora capaz de prever quando suas clientes estariam grávidas, baseado na análise de dados históricos. Se uma mulher estivesse grávida, a tendência é que ela adquirisse todo um conjunto de artigos relativos àquela situação: Mamadeiras, berço, roupinhas, fraldas, etc. Tratava-se de uma grande oportunidade de vendas, e a empresa soube aproveitar. De posse de informação tão valiosa, a Target conseguia se antecipar em relação aos concorrentes e gerar as vendas de que precisava.

Chegou ao ponto de descobrir que uma adolescente estava esperando um bebê, antes mesmo de o pai da garota descobrir. Irritado, o pai da jovem se dirigiu até uma das lojas e exigiu saber porque a sua filha recebeu uma mala direta contendo cupons para a compra de artigos para bebês, sendo que a garota ainda estava no ensino médio.

Algum tempo depois, o homem entrou em contato com a loja:

“Tive uma conversa com minha filha. Pelo jeito estão acontecendo coisas nesta casa das quais eu não estava totalmente ciente. Ela vai ter o filho em agosto. Eu lhe devo um pedido de desculpas.”

Isto foi notícia em vários veículos de informação no ano de 2012.

Diante de tudo isso, é preciso ter em mente que extrair valor e conhecimento a partir de grandes volumes de dados não é uma tarefa trivial, principalmente porque nem sempre estes dados estão bem estruturados e no formato adequado. Antes de aplicar as técnicas necessárias para fazer as previsões que orientarão a tomada de decisões importantes, estes dados precisam ser previamente “limpos” e livres de “ruídos” que possam impedir a descoberta de informações úteis. Mas, isto é assunto para uma outra oportunidade :-).

Like

Veja também