Engenharia De Sprout

Análise de sentimento 101: Como a equipe de ciência de dados da Sprout construiu um modelo híbrido

Como qualquer pessoa que já esteve em um relacionamento irá lhe dizer, as emoções humanas são um conceito complicado. Isso é especialmente verdadeiro para profissionais de marketing que estão tentando compreender os benefícios qualitativos - o valor que vai além da funcionalidade básica - de seu produto ou serviço. Não é difícil entender o que seu produto faz, mas você sabe como isso faz seus consumidores se sentirem?

Você faria se usasse a análise de sentimento de escuta social para destilar as reflexões não filtradas das mídias sociais de seu público-alvo em insights estratégicos acionáveis. Pegando todo o dados sociais disponíveis no Twitter e categorizá-lo como sentimento positivo, negativo ou neutro é uma tarefa importante, e não há dois métodos iguais. É por isso que o HASHTAGS construiu um sistema de análise de sentimento híbrido que combina as duas abordagens principais, listas de regras e aprendizado de máquina.

Listas de regras

Uma das maneiras mais simples de lidar com a análise de sentimento é usando regras ou dicionários criados por humanos. Com essa abordagem, o sistema conta com uma lista de palavras ou frases que mapeiam diretamente para um sentimento específico. Por exemplo, qualquer Tweet que contenha a palavra “high five” pode ser rotulado como positivo, enquanto um Tweet contendo “horrível” seria negativo. Sistemas como esse são altamente personalizáveis e podem ser estendidos para incluir milhares de regras de palavras e frases.

Por outro lado, os sistemas de regras lutam com Tweets que correspondem a regras conflitantes, como “O filme não foi tão horrível quanto eu esperava”. Aqui, “horrível” pode ser rotulado como negativo, enquanto “antecipado” seria positivo. As regras conflitantes rotulam o Tweet como neutro, enquanto alguns leitores humanos o interpretam como ligeiramente positivo e outros, ligeiramente negativo.

Uma limitação adicional dos sistemas baseados em regras é a confiança no esforço e compreensão humanos. A linguagem evolui rapidamente (especialmente no Twitter), e um sistema baseado em regras requer que alguém forneça um fluxo constante de novos termos e frases. Atualizar um sistema de sentimento nem sempre é uma prioridade e um sistema pode ficar desatualizado rapidamente. Mesmo com monitoramento vigilante, pode ser difícil identificar as tendências de mudança do idioma e determinar quando novas regras precisam ser adicionadas.

Aprendizado de Máquina

Uso de sistemas de análise de sentimento mais avançados Aprendizado de Máquina (ML) técnicas (às vezes também chamadas de Inteligência Artificial ou Processamento de linguagem natural ) O aprendizado de máquina é uma família de técnicas que usa estatísticas e probabilidade para identificar padrões complexos que podem ser usados para rotular itens.

anjo número 646

Ao contrário dos sistemas baseados em regras, os sistemas de ML são flexíveis o suficiente para detectar semelhanças que não são imediatamente aparentes para um ser humano. Olhando para muitos, muitos exemplos, o sistema aprende padrões que são normalmente associados a sentimentos positivos, negativos ou neutros.

Por exemplo, um sistema de análise de sentimento de ML pode descobrir que os tweets que contêm a palavra “chuva” e terminam com um ponto de exclamação são negativos, enquanto os tweets com “chuva” e dois pontos de exclamação são positivos. Um ser humano pode não perceber esse padrão ou entender por que ele ocorre, mas um sistema de ML pode usá-lo para fazer previsões muito precisas.

Embora os sistemas de aprendizado de máquina possam produzir ótimos resultados, eles apresentam algumas deficiências. Quando há muita variedade no idioma, pode ser difícil para um sistema de ML filtrar o ruído para identificar padrões. Quando padrões fortes existem, eles podem ofuscar padrões menos comuns e fazer com que o sistema de ML ignore dicas sutis.

Abordagem de Sprout

Para construir nosso sistema de análise de sentimento, projetamos um sistema híbrido que combina o melhor das abordagens baseadas em regras e de aprendizado de máquina. Analisamos dezenas de milhares de Tweets para identificar os locais onde os modelos de ML lutam e introduzimos estratégias baseadas em regras para ajudar a superar essas deficiências.

Ao suplementar os modelos estatísticos com a compreensão humana, construímos um sistema robusto que funciona bem em uma ampla variedade de configurações.

Tudo sobre precisão

Superficialmente, a análise de sentimento parece bastante direta - basta decidir se um Tweet é positivo, negativo ou neutro. A linguagem e as emoções humanas são complicadas, porém, e detectar sentimentos em um Tweet reflete essa complexidade.

244 número do anjo amor

Considere esses Tweets. Eles são positivos, negativos ou neutros?

https://twitter.com/alex/status/917406154321420289

O cara acabou de pedir 6 doses de café expresso no Starbucks… SEIS. Freaking SEIS !!

- Simone Eli (@SimoneEli_TV) 31 de outubro de 2017

Você pode se sentir confiante em suas respostas, mas há boas chances de que nem todos concordem com você. A pesquisa mostrou que as pessoas só concordam com o sentimento dos Tweets 60-80% do tempo.

Você pode estar cético. Nós também.

Para testar, dois membros de nossa equipe de ciência de dados rotularam exatamente o mesmo conjunto de 1.000 tweets como positivo, negativo ou neutro. Descobrimos “trabalhamos com Tweets todos os dias; provavelmente teremos um acordo quase perfeito entre nós dois. '

Calculamos os resultados e os verificamos duas ou três vezes. A pesquisa foi exata - concordamos apenas com 73% dos Tweets.

Desafios na análise de sentimento

A pesquisa (junto com nosso pequeno experimento) mostra que a análise de sentimento não é direta. Por que é tão complicado? Vamos examinar alguns dos maiores desafios.

Contexto

Os tweets são um pequeno instantâneo no tempo. Embora alguns sejam independentes, os tweets costumam fazer parte de uma conversa contínua ou de informações de referência que só fazem sentido se você conhecer o autor. Sem essas pistas, pode ser difícil interpretar os sentimentos de um autor.

Eu também faço isso com colheres de café.

- Renée Barrow (@RmBarrow) 14 de outubro de 2017

Sarcasmo

A detecção de sarcasmo é outro sabor do desafio do contexto. Sem informações adicionais, os sistemas de análise de sentimento muitas vezes confundem o significado literal das palavras com a forma como se destinam. O sarcasmo é uma área ativa da pesquisa acadêmica, então podemos ver sistemas em um futuro próximo que entendam o snark.

Comparações

O sentimento também fica complicado quando os tweets fazem comparações. Se eu estiver conduzindo uma pesquisa de mercado sobre vegetais e alguém tweetar “Cenouras são melhores do que abóbora”, este tweet é positivo ou negativo? Depende da sua perspectiva. Da mesma forma, alguém pode twittar: “A Empresa A é melhor do que a Empresa B.” Se eu trabalhar para a Empresa A, este Tweet é positivo, mas se eu trabalhar para a Empresa B, é negativo.

Emojis

Emojis são uma linguagem própria . Enquanto emojis expressam um sentimento bastante óbvio, outros são menos universais. Ao construir nosso sistema de análise de sentimento, observamos atentamente como as pessoas usam emojis, descobrindo que mesmo emojis comuns podem causar confusão. é quase igualmente usado para significar 'tão feliz que estou chorando' ou 'tão triste que estou chorando'. Se os humanos não conseguem concordar sobre o significado de um emoji, nem um sistema de análise de sentimento pode.

21 o número

Definindo Neutro

Mesmo o sentimento 'neutro' nem sempre é direto. Considere a manchete de uma notícia sobre um evento trágico. Embora todos concordemos que o evento é terrível, a maioria das manchetes de notícias pretendem ser declarações factuais e informativas. Os sistemas de análise de sentimento são projetados para identificar a emoção do autor do conteúdo, não a resposta do leitor. Embora possa parecer estranho ver notícias terríveis rotuladas como 'neutras', isso reflete a intenção do autor de comunicar informações factuais.

Os sistemas de análise de sentimento também variam em como o neutro é definido. Alguns consideram neutro uma categoria abrangente para qualquer tweet em que o sistema não pode decidir entre positivo ou negativo. Nesses sistemas, “neutro” é sinônimo de “Não tenho certeza”. Na realidade, porém, existem muitos Tweets que não expressam emoção, como o exemplo abaixo.

Um 'Venti' normalmente tem duas doses de café expresso, mas este cliente pediu 14 https://t.co/jzOi93RRd9

- TAXI (@designtaxi) 30 de outubro de 2017

Nosso sistema classifica explicitamente os Tweets não emocionais como neutros, em vez de usar neutros como um rótulo padrão para Tweets ambíguos.

Avaliação da análise de sentimento

Com tantos desafios na análise de sentimento, vale a pena fazer sua lição de casa antes de investir em uma nova ferramenta. Os fornecedores tentam ajudar a eliminar as complexidades concentrando-se em estatísticas sobre a precisão de seus produtos. No entanto, a precisão nem sempre é uma comparação exata. Se você planeja usar a precisão como uma medida de medição, aqui estão algumas coisas que você deve perguntar.

A precisão relatada é superior a 80%?
Uma vez que os humanos concordam apenas uns com os outros 60-80% do tempo, não há como criar um conjunto de dados de teste que todos concordarão que contém os rótulos de sentimento 'corretos'. Quando se trata de sentimento, “correto” é subjetivo. Em outras palavras, não existe um padrão ouro para usar no teste de precisão.

O limite superior da precisão de um sistema de análise de sentimento sempre será um acordo de nível humano: cerca de 80%. Se um fornecedor afirma mais de 80% de precisão, é uma boa ideia ser cético. A pesquisa atual sugere que mesmo 80% de precisão é improvável; Os principais especialistas da área normalmente alcançam precisões entre meados e mais de 60 anos.

Quantas categorias de sentimento estão sendo previstas?
Alguns fornecedores avaliam a precisão apenas em Tweets que foram identificados por avaliadores humanos como definitivamente positivos ou negativos, excluindo todos os Tweets neutros. É muito mais fácil para a precisão de um sistema parecer muito alta ao trabalhar com tweets fortemente emocionais e apenas dois resultados possíveis (positivos ou negativos).

Na selva, no entanto, a maioria dos Tweets é neutra ou ambígua. Quando um sistema é avaliado apenas em comparação com o positivo e o negativo, é impossível saber o quão bem o sistema lida com Tweets neutros - a maioria do que você realmente verá.

Que tipos de tweets estão incluídos em seu conjunto de teste?
Um sistema de análise de sentimento deve ser construído e testado em Tweets representativos das condições do mundo real. Alguns sistemas de análise de sentimento são criados usando Tweets específicos de domínio que foram filtrados e limpos para tornar o mais fácil possível para um sistema entender.

Por exemplo, um fornecedor pode ter encontrado um conjunto de dados pré-existente que inclui apenas Tweets fortemente emocionais sobre a indústria aérea, excluindo qualquer spam ou Tweets fora do tópico. Isso faria com que a precisão fosse alta, mas apenas quando usado em Tweets muito semelhantes. Se você estiver trabalhando em um domínio diferente, ou receber tweets fora do tópico ou spam, verá uma precisão muito menor.

Qual era o tamanho do conjunto de dados de teste?
Os sistemas de análise de sentimento devem ser avaliados em vários milhares de Tweets para medir o desempenho do sistema em muitos cenários diferentes. Você não obterá uma medida real da precisão de um sistema quando ele for testado apenas em algumas centenas de Tweets.

Aqui no Sprout, construímos nosso modelo com base em uma coleção de 50.000 Tweets retirados de uma amostra aleatória do Twitter. Como nossos Tweets não são específicos de um domínio, nosso sistema de análise de sentimento tem um bom desempenho em uma ampla variedade de domínios.

Além disso, fazemos previsões separadas para categorias positivas, negativas e neutras; não apenas aplicamos neutros quando outras previsões falham. Nossa precisão foi testada em 10.000 Tweets, nenhum dos quais foi usado para construir o sistema.

Veja a análise de sentimento do Sprout ao vivo com os ouvintes

Toda a pesquisa do mundo não substitui a avaliação de um sistema em primeira mão. Dê ao nosso novo sistema de análise de sentimento um test drive dentro do nosso mais novo conjunto de ferramentas de escuta social, Ouvintes e veja como funciona para você. Em última análise, a melhor ferramenta de escuta social é aquela que atende às suas necessidades e ajuda você a obter maior valor do social. Deixe-nos ajudá-lo a começar hoje.

Compartilhe Com Os Seus Amigos:

significando número 2

Descubra O Seu Número De Anjo