Análise de sentimentos do Twitter com Naïve Bayes e NLTK

Autores

  • Augusto Weiand Instituto Federal de Educação, Ciência e Tecnologia do Rio Grande do Sul - IFRS Campus Osório / Pontifícia Universidade Católica do Rio Grande do Sul - PUCRS http://orcid.org/0000-0003-0117-1613
  • Fernanda Rodrigues Ribeiro Weiand Secretaria da Educação - Governo do Estado do Rio Grande do Sul

DOI:

https://doi.org/10.35819/scientiatec.v4i3.2188

Resumo

Este artigo propõe um algoritmo de análise de sentimentos dos tweets do microblog Twitter,
utilizando o modelo probabilístico de Naïve Bayes, de modo a classificá-los em positivos ou negativos.
Foram utilizados os dados pré-analisados de Sanders (2011) para a construção do corpus e posterior
aplicação da análise e validação cruzada. Após, demonstramos o desenvolvimento do algoritmo
seguindo a metodologia estudada nos artigos relacionados, utilizando, também, as bibliotecas NLTK e
Scikit-Learn para o auxílio na aplicação do algoritmo com a linguagem de programação python,
medidas de acurácia e validação cruzada dos dados. Neste momento da pesquisa, foi possível obter
um índice acurácia relativamente alto, de 91% no dataset mencionado. Organizamos este artigo em
sessões que abordam os trabalhos relacionados, a metodologia utilizada, o sistema de coleta de dados,
a biblioteca NLTK, o modelo probabilístico Naïve Bayes e, por fim, os resultados e os trabalhos futuros,
nesta ordem.

Downloads

Publicado

2018-04-24