UnBSense

Introdução

O projeto tem com proposito aplicar métodos de mineração de dados para coletar tweets em português de usuários no Twitter com seus conteúdos e atividades, pré-processá-los e extrair atributos para gerar 2 bases dados de 2 períodos (de forma anônima):

Pré-Pandemia (01/01/2018 a 31/12/2019);
Pandemia (01/01/2020 a 31/12/2021).

Essas bases são compostas de 15 atributos:

10 atributos da pesquisadora De Choudhury (literatura); e
5 novos atributos.

Objetivos

Usar as bases para elaborar modelos promissores capazes de detectar sinais de padrões de comportamentos depressivos ou não depressivos nos tweets.

Analisar se novos atributos induzidos nos modelos tem desempenho promissor em relação aos atributos da De Choudhury.

Analisar se houve aumento ou diminuição dos casos de depressão no Twitter entre a pré-pandemia e a pandemia COVID-19.

Disponibilizar as bases de dados.

Metodologia

Atributos

As bases são de composto de 15 atributos (1 a 10 da De Choudhury e 11 a 15 novos atributos) que descrevem o comportamento e atividade num usuário no Twitter:

Volume de Tweets. Quantidade de tweets postados;
Índice de Insônia. Relação de quantidade tweets postados no período da noite (21:00-6:00) pela quantidade tweets postados no período do dia (6:01- 20:59);
Estilo Linguístico na 1ª pessoa. Quantidade de palavras na 1ª pessoa do caso reto no singular e plural;
Estilo Linguístico na 2ª pessoa - Quantidade de palavras na 2ª pessoa do caso reto no singular;
Estilo Linguístico na 3ª pessoa - Quantidade de palavras na 3ª pessoa do caso reto do singular e plural [1];
Valência de Emoções. Cálculo da média de variância (estado emocional), usando-se a base de dados ANEW-BR \cite{kristensen_normas_2011};
Ativação de Emoções. Cálculo da média de ativação (reação emocional), usando-se a base de dados ANEW-BR \cite{kristensen_normas_2011;
Termos Depressivos. Cálculo da Media das palavras com valência menor que 4 (palavras negativas) usando a base de dados ANEW-BR \cite{kristensen_normas_2011;
Grafo Social. Quantidade de respostas de seguidores respondendo a um tweet;
Medicamentos Antidepressivos. Usando-se uma base de dados de medicamentos antidepressivos, calcula-se a frequência dos termos de medicamentos;
Caracteres Orientais. Quantidade de caracteres no intervalo unicode japonês, chinês e coreano.
Emojis. Quantidade de emojis no intervalo unicode de emojis;
Frequência de Links. Quantidade de links nos tweets;
Mídia. Quantidade de fotos, vídeos e gifs nos tweets;
Número de Curtidas. Quantidade de curtidas nos tweets.

Sumarização dos vetores de características

Cada um dos 15 atributos foi sumarização em 4 vetores características com objetivo de sintetizar as séries temporais em único registro, totalizando 60 atributos nas bases de dados. Os vetores são:

Frequência Média: A média da série temporal de um atributo durante todo o período de análise
Variância: A média da frequência média do quadrado do desvio médio da série temporal de um atributo ao longo de todo o período.
Média Móvel Ponderada: Tendência relativa de série temporal, em comparação com um período fixo anterior. Dada a série temporal acima, e um período de duração de M (= 7) dias.
Entropia: A medida de incerteza em uma série temporal.

Requirements

tweepy==3.10.0
snscrape
pandas
numpy
tqdm
unidecode
nltk
spacy
matplotlib
sklearn
xlrd
openpyxl
seaborn
matplotlib_venn
wordcloud
jupyter

Installing

Git:

git clone https://github.com/luanfreitas5/UnBSense.git
cd twint
pip install -r requirements.txt

Etapas para executar

Buscar Usuarios (depressivos e não depressivos) no Twitter - Multi-Threads
```
python main.py -m buscar
```
Coletar tweets de Usuarios (depressivos e não depressivos) no Twitter - Multi-Threads (processo demorado)
```
python main.py -m coletar
```
Mesclar datasets de tweets - Uma Thread
```
python main.py -m mesclar
```
Preparação de Textos nos tweets - Uma Thread
```
python main.py -m limpar
```
Extração de caracteristicas (atributos) - Uma Thread
```
python main.py -m atributos
```
Limpeza de Outliens - Uma Thread
```
python main.py -m qualidade
```
Calculo do vetores de caracteristicas - Uma Thread
```
python main.py -m vetores
```
Criar bases de dados
```
python main.py -m dataset
```
Plotar graicos de exploração de dados - Uma Thread
```
python main.py -m exploracao
```
Plotar graficos de exploração de dados - Uma Thread
```
python main.py -m exploracao
```
Criar base de textos para nuvem de palavras - Multi-Thread (processo demorado)
```
python main.py -m basetexto
```
Obter frequencia de palavras para nuvem de palavras - Multi-Thread
```
python main.py -m basetexto
```
Plotar nuvem de palavras - Uma Thread
```
python main.py -m nuvempalavras
```

Referências

Márcia Lima, Victor Valle, Estevão Costa, Fylype Lira, and Bruno Gadelha, "Software Engineering Repositories: Expanding the PROMISE Database", Proceedings of the XXXIII Brazilian Symposium on Software Engineering (SBES 2019), Association for Computing Machinery, 427–436. DOI: 10.1145/3350768.3350776

Name		Name	Last commit message	Last commit date
Latest commit History 31 Commits
aprendizagemMaquina		aprendizagemMaquina
datasets		datasets
docs		docs
metodologia		metodologia
pipeline		pipeline
processamentoLinguagemNatural		processamentoLinguagemNatural
snscrapeApp		snscrapeApp
utilitarios		utilitarios
.gitignore		.gitignore
Artigo PIBIC.pdf		Artigo PIBIC.pdf
LICENSE		LICENSE
Monografia_TCC.pdf		Monografia_TCC.pdf
README.md		README.md
main.py		main.py
metodologia.png		metodologia.png
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

UnBSense

Table of Contents

Introdução

Objetivos

Metodologia

Atributos

Sumarização dos vetores de características

Requirements

Installing

Etapas para executar

Referências

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

UnBSense

Table of Contents

Introdução

Objetivos

Metodologia

Atributos

Sumarização dos vetores de características

Requirements

Installing

Etapas para executar

Referências

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages