-
Notifications
You must be signed in to change notification settings - Fork 0
/
chapter1.tex
30 lines (16 loc) · 5.75 KB
/
chapter1.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
\chapter{Introdução} \label{chap:intro}
Neste capítulo é feita uma introdução ao projeto desenvolvido no âmbito da dissertação com a apresentação do seu contexto, a motivação para o seu desenvolvimento, os objetivos a alcançar e a descrição da estrutura deste documento.
\section{Contexto}
As redes sociais são uma excelente fonte de informação sempre em atualização, que fornecem aos investigadores uma vasta quantidade e variedade de dados. Este dados apresentam-se de diferentes formas como texto, imagem ou mesmo vídeos. Esta informação está acessível através de API's disponibilizadas pelos próprios serviços, e pode ser assim utilizada para, por exemplo, realizar análise de sentimentos ou opiniões partilhadas através de texto por utilizadores da rede social Twitter~\cite{Pak2010, twitter}, ou mesmo para a descoberta de novas técnicas mais eficazes na pesquisa de imagens no serviço Flickr~\cite{flickr} utilizando anotações inseridas por utilizadores~\cite{Li2008}.
O Twitter faz parte do grupo de redes sociais existentes que mais informação produz todos os dias, sendo caracterizado como um serviço de microblogging, que permite aos utilizadores partilharem mensagens, designadas por tweets, até um máximo de 140 caracteres. Essas mensagens podem conter, para além de texto, imagens ou links para imagens de outros serviços, como por exemplo, o Instagram~\cite{instagram} ou o Twitpic~\cite{twitpic}. Ao contrário do que acontece com outras redes sociais como o Facebook~\cite{facebook} e Linkedin~\cite{linkedin} que utilizam uma rede de comunicação bi-direcional, o Twitter utiliza uma infraestrutura assimétrica onde existem \textit{"friends"} e \textit{"followers"}. Os \textit{"friends"} correspondem às contas das pessoas que o utilizador segue e os \textit{"followers"} às contas das pessoas que o seguem~\cite{Russell2011}.
O TweeProfiles~\cite{Cunha2013}, é uma ferramenta que tem como principal objetivo identificar padrões em mensagens escritas, partilhadas na rede social Twitter. Esta ferramenta utiliza técnicas de \textit{data mining}, mais precisamente de \textit{text mining}. A principal característica do TweeProfiles é o facto de utilizar a tarefa de \textit{clustering} para identificar padrões em mensagens partilhadas no Twitter, através do conteúdo das mensagens (o texto) e das dimensões espaço-temporais das mesmas.
\section{Motivação} \label{sec:motiv}
Devido ao grande número de utilizadores e de informação partilhada a todo o instante no Twitter, este torna-se um excelente serviço de recolha de dados, proporcionando aos investigadores e empresas uma quantidade e variedade de dados necessários para o desenvolvimento de ferramentas de análise de dados e extração de conhecimento.
As mensagens partilhadas no Twitter sobre a forma de texto têm sido uma das grandes fontes de dados utilizadas por muitas ferramentas como o TweeProfiles~\citet{Cunha2013}. No entanto, apesar de se tratar de uma rede social em que a maioria da informação disponível se encontra em forma de texto, o Twitter também permite a partilha de imagens a partir do seu próprio serviço, ou através de outros serviços como Twitpic ou Instagram. Estas imagens também podem ser utilizadas para a análise e extração de conhecimento, pois o seu conteúdo pode mesmo em muitos casos complementar o texto ou até mesmo, o substituir.
A análise de informação visual é assim um acréscimo importante para o desenvolvimento de ferramentas de extração de conhecimento das redes sociais.
\section{Objetivos} \label{sec:object}
Esta dissertação tem como principal objetivo a criação de uma extensão para o TweeProfiles através de técnicas de processamento de imagem e \textit{data mining}, que permita a identificação de padrões em imagens partilhadas no serviço de microblogging Twitter, através da identificação de \textit{clusters}.
Será assim necessário realizar a recolha dos dados alojados numa base de dados MongoDB~\cite{mongodb} criada através da plataforma Socialbus (anteriormente designada por TwitterEcho~\cite{Boanjak2012}). Esta plataforma consiste num projeto open source de desenvolvimento de uma ferramenta para extrair e armazenar tweets de uma determinada comunidade de utilizadores. Foi desenvolvido com o intuito de ajudar os investigadores a terem facilidade de acesso a uma base de dados de redes sociais, na sua maioria. Após recolhidos os dados será necessário o desenvolvimento de um módulo responsável pela recolha das imagens através do \textit{URL} existente nos tweets, do processamento da informação visual de modo a torná-la mais compacta e eficiente, e do armazenamento dessa informação. Por fim, a informação visual deverá ser integrada na ferramenta TweeProfiles, com objetivo de realizar o processo de \textit{Data Mining}, mais especificamente a tarefa de \textit{clustering} e desenvolver a aplicação para visualizar os \textit{clusters} nas diferentes dimensões.
\section{Estrutura do documento} \label{sec:struct}
Este documento está organizado da seguinte forma: o Capítulo~\ref{chap:estarte} descreve conceitos e trabalhos relacionados e apresentada uma pesquisa sobre os vários domínios científicos necessários para o desenvolvimento deste projeto de dissertação. No Capítulo~\ref{chap:chap3} é apresentado o modelo desenvolvido para a extração, processamento e armazenamento da informação visual. Já no Capítulo~\ref{chap:chap4} é descrita a ferramenta Olhó-passarinho e a integração do módulo desenvolvido para a informação visual com a ferramenta TweeProfiles. Para finalizar é apresentado o Capítulo~\ref{chap:concl} com um resumo do trabalho desenvolvido e discute o desenvolvimento deste projeto de dissertação com sugestões de trabalho futuro a realizar.
%Devo melhorar