Este trabalho prático teve como objetivos o desenvolvimento de dois módulos, um Bloom Filter e uma MinHash, de modo a descobrir itens que sejam semelhantes, usando-os numa aplicação para a resolução de um problema concreto. O problema escolhido assenta no processamento de reviews de jogos que deverá garantir, no mínimo, o reconhecimento se um dado jogo tem reviews (e quantas), e determinar reviews semelhantes. Foi ainda desenvolvido um módulo adicional, o Algoritmo LSH, com o objetivo de diminuir o tempo de execução na verificação de similaridades entre dados. Desta forma, e tendo em conta o tema do trabalho, foi usado um dataset que contém, além de várias informações acerca de um certo jogo nesse conjunto de dados, as reviews e informações destas.
Estas instruções vão ajudar a executar os programas desenvolvidos.
Para compilar o programa é recomendada a utilização de um IDE como, por exemplo, o Eclipse. É também necessária a utilização do Java toolkit JSON.simple, que se encontra no repositório, de maneira a facilitar a descodificação do ficheiro JSON.
Para executar o programa é necessária a compilação e execução do ficheiro Main.java.
É possível encontrar todos os detalhes no Relatório do Trabalho.
Devido à escassez de tempo perante a data limite de entrega, alguns aspetos não-chave do trabalho acabaram por não ser trabalhados:
- Otmimização
- Organização e Estruturação mais clara
- Hugo Paiva de Almeida - 93195
- Mário Silva - 93430
Classificação obtida de 18 valores em 20.