PageRankCluster

This application would run on an HDFS cluster and output a list of webpages ranked in order of their calculated pageranks. The crawled data would be used from common crawl repository on AWS. The project uses Apache Spark's GraphX API. The sample input files are taken from hyperlink graph provided by Web Data Commons at http://webdatacommons.org/hyperlinkgraph/

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
JavaPR		JavaPR
input		input
scalaPR		scalaPR
README.md		README.md
spark-launch-script		spark-launch-script

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

PageRankCluster

About

Releases

Packages

Contributors 2

Languages

gohilankit/PageRankCluster

Folders and files

Latest commit

History

Repository files navigation

PageRankCluster

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages