Skip to content

jerrylisl/SimpleNetWorm

Repository files navigation

SimpleNetWorm

一个简单的网络爬虫,通过title标签进行爬取,提供了一个示例程序。

该例子使用了libcurl获取页面,htmlcxx作相关解析,需要对上述库进行安装,库安装如下:

sudo apg-get install libhtmlcxx-dev
sudo apg-get install libcurl4-openssl-dev

之后可make编译: make CXXFLAGS="-std=c++11 -lcurl -lhtmlcxx"

重新组织了搜索顺序,添加了指定单个站点的搜索

修改了搜索顺序,在搜索本页title后,会判断a标签中潜在的title属性,并作为搜索项(对个别站点有效)

添加了makefile

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published