Skip to content

Latest commit

 

History

History
23 lines (11 loc) · 612 Bytes

README.md

File metadata and controls

23 lines (11 loc) · 612 Bytes

SimpleNetWorm

一个简单的网络爬虫,通过title标签进行爬取,提供了一个示例程序。

该例子使用了libcurl获取页面,htmlcxx作相关解析,需要对上述库进行安装,库安装如下:

sudo apg-get install libhtmlcxx-dev
sudo apg-get install libcurl4-openssl-dev

之后可make编译: make CXXFLAGS="-std=c++11 -lcurl -lhtmlcxx"

重新组织了搜索顺序,添加了指定单个站点的搜索

修改了搜索顺序,在搜索本页title后,会判断a标签中潜在的title属性,并作为搜索项(对个别站点有效)

添加了makefile