Releases: gsh199449/spider
Gather Platform 0.6版本发布
新功能:
-
新增ajax网页渲染器,ajax网页轻松采集;
-
升级ES至5.2版本;
-
修正一些BUG;
预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm 。
Gather Platform 0.5版本发布
新功能:
-
新增定时任务循环,一次提交,无人值守,自动采集;
-
新增jetty支持,不再强制使用tomcat作为容器;
-
优化模板无法采集到数据时的提示;
-
修正去重策略的问题;
预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm 。
Gather Platform 0.3版本发布
新功能:
-
升级内核至Webmagic 0.6版本;
-
增加文章详情页面,可以查看相关网页、该网页的命名实体词,抓取时间、动态字段等等元信息;
-
增加HTTP代理配置;
-
完善了文档,增加了二次开发接口说明、更多的常见问题解答;
点击每一篇文章后面的
Go
按钮就会跳转至文章详情页。右侧展示的是相关的文章,下面的表格中展示了当前网页的一些元信息。详情页中的人名、地名、机构名称都是可以点击的,之后将跳转至相关信息分析页面,可以看出人物、地点之间的关联关系。
修复BUG:
- 修正停止爬虫时的空指针异常
- 增加配置文件读取时的编码配置
- 修复了Windows的适配问题
- 修复了大数据量导出时的内存溢出问题
预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm
Gather Platform 0.4版本发布
新功能:
- 新增爬虫模板批量启动,在爬虫模板管理界面可以勾选多个爬虫批量启动。
修复BUG:
- 修正模态框堆叠问题;
- 修正更新webmagic版本带来的jar包冲突问题;
- 修正默认分类字段无效的问题;
- 修正导出数据内存溢出问题。
预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm 。
Gather Platform 0.2版本发布
此版本中新增功能如下:
- 数据导出功能,方便进行后期数据分析;
- 更新了爬虫模板配置系统,简化配置;
- 升级Webmagic到0.6.0版本;
修复了如下BUG:
- 修复了不使用ES时的空指针问题;
- 去除示例模板中的ID;
预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm
Gather Platform 第一个正式版本发布
Gather Platform第一个正式版本发布,相较之前的版本,Gather Platform删除了对于Elasticsearch的依赖,做成可选的配置,默认将网页输出至本地磁盘的文件中.
预编译版本及相关依赖下载地址: 链接:https://pan.baidu.com/s/1i4IoEhB 密码:v3jm