-
Notifications
You must be signed in to change notification settings - Fork 165
/
readme.txt
executable file
·416 lines (333 loc) · 14.4 KB
/
readme.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
=== 胖鼠采集(Fat Rat Collect) 微信知乎简书腾讯新闻列表分页采集, 还有自动采集、自动发布、自动标签、等多项功能。开源插件 ===
Contributors: fbtopcn
Donate link: https://www.fatrat.cn/docs/v2/bounty
Tags: 采集,微信公众号文章采集,知乎采集,列表采集,批量采集
Requires at least: 4.6
Tested up to: 6.5
Stable tag: 2.7.3
Requires PHP: 7.2
License: GPLv2 or later
License URI: https://www.gnu.org/licenses/gpl-2.0.html
胖鼠采集(Fat Rat Collect) 是一款能够帮助你网站自动化的采集工具. 支持采集、微信、简书、知乎、自定义列表页、自定义详情页面、还有许多特色功能、 还可一键采集历史文章, 一键设置自动采集, 自动发布, 为您节省精力, 快来体验一下吧!
== Description ==
胖鼠采集(<a href="https://www.fatrat.cn" target="_blank">Fat Rat Collect</a>) 是一款能够帮助你网站自动化的采集工具. 开源作品, 支持采集所有网站列表及详情页面 它拥有微信、简书、知乎、列表、历史、详情、等多种采集方式、还有自动采集, 自动发布, 自动打标签, 等许多黑科技功能, 一次创建规则, 后续省心省力. 还有许多演示例子,一键可用。如: 微信、简书、知乎、御龙在天、寻仙、虎扑等许多例子、快去享受吧!
= 神奇之处 =
* 微信公众号文章采集 - 强大的Jquery可以处理各种版权信息, 纵享丝滑.
* 简书文章采集 - 强大的Jquery可以处理内容各种图片, 柔顺到底.
* 知乎问答采集 - 强大的Jquery可以处理各种你不想要的东西, 一键爽歪歪.
* (独家主打) 列表采集,历史采集 <a href="https://www.fatrat.cn/docs/v2/list-paging-collection" target="_blank">视频文字教程</a>- 只需轻轻一点. 数不清的文章就来了.
* (独家主打) 详情页面文章采集 - 任何网站十秒搞定
* (独家主打) <a href="https://www.fatrat.cn/docs/v2/list-paging-collection" target="_blank">分页爬取</a> - 历史数据, 也不放过. 一网打尽
* (胖鼠主打) 自动采集 - 一键启动不放过每一份数据.
* (胖鼠主打) 自动发布 - 您省心省力好帮手.
* (独家主打) 调试模式 - 新建规则好帮手, 采集结果好伙伴.
* (独家主打) 体验例子 - 一键体验胖鼠.
* (主打主打) 文章自动添加, <a href="https://www.fatrat.cn/docs/v2/dynamic-content" target="_blank">动态内容</a>, <a href="https://www.fatrat.cn/docs/v2/auto-tags" target="_blank">自动标签</a>, 标签内链, 优化SEO.
* (胖鼠采集) 文章滤重 - 支持.
* (胖鼠采集) 自动特色图片 - 支持.
* (胖鼠采集) 采集图片加入媒体库 - 支持.
* (胖鼠采集) 数据处理 - 完美支持Html Jquery
* (胖鼠采集) 内容关键字过滤替换 伪原创 - 支持.
* (胖鼠采集) 自定义采集任何可见网站 - 完美支持.
* (胖鼠采集) 自定义文章图片链接类型 - 支持.
* (胖鼠采集) 内容详情页数据分页采集 - 支持.
* (胖鼠采集) 关键词随机插入, 可指定关键词或A标签关键词随机插入文章正文中 - 支持.
* (胖鼠采集) 图片本地下载, 支持使用其他插件上传(阿里云OSS、又拍云云存储, 七牛对象存储), 并可突破图片防盗链.
* (胖鼠采集) 相比其它采集器如: 火车头、神箭手、后羿、八爪鱼、以及一些伪原创采集工具, 胖鼠采集简单易用, 功能强大,是您建站的好帮手
* (重磅重磅) 胖鼠采集完全基于Wordpress, 安装即用, 开源作品
* (声明声明) 如你的PHP版本小于PHP71, 请移步胖鼠采集的Github下载使用胖鼠v5版本 分支名: based_php_5.6, 不再更新v5版本,不推荐
* (声明声明) 胖鼠采集初衷为参考学习交流; 请大家遵纪守法. 抵制违法犯罪.
* (声明声明) 胖鼠采集开源可供您查阅代码, 或者二次开发使用供您使用, 但不可修改源码后用于商业行为.
= 胖鼠采集系统架构 =
* 系统分为五大块.
* ① 采集中心, 配置各种特色配置来采集数据.
* ② 配置中心, 为采集中心提供采集规则.
* ③ 数据桶, 数据管理中心 此模块控制采集数据.
* ④ Debugging, 此模块用于大家调试规则.
* ⑤ 胖鼠工具箱, 此模块是胖鼠特色小功能.
= 使用谨记 =
* 采集是一件极其消耗系统资源的事情,尤其是图片下载。
* 新鼠友, 可一键体验例子. 例子运行正确, 那就专心写规则吧.
* 本工具仅供学习参考, 作者不承担任何风险.
== Installation ==
安装:
1. 在插件中搜索 <strong>胖鼠采集</strong> 安装即可
2. 将插件文件上传到/wp-content/plugins/目录 即可
3. PHP版本小于PHP71, 请移步胖鼠采集的Github下载使用胖鼠v5版本 分支名: based_php_5.6
== Frequently Asked Questions ==
= 胖鼠FAQ =
采集成功, 但是没有数据? 右键检查 console 中有调试信息, 可供您参考
胖鼠采集收费吗?只有特色功能收费,列表采集、历史采集。自动采集、自动发布 等核心功能均免费
微信公众号历史采集支持吗?暂不支持
ajax页面采集支持吗?赞助可支持
图片可以下载吗? 可以, 还可设置图片路径格式
链接相对路径可以补全吗? 可以
= 关于新建配置 =
请多多使用debuggging功能
配合视频、文字教程、助您成功
= 胖鼠推荐服务环境 =
php推荐 使用php72及以上版本
推荐使用 nginx
推荐使用 mysql 5.7
推荐及时更新胖鼠采集
== Screenshots ==
1. 胖鼠强大的爬虫中心
2. 支撑胖鼠的配置中心
3. 发布文章的数据桶
4. 添加修改配置地方
5. 调试中心debugging
6. 工具箱特色小工具
== Changelog ==
= 2.7.3
* 修复公众号采集的一个BUG
= 2.7.2
* 修复公众号采集的重新激活BUG
= 2.7.1
* 修复一个影响新鼠友的保存配置的BUG
= 2.7.0
* 微信公众号历史文章采集
* 登陆网站 cookie 采集
= 2.6.7/8
* 优化一些安全相关问题
= 2.6.6
* 优化提示文案
* 修复自动发布快捷发布故障
* 快捷发布增加批量发布功能(新功能)
= 2.6.5
* 安全更新,性能优化
* 全站采集保存正则BUG修复
= 2.6.3
* 安全更新
* 代码优化
= 2.6.2
* 安全优化
= 2.6.1
* 修复采集列表或者分页的时候,被目标站防采集命中,会出现的采集数据的url不一致、但是数据的标题以及内容和源网站不一样,数据会重复的bug
= 2.6.0
* 升级组件,兼容PHP8
* 修复数据桶分页数量bug
* 修复自动采集html展示问题
* 修复配置数量为5个无法编辑问题
* 优化文案
* 优化项目结构
* 使用composer自动加载
= 2.5.2
* 修复关键词随机插入保存错误
= 2.5.1
* 部分语法兼容php8
* 数据桶样式优化
* 配置中心文章正文添加头尾html反斜线bug
= 2.5.0
* 升级 bootstrap
= 2.4.4
* 官方指导、代码修正, 写法规范.
* 简单而又大量的优化.
* 修复oss图片上传相对地址选项,但站点根目录不是 wp-content 会出现的bug.
= 2.4.3
* 修复关键词替换的BUG
= 2.4.2
* 修复新鼠友安装后无法保存配置Bug.
= 2.4.1
* 数据表字段长度调整
* 代码精简
= 2.4.0
* 新增关键词插入功能, 可设置一批关键词随机插入文章正文段落中.
* 修复一个分页的历史遗留bug, 可输出单页页码进行采集
* 分页采集改为一次可采集3页
* 优化了代码
= 2.3.0
* Optimization Absolute Url.
* 增加内容分页采集功能.
= 2.2.6
* Fix Auto Absolute Url Bug.
= 2.2.5
* 修复bug,提升稳定性
= 2.2.3-4
* 修复自动发布 动态内容,自动标签bug
* 优化代码,提升速度
= 2.2.1-2
* 微信采集链接优化
* 优化了软件速度
= 2.2.0
* 主题发布扩展
* 图片下载上传对接oss/云存储优化
* 去除html注释
* 文章发布优化
* 数据统计优化
* 取消特色图片激活
* 采集优化、最大超时时间10秒
* 删除规则,删除对应数据
* 等其他优化..
= 2.1.0
* 采集底层内存占用重构, 鼠友的福音
* 批量发布使用设置的发布状态
= 2.0.7
* 优化速度 .
= 2.0.6
* fix bug .
* 插件提升管理员权限使用.
= 2.0.5
* 采集图片路径优化/优化window主机附件无法查看
* 代码小版本迭代
* 数据入库优化代码,优化速度
* 批量删除细节优化
= 2.0.4
* 数据链接优化
= 2.0.3
* 优化插件速度,精简很多地方.
= 2.0.2
* 低版本数据库兼容
= 2.0.1
* 大数据量鼠优化升级步骤
= 2.0.0 = 2020-04-26
* 《胖鼠采集架构重组升级》
* 定时采集、定时发布强化
* 数据中心升级为数据桶模式、可设置数据桶对应发布分类
* 自动标签强化,标签匹配英文不区分大小写, 后续继续优化
* 动态内容强化样式。新版只在尾部添加动态内容, 后续继续优化
* 新增标签添加网站内链、5.1日前赞赏过自动标签用户免费激活
* 采集 & 调试
* 增加采集知乎问答功能
* 微信、简书、列表、详情、分页采集增加 debugging 功能
* 点击采集、异常后、按钮延时优化,避免不必要的问题
* 采集实体字符转义一些问题
* 文章重复问题优化、目前为url验重、后续增加文章标题验证重复
* 图片本地化功能加强升级
* 分页采集加强升级
* debug 全新升级 debugging
* 采集Url格式化升级
* 优化列表采集点击锚点体验
* 接口结果统一优化
* 采集数据可删除、批量管理
* 数据桶全局统计数据,所有数据一手掌握
= 1.11.1 = 2019-11-30
* delete Violations wordpress keywords
= 1.11.1 = 2019-09-19
* 简书规则升级
= 1.11.0 = 2019-09-04
* 优化了很多代码
* 增加图片不本地化选项。(采集速度超快)
* 可指定采集图片的属性。(对于某些js异步加载图片的站点很有效)
= 1.10.4 = 2019-06-12
* 优化一些地方
= 1.10.3 = 2019-05-19
* 优化 Dynamic Content 功能, 优化了取文字样式
* 优化 Auto Tags 功能, 暂时去掉了标签追加链接功能, 有bug回头解决了再加
* 数据中心弱网发布时间优化
= 1.10.2 = 2019-05-05
* 优化 Dynamic Content 功能
* 优化 Auto Tags 功能
* Auto Tags 功能 增加开关和一些优化
= 1.10.1 = 2019-05-04
* 代码优化
= 1.10.0 = 2019-05-04
* 新功能 Dynamic Content
= 1.9.0 = 2019-05-03
* 新功能 Auto Tags 文章自动打Tag or 优化一些文案
= 1.8.7 = 2019-04-30
* 修复一个紧急bug
= 1.8.6 = 2019-04-29
* 文章滤重改为强滤重
* 数据表增加一项字段
* 一次发布最大数量增加到30
= 1.8.4 = 2019-04-23
* 优化 据个别鼠要求, 采集标题 增长为120个汉字
* 优化 采集保存配置一点逻辑优化
* 文案优化
= 1.8.3 = 2019-04-15
* 优化 采集标题可能超过40个汉字长度 控制在40个字符之内
* 优化 下载图片可能会超时优化了连接时间
* 优化 一次发布很多篇, 极端情况可能图片超时问题
* 优化 发布文章个别情况可能出现报错, 捕获错误
* 优化 文章别名, 使用文章标题作为文章别名
* 新增 公告功能: 用于胖鼠紧急通知众鼠使用, 无风险。
* 新增 微信增加 作者变量{author} 公众号名字变量{name} 简书增加作者变量{author}
= 1.8.2 = 2019-04-14
* 修复了 一个不影响大局的sql错误
= 1.8.1 = 2019-04-14
* 修复 微信 简书 采集失败bug
= 1.8.0 = 2019-04-14
* 胖鼠采集全新架构
* window主机用户采集微信图片 鼠友服务器CA证书验证不通过问题
* window主机 路径 DIRECTORY_SEPARATOR 可能出现的bug
* 采集内核2.0。更快的采集速度。 (3.0规划已有。采集速度会超级超级快)
* 采集图片自动查找后缀算法优化
* 自动特色图片功能完成
* 图片加入媒体库功能
* 图片加入附件
* 发布时图片发布失败。补二次下载
= 1.7.5 = 2019-04-09
* 修复了几位鼠友用window服务器出现的图片路径乱码bug
= 1.7.4 = 2019-03-31
* 修复了简书图片bug
* 数据中心增加数据统计功能
= 1.7.3 = 2019-03-08
* 冒泡
= 1.7.2 = 2019-02-25
* 修复群里一个鼠友采集图片失败的bug.
* 升级群里鼠友采集的图片默认居中需求.
= 1.7.1 = 2019-02-15
* 胖鼠采集PHP v5.6 版本尝鲜版发布.
* 优化一些文案.
= 1.7.0 = 2019-01-25
* 定时发布 (给鼠友增加开关)
* 定时采集 (给鼠友增加开关)
* 图片可设置使用 相对/绝对 路径. 站群/单站点/CDN可能要的需求
* 微信采集自定义内容(鼠友要求可增加来源)
* 免责声明
= 1.6.3 = 2019-01-24
* 鼠友发现采集的微信视频无法播放BUG!
= 1.6.2 = 2019-01-22
* 微信 And 列表采集 图片 自动剔除多余属性 增加 Alt字段 值为title 更好的SEO!
= 1.6.1 = 2019-01-21
* 一个安全过滤误伤了鼠友. 已修复
* 版本号修正
= 1.6.0 = 2019-01-20
* Php版本验证提示
* 配置中心批量删除
* 数据中心可能出现的一个notice错误
* 数据发布,增加发布作者,文章状态.
* 数据中心作者字段优化
* 赞赏码
= 1.5.1 = 2019-01-15
* 帮助的a 标签跳转新开标签页
* 增加自动发布tag页面
* 新增加的文档的链接
* 分页采集增加默认select
* 修复自动爬去功能异常
* Css Js样式 兼容了其他插件
* 修复一个列表爬虫。由于目标站不统一。链接可能拼接错误bug
= 1.5.0 = 2019-01-13 11:16
* 优化配置中心一个 notice 错误
* 增加了数据批量删除
* 增加数据批量发布
* 文章增加发布分类
* 使用权限增加作者 编辑 管理员
= 1.4.3 = 2019-01-03 10:39
* ok 优化了详情爬虫, 增加了默认选项
* ok 增加了几个采集配置 寻仙新闻 御龙在天新闻 心理咨询师新闻 直播吧详情 虎扑详情
* ok 优化了前端错误提示
* 有个个别网站 gbk 个别乱码问题/未解决。utf-8很稳定
* 今天关闭了站群自动发布,自动发布什么时候再次开启?
= 1.4.2 = 2019-01-02
* 暂时去掉站群发布页面
* 去掉了一些默认配置规则,后续增加
* 采集url地址 代码优化
= 1.4.1 = 2019-01-01 11:05
* 增加了小提示功能.等你发现在哪里.
* 增加了简书采集
* 捕获简书新的图片src, 调整了代码
= 1.4.0 = 2018-12-30 03:09
* 跳几个小版本, 因为这次是一个架构稳定版本(稳)
* 新增自定义详情爬取
* 自动识别 img (src or data-src)
* 配置页面优化 注释优化 服务端优化
* 发布中心优化服务端 页面优化
* 爬虫中心 服务端优化 前端优化
* 前端ajax交互优化
* 数据库优化了表,增加了索引
* 优化掉了Log表
* ...
= 1.0.0 = 2018-12-20
* 胖鼠第一个版本上线了 不写了 具体的功能了 信息量有点大。大家自己安装感受一下具体功能吧。
== Upgrade Notice ==