叔叔不约(unclenoway.com)聊天图片的多线程爬虫脚本
这个网站的图片使用的是随机明文链接,生成方法似乎是时间戳加上随机数,存在一个七牛云上,网址格式为
http://7xpsm9.com1.z0.glb.clouddn.com/fxxxxxxxxxxxx?imageslim ,xxxxxxxxxxxx是一个十进制数字。
我们用遍历的方法爬取服务器上的图片,现在的程序在阿里的1G CPU/1Mbps服务器上运行60线程,大概是50万页面/h,其中只有几个页面是有图片返回的。
python3 uncle.py [-t int] [-l int]
-t 线程数 现在的版本是我在本地(Ubuntu 16.04)可以运行的脚本,大概100多个线程能跑满我的i5-4200M。程序在服务器测试了一天60线程没报错,大概爬下不到100张图片。
-l 每个线程的页面数,默认是遍历1到10 000 000 000
-
如果在服务器使用,应该是可以删除程序中带有注释的几行,原因不明。
-
程序很短,大概十分钟就能看完,有兴趣可以自己去改。
-
有的图片网址是?imageslim=,原因不明,疑似与七牛的图片压缩算法有关。