Python-crawler

由于代码是比较早之前写的，抓取的网站目录结构可能有所变动
所以部分代码可能不能使用了，欢迎正在学习爬虫的大家给这个项目提PR
让更多的代码能跑起来~

从零开始系统化的学习写Python爬虫。
主要是记录一下自己写Python爬虫的经过与心得。
同时也是为了分享一下如何能更高效率的学习写爬虫。
IDE：Vscode Python版本: 3.6

知乎专栏：https://zhuanlan.zhihu.com/Ehco-python

详细学习路径：

一：Beautiful Soup 爬虫

requests库的安装与使用 https://zhuanlan.zhihu.com/p/26681429
安装beautiful soup 爬虫环境 https://zhuanlan.zhihu.com/p/26683864
beautiful soup 的解析器 https://zhuanlan.zhihu.com/p/26691931
re库正则表达式的使用 https://zhuanlan.zhihu.com/p/26701898
bs4 爬虫实践：获取百度贴吧的内容 https://zhuanlan.zhihu.com/p/26722495
bs4 爬虫实践：获取双色球中奖信息 https://zhuanlan.zhihu.com/p/26747717
bs4 爬虫实践：排行榜小说批量下载 https://zhuanlan.zhihu.com/p/26756909
bs4 爬虫实践：获取电影信息 https://zhuanlan.zhihu.com/p/26786056
bs4 爬虫实践：悦音台mv排行榜与反爬虫技术 https://zhuanlan.zhihu.com/p/26809626

二： Scrapy 爬虫框架

Scrapy 爬虫框架的安装与基本介绍 https://zhuanlan.zhihu.com/p/26832971
Scrapy 选择器和基本使用 https://zhuanlan.zhihu.com/p/26854842
Scrapy 爬虫实践：天气预报&数据存储 https://zhuanlan.zhihu.com/p/26885412
Scrapy 爬虫实践：代理的爬取和验证 https://zhuanlan.zhihu.com/p/26939527
Scrapy 爬虫实践：糗事百科&爬虫攻防 https://zhuanlan.zhihu.com/p/26980300
Scrapy 爬虫实践：重构排行榜小说爬虫&Mysql数据库 https://zhuanlan.zhihu.com/p/27027200

三：浏览器模拟爬虫

Selenium模拟浏览器 https://zhuanlan.zhihu.com/p/27115580
爬虫实践：获取快代理 https://zhuanlan.zhihu.com/p/27150025
爬虫实践：漫画批量下载 https://zhuanlan.zhihu.com/p/27155429

四：练手项目

爬虫实践：螺纹钢数据&Cookies https://zhuanlan.zhihu.com/p/27232687
爬虫实践：登录正方教务系统 https://zhuanlan.zhihu.com/p/27256315
爬虫应用： requests+django实现微信公众号后台 https://zhuanlan.zhihu.com/p/27625233
爬虫应用： 12306火车票信息查询 https://zhuanlan.zhihu.com/p/27969976
爬虫应用：利用斗鱼Api抓取弹幕 https://zhuanlan.zhihu.com/p/28164017
爬虫应用：获取支付宝账单信息 https://zhuanlan.zhihu.com/p/28537306
爬虫应用：IT之家热门段子（评论）爬取 https://zhuanlan.zhihu.com/p/28806210
爬虫应用：一号店商品信息查询程序 https://zhuanlan.zhihu.com/p/28982497
爬虫应用：搜狗输入法词库抓取 https://zhuanlan.zhihu.com/p/31186373
爬虫应用：复古网盘游戏抓取 https://zhuanlan.zhihu.com/p/32420131
爬虫应用：自动填写问卷星 https://zhuanlan.zhihu.com/p/36224375
爬虫应用：腾讯漫画下载~ https://zhuanlan.zhihu.com/p/39578774

Name		Name	Last commit message	Last commit date
Latest commit History 86 Commits
Beautiful Soup 爬虫		Beautiful Soup 爬虫
Google-Image		Google-Image
Scrapy 爬虫框架		Scrapy 爬虫框架
YHShop		YHShop
alipay		alipay
doubanmovie		doubanmovie
douyu		douyu
gamedownload		gamedownload
ithome		ithome
mazhifu		mazhifu
p2p		p2p
requestes基本使用		requestes基本使用
sougou		sougou
toapi-91baby		toapi-91baby
wenjuanxin		wenjuanxin
zhihu/zhihu_easy		zhihu/zhihu_easy
悦美整形		悦美整形
浏览器模拟爬虫		浏览器模拟爬虫
美食杰		美食杰
腾讯漫画		腾讯漫画
豆瓣影评/锤神3		豆瓣影评/锤神3
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Python-crawler

一：Beautiful Soup 爬虫

二： Scrapy 爬虫框架

三：浏览器模拟爬虫

四：练手项目

About

Releases

Packages

Contributors 2

Languages

Ehco1996/Python-crawler

Folders and files

Latest commit

History

Repository files navigation

Python-crawler

一：Beautiful Soup 爬虫

二： Scrapy 爬虫框架

三： 浏览器模拟爬虫

四： 练手项目

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

三：浏览器模拟爬虫

四：练手项目

Packages