微博 GIF 爬虫程序

爬虫功能

此项目主要用于从新浪微博网页中爬取目标用户带有 gif 的微博。(可按需求修改,爬取自己想要的内容)

爬取内容：

新建一个名为 SinaWeibo 的数据库。

Part1: 通过用户关键字搜索获取的内容，数据储存在表 WeiboGIF 中。

ContentUrl: 带有 gif 的新浪微博 URL 地址
PostTime: 微博的发送时间
ContentId: 微博的唯一标识符
RepostNum: 微博的转发数
CommentNum: 微博的评论数
Content: 微博的文本内容
GIFUrl: gif 图片的 URL 地址
LikeNum: 点赞数
Comment: 微博评论内容

Part2: 通过微博关键字搜索获取的内容，数据储存在表 WeiboKeyword 中。

Keyword: 微博关键字
ContentUrl: 带有 gif 的新浪微博 URL 地址
PostTime: 微博的发送时间
ContentId: 微博的唯一标识符
RepostNum: 微博的转发数
CommentNum: 微博的评论数
Content: 微博的文本内容
GIFUrl: gif 图片的 URL 地址
LikeNum: 点赞数
Comment: 微博评论内容

环境、架构

开发语言: python2.7
开发环境: OS X EI Capitan
数据库: MongoDB 3.2.1
爬虫框架: Scrapy

部署环境

安装 mongodb
安装 Scrapy 软件库
python 模块: pymongo, requests, base64, urllib, re, time, datetime, json
登陆微博的账号和密码置于 cookies.py 中
用户搜索关键字置于 startuser.py 中
微博搜索关键字置于 startkeyword.py 中

执行程序

总共有三个需求，分别对应三个Python文件:

首先启动 MongoDB，然后切换到这三个文件所在的路径中，再根据需求执行相应的文件:

爬取用户所有微博: RunTotalFiles.py
爬取用户每天新更新的微博: RunDailyTask.py
爬取包含关键词的微博: RunKeyword.py
@author: fansan
@email: fansan@live.com

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
WeiboGIF		WeiboGIF
README.md		README.md
RunDailytask.py		RunDailytask.py
RunKeyword.py		RunKeyword.py
RunTotalFiles.py		RunTotalFiles.py
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

微博 GIF 爬虫程序

爬虫功能

环境、架构

部署环境

执行程序

About

Releases

Packages

Languages

iamdaiyuan/SinaWeiboSpider-Mongodb

Folders and files

Latest commit

History

Repository files navigation

微博 GIF 爬虫程序

爬虫功能

环境、架构

部署环境

执行程序

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages