GitHub - tangweize/SpiderForWebOfScience: python写的一个小爬虫，爬取web of science的文献信息，包含"title","作者全名"， "作者简写","关键词","摘要"一切网页上有的信息，并转成CSV信息表格存储。还有下载web of science存有的pdf文献文件功能。

tangweize / SpiderForWebOfScience Public

Notifications You must be signed in to change notification settings
Fork 18
Star 51

python写的一个小爬虫，爬取web of science的文献信息，包含"title","作者全名"， "作者简写","关键词","摘要"一切网页上有的信息，并转成CSV信息表格存储。还有下载web of science存有的pdf文献文件功能。

51 stars 18 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
.idea		.idea
Spider_by_VZ		Spider_by_VZ
assets		assets
venv		venv
.DS_Store		.DS_Store
ReadMe.md		ReadMe.md

Repository files navigation

说明手册

整个代码参数极少，只有三个，并且都是显示易懂的参数。

整个代码运行的前提是能打开web of science并能展示出条件检索结果

整个爬虫代码在Spider_by_VZ里面只有三个主要的py文件分别如下

Main_Methods 里面包含了所有需要提取的信息抽取代码，无需关心
main是使用的入口，main里面有三个参数需要指定，具体后面阐述。
DownloadPdf 是下载web of science 直接可获取的文献pdf

main.py 参数说明：

总共有三个参数需要制定，我将分别用图片文字说明

此时我们已经打开了web of science页面，但是这时候的url链接并不符合这个代码的要求（因为没有翻页参数）
这时候，我们需要在下图箭头标志出随便输入一个页码，激活带有page参数的url。
最终，我们可以根据该页面获得main函数里面的两个参数。

url_root的设置带有page的url链接，但是不需要数字（比如上图里面的2删掉）注意：这个url_root里面是带有验证信息的，一般24小时，需要更换一次
nums_page的设置为下图圆圈里面数字,也就是总页码
filename 指定文献信息表格存的路径以及名字

环境

python 3.6
依赖的包 requests pandas
beautifulsoup4 tqdm

About

python写的一个小爬虫，爬取web of science的文献信息，包含"title","作者全名"， "作者简写","关键词","摘要"一切网页上有的信息，并转成CSV信息表格存储。还有下载web of science存有的pdf文献文件功能。

spider python3 webofscience paperspider

Report repository

Releases

No releases published

Packages

No packages published

Languages