Skip to content

python写的一个小爬虫,爬取web of science的文献信息,包含"title","作者全名", "作者简写","关键词","摘要"一切网页上有的信息,并转成CSV信息表格存储。还有下载web of science存有的pdf文献文件功能。

Notifications You must be signed in to change notification settings

tangweize/SpiderForWebOfScience

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

说明手册

整个代码参数极少,只有三个,并且都是显示易懂的参数。

整个代码运行的前提是 能打开web of science并能展示出条件检索结果

整个爬虫代码在Spider_by_VZ里面只有三个主要的py文件分别如下

  • Main_Methods 里面包含了所有需要提取的信息抽取代码,无需关心
  • main是使用的入口,main里面有三个参数需要指定,具体后面阐述。
  • DownloadPdf 是 下载web of science 直接可获取的 文献pdf

main.py 参数说明:

总共有三个参数需要制定,我将分别用图片文字说明

  1. 此时我们已经打开了web of science页面,但是这时候的url链接并不符合这个代码的要求(因为没有翻页参数) web of science检索结果页面
  2. 这时候,我们需要在下图箭头标志出随便输入一个页码,激活带有page参数的url。 获取带有page的url
  3. 最终,我们可以根据该页面获得main函数里面的两个参数。
  • url_root的设置 带有page的url链接,但是不需要数字(比如上图里面的2删掉)注意:这个url_root里面是带有验证信息的,一般24小时,需要更换一次
  • nums_page的设置为下图圆圈里面数字,也就是总页码 页码数设置
  • filename 指定文献信息表格存的路径以及名字

环境

  • python 3.6
  • 依赖的包 requests pandas
    beautifulsoup4 tqdm

About

python写的一个小爬虫,爬取web of science的文献信息,包含"title","作者全名", "作者简写","关键词","摘要"一切网页上有的信息,并转成CSV信息表格存储。还有下载web of science存有的pdf文献文件功能。

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published