搜索
查看: 525|回复: 0

爬取下载github所有fork的项目

[复制链接]

1839

主题

2255

帖子

1万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
11913
发表于 2016-10-8 11:51:49 | 显示全部楼层 |阅读模式
上次发了个帖,名字为爬取freebuf个人收藏所有文章并保存到本地python脚本,地址https://www.chinabaiker.com/thread-2672-1-1.html

然后90sec 的 @火柴人 坛友说想要下载github fork的代码,说fork太多了
运行如图


那么代码来了
  1. #coding = utf-8
  2. import requests
  3. import re
  4. import urllib
  5. page = range(1,5)
  6. github_username = raw_input('github_username:')
  7. for pg in page:
  8.         url = 'https://github.com/%s?page=%s&tab=repositories' %(github_username,pg)
  9.         get = requests.get(url)
  10.         regex = '\<a href="/(.*?)" itemprop\="name codeRepository"\>'
  11.         key = re.findall(regex,get.content)
  12.         for k in key:
  13.                 #print k
  14.                 url2 = 'https://github.com/'
  15.                 xiangmu_name = url2 + k
  16.                 print xiangmu_name
  17.                 url3 = '/archive/master.zip'
  18.                 download = xiangmu_name + url3
  19.                 print download
  20.                 filename = urllib.urlopen(download)
  21.                 info = filename.info()
  22.                 filename_regex = 'Content-Disposition: attachment; filename=(.*)'
  23.                 filename_down = re.findall(filename_regex,str(info))
  24.                 #print filename_down
  25.                 for filename1 in filename_down:
  26.                         print filename1
  27.                         filename2 = filename1.strip()
  28.                         urllib.urlretrieve(download,filename2)
复制代码

github地址https://github.com/Jumbo-WJB/spi ... wn_github_master.py





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?Join BUC

x
过段时间可能会取消签到功能了
您需要登录后才可以回帖 登录 | Join BUC

本版积分规则

Powered by Discuz!

© 2012-2015 Baiker Union of China.

快速回复 返回顶部 返回列表