import requests,time,re #一共三个模块,没装的先装 #学习群号码前面548中间377后面875def zyw(): while(True): url='https://www.525zyw.com/' #爬的网站URL html=requests.get(url).text #获取网站的首页源代码 re_url=re.findall('
(.*?)
.*?',html,re.S) #比配最新资源 list_r='' for i in re_url: tiem=re.findall('.*?>(.*?).*?',i,re.S)[0] #这里的四个正则主要是进一步的提取我们需要的东西 src=re.findall('.*?
.*?',i,re.S)[0] # href=re.findall('.*?
%s %s'%(tiem,url,src,url,href,title,title) list_r=list_r+res #经过上面的拼接,这里是所有的内容加入一个字符串 f=open('./templates/zyw.html','w') #打开文件 f.write(list_r) #把字符串写入文件 f.close() time.sleep(3600) #这里是每隔1个小时去爬一次,测试时先注释掉 if __name__ == '__main__': zyw() #调用