Use Python to get URL from baidu search

打开APP

未登录

开通VIP，畅享免费电子书等14项超值服

开通VIP

首页

好书

留言交流

下载APP

联系客服

Use Python to get URL from baidu search

userphoto

杨贵妃妃 >《黑客知识大全》

2016.03.09

关注

# coding=utf-8

#code by xi4okv QQ:48011203 site:xiaokui.cc

import urllib2 as url

import urllib2

import string

import urllib

import re

import sys

def help():

print 'python baidu.py keyword page'

return

def baidu_search(keyword,pn):

p='wd='+keyword

res=url.urlopen('http://www.baidu.com/s?'+p+'&pn='+str(pn))

html=res.read()

# print html

return html

def get_url(html):

import re

if html:

urls_pat=re.compile(r'url':'(.*?)'}')

siteUrls=re.findall(urls_pat,html)

return siteUrls

else:

print 'ERROR!'

siteUrls=False

def baidu_url(xk_url):

try:

baidu = urllib2.urlopen('http:'+xk_url)

if baidu:

return baidu.url

else:

print 'ERROR!'

baidu.url=False

except:

print 'ERROR!'

def main():

help()

fileName='result.lst'

mode='w+'

f=open(fileName,mode)

keyword = sys.argv[1]

page = string.atoi(sys.argv[2])

print 'search '+keyword+' in baidu:'

count = 1

while count <>

count = count + 1

pn = 10 * count

html = baidu_search(keyword,pn)

urls = get_url(html)

for xk_url in urls:

if 'link?url' in xk_url:

result = baidu_url(xk_url)

try:

f.write(result+'\n')

print result

except:

print 'ERROR'

if __name__=='__main__':

main()

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。

打开APP，阅读全文并永久保存查看更多类似文章

猜你喜欢

类似文章

【热】打开小程序，算一算2024你的财运

python实现全网搜索

树莓派语音聊天机器人201802版

python 爬虫基础（1）

认识爬虫：使用 urllib2 库与 cookielib 库读取网页内容的三种方法

如何通过Python进行图片批量下载？

十年企业工作经验的大牛教你学Python爬虫！知识点是结合就业为主

更多类似文章 >>

生活服务

热点新闻

分享收藏导长图关注下载文章

绑定账号成功
后续可登录账号畅享VIP特权！

如果VIP功能使用有故障，
可点击这里联系客服！

联系客服