打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Use Python to get URL from baidu search

# coding=utf-8

#code by xi4okv QQ:48011203 site:xiaokui.cc

import urllib2 as url

import urllib2

import string

import urllib

import re

import sys


def help():

    print 'python baidu.py keyword page'

    return

    


def baidu_search(keyword,pn):

    p='wd='+keyword

    res=url.urlopen('http://www.baidu.com/s?'+p+'&pn='+str(pn))

    html=res.read()

    #    print html

    return html

        

def get_url(html):

    import re

    if html:

        urls_pat=re.compile(r'url':'(.*?)'}')

        siteUrls=re.findall(urls_pat,html)

        return siteUrls

    else:

        print 'ERROR!'

        siteUrls=False


def baidu_url(xk_url):

    try:

        baidu = urllib2.urlopen('http:'+xk_url)

        

        if baidu:

            return baidu.url

        else:

            print 'ERROR!'

            baidu.url=False

    except:

        print 'ERROR!'

    

def main():

    help()

    fileName='result.lst'

    mode='w+'    

    f=open(fileName,mode)

    keyword = sys.argv[1]

    page = string.atoi(sys.argv[2])

    

    print 'search '+keyword+' in baidu:'

    count = 1

    while count <>

        count = count + 1

        pn = 10 * count

        html = baidu_search(keyword,pn)

        urls =  get_url(html)  

        for xk_url in urls:

            if 'link?url' in xk_url:

                result = baidu_url(xk_url)

                try:

                    f.write(result+'\n')

                    print result

                except:

                    print 'ERROR'

if __name__=='__main__':

    main()


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
python实现全网搜索
树莓派语音聊天机器人201802版
python 爬虫基础(1)
认识爬虫:使用 urllib2 库与 cookielib 库读取网页内容的三种方法
如何通过Python进行图片批量下载?
十年企业工作经验的大牛教你学Python爬虫!知识点是结合就业为主
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服