打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Python 程序比较两文件夹差异并读取出来
Python 程序比较两文件夹差异并读取出来
2010-09-24 15:20:03     我来说两句      
收藏   
我要投稿
        在客户那边建库,需要把几百个G几十万个文件导入到Oracle里,好不容易导完了才发现中间缺了好几大块数据,约有四分之一吧,郁闷得很。

        数据是客户从第三方买的,据客户分析是拷贝过来的时候有部分数据漏掉了,但漏掉的数据又没有什么规律,加之文件夹的嵌套层数很多,查找起来很困难。

        客户又从第三方那边拷了一份全的数据,现在对这个问题有两种处理方案,一种是全部重新导一遍,大约得花一周多的时间;另一种方案是把两个数据的差异找出来,把差异的部分追加进去就行了。

        项目的时间比较紧张了,只能选第二种方案,可如何把差异的数据找出来呢,试了几个文件夹比较的工具,处理几百兆的数据都吃力,更不必说这么大量的数据和文件了。

        后来想了想,觉得Python解决这个问题比较方便,就研究了一下Python里的文件和目录操作,很快就完成了下面的一个脚本,可以很好地解决这个问题。

        下面的脚本可以在Python24里很好地运行,在其他版本里没有测试,但用的都是基本功能,应该没有什么问题。

        代码里的PathA是全的数据的文件夹,PathB是不全的数据的文件夹,PathC是个新的空目录,脚本执行完后就把PathA中有且pathB中没有的文件和目录都写到PathC里了,还可以保持原来的目录结构,速度和正确性都很令人满意。

        因为是急用的代码,所以写得不很简洁,也不是很规范,在此留志,一方面供自己以后参考,另一方面也提供给需要使用Python进行文件和目录操作的兄弟们共同参考。

代码如下:

# coding: GB2312

#系统模块
import sys
import os
import shutil
#用于文件查找的模块
from os.path import walk, join, normpath

#这个是完整的文件夹
PathA = "F:\FullData\"
#这个是缺文件的文件夹
PathB = "F:\IncomplData\"

#这个是目标文件夹
PathC = "F:\DiffData\"

#============================================================
#这个函数是用来递归处理PathA,对PathA里的每个文件和文件夹在PathB中找是否有对应的文件或文件夹
#若找不到,则在PathC中创建目录并拷贝文件
#拷贝文件时使用了shutil模块的copy2函数,以保留文件原来的创建时间和最后更新时间
def visit(arg, dirname, names):
    #把目录打印出来,以监视进度
    print dirname
   
    #得到路径名后,把前面的主路径名去掉
    dir=dirname.replace(PathA,"")
   
    dirnameB = os.path.join(PathB,dir)
    dirnameC = os.path.join(PathC,dir)
   
    if os.path.isdir(dirnameB):
        #若PathB里存在对应的文件夹,再逐个文件判断是否存在
        for file in names:
            if os.path.isfile(os.path.join(dirname

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
python3写的简单本地文件上传服务器
Python 跨文件调用函数 + 在一个文件中执行另一个文件_python怎么引用其他文件里面的函数
Python对文件夹的操作
Python之os.walk和os.path.walk
Python目录操作总结
开眼界!Python 遍历文件可以这样做!
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服