[DIR_NAME] Pour tous les fichiers ci-dessous Vérifiez s'il s'agit d'un fichier texte avec le code de caractère défini dans [TARGET_ENCODING_LIST], S'il s'agit d'un fichier texte, recherchez [SEARCH_WORD] et Le résultat est généré sous le nom de fichier [OUTPUT_NAME].
Série Windows8 + Python2.6
find_directory.py
#!/usr/bin/python
# -*- coding: utf-8 -*-
# vim: fileencoding=utf-8
import os , sys , codecs
DIR_NAME = 'C:\\html\\HOGE\\'
OUTPUT_NAME = 'result_find_file_list.csv'
SEARCH_WORD = '<font'
TARGET_ENCODINGS = [
'utf-8',
'shift-jis',
'euc-jp',
'iso2022-jp'
]
FLAG_STDOUT = True
#FLAG_STDOUT = False
import os, sys
write = sys.stdout.write
def guess_charset(data):
file = lambda d, encoding: d.decode(encoding) and encoding
for enc in TARGET_ENCODINGS:
try:
file(data, enc)
return enc
except:
pass
return 'binary'
out = codecs.open(OUTPUT_NAME, 'w', 'shift-jis')
out.write('path,line_number,search,target_line\n')
for dirpath, dirs, files in os.walk(DIR_NAME):
for fn in files:
path = os.path.join(dirpath, fn)
fobj = file(path, 'rU')
data = fobj.read()
fobj.close()
try:
enc = guess_charset(data)
except:
continue
if enc == 'binary':
continue
count = 0
try:
for l in codecs.open(path, 'r', enc):
count = count + 1
if SEARCH_WORD in l:
output = ''
try:
output = '"' + path + '","' + str(count) + '","' + SEARCH_WORD + '","' + l.replace('"',"'").replace('\r','').replace('\n','') + '"\r\n'
except:
continue
if FLAG_STDOUT == True:
write(output)
out.write(output)
except:
continue
Comme d'habitude, la gestion des exceptions est appropriée. Il y a de la place pour la refactorisation, mais Je veux le mettre dans la bataille réelle de demain, donc je le posterai tel quel
Recommended Posts