Aperçu

[DIR_NAME] Pour tous les fichiers ci-dessous Vérifiez s'il s'agit d'un fichier texte avec le code de caractère défini dans [TARGET_ENCODING_LIST], S'il s'agit d'un fichier texte, recherchez [SEARCH_WORD] et Le résultat est généré sous le nom de fichier [OUTPUT_NAME].

environnement

Série Windows8 + Python2.6

code

`find_directory.py`


#!/usr/bin/python
# -*- coding: utf-8 -*-
# vim: fileencoding=utf-8

import os , sys , codecs

DIR_NAME = 'C:\\html\\HOGE\\'
OUTPUT_NAME = 'result_find_file_list.csv'

SEARCH_WORD = '<font'

TARGET_ENCODINGS = [
	'utf-8',
	'shift-jis',
	'euc-jp',
	'iso2022-jp'
]

FLAG_STDOUT = True
#FLAG_STDOUT = False

import os, sys

write = sys.stdout.write

def guess_charset(data):
	file = lambda d, encoding: d.decode(encoding) and encoding
	for enc in TARGET_ENCODINGS:
		try:
			file(data, enc)
			return enc
		except:
			pass
	return 'binary'

out = codecs.open(OUTPUT_NAME, 'w', 'shift-jis')
out.write('path,line_number,search,target_line\n')

for dirpath, dirs, files in os.walk(DIR_NAME):
	for fn in files:
		path = os.path.join(dirpath, fn)
		fobj = file(path, 'rU')
		data = fobj.read()
		fobj.close()
		try:
			enc = guess_charset(data)
		except:
			continue
		if enc == 'binary':
			continue
		count = 0
		try:
			for l in codecs.open(path, 'r', enc):
				count = count + 1
				if SEARCH_WORD in l:
					output = ''
					try:
						output = '"' + path + '","' + str(count) + '","' + SEARCH_WORD + '","' + l.replace('"',"'").replace('\r','').replace('\n','') + '"\r\n'
					except:
						continue
					if FLAG_STDOUT == True:
						write(output)
					out.write(output)
		except:
			continue

Supplément

Comme d'habitude, la gestion des exceptions est appropriée. Il y a de la place pour la refactorisation, mais Je veux le mettre dans la bataille réelle de demain, donc je le posterai tel quel

Recommended Posts

Vérifie s'il existe une chaîne de caractères spécifique pour tous les fichiers sous le répertoire Python et renvoie la ligne cible

Vérifiez quel est le code de caractère pour tous les fichiers sous le répertoire Python et sortie

[Golang] Vérifiez si une chaîne de caractères spécifique est incluse dans la chaîne de caractères

Pour Windows: obtenez une liste de répertoires et de fichiers dans un répertoire spécifique.

Vérifiez si la chaîne est un nombre en python

[Python] Ne laissez que les éléments commençant par une chaîne de caractères spécifique dans le tableau

[Python] Une fonction qui recherche la chaîne de caractères entière avec une expression régulière et obtient toutes les chaînes de caractères correspondantes.

Python échouera s'il y a un espace après la barre oblique inverse

Supprimer un caractère spécifique en Python s'il s'agit du dernier

Sortie de la ligne contenant la chaîne de caractères spécifiée à partir du fichier texte

Vérifier s'il y a un symbole spécifique dans le fichier exécutable et ses bibliothèques dépendantes (version simplifiée)