Extraire les informations de classification, etc. des données genbank au format xml

Script pour la séquence d'enregistrement

À partir de xml sur les informations de séquence de Genbank Vous pouvez récupérer des informations sur les taxons avec le script suivant


import xml.etree.ElementTree as ET 

tree = ET.parse("./gene_file.xml") 
root = tree.getroot()

for child in root.findall('GBSeq'):
    accession = child.find('GBSeq_accession-version').text
    taxon = child.find('GBSeq_taxonomy').text
    for child in child.findall('GBSeq_feature-table'):
        for child in child.findall('GBFeature'):
            for child in child.findall('GBFeature_quals'):
                for child in child.findall('GBQualifier'):
                    if child.find('GBQualifier_value') is not None:
                        taxon_id = child.find('GBQualifier_value').text
                        if('taxon:' in taxon_id):
                            taxon_id_out = taxon_id
                    else:
                        taxon_id_out = ""
    out +=(accession+"\t"+taxon_id_out+ "\t"+ taxon +"\n")

with open("out10.taxon.txt", mode='w') as f:
    f.write(out)

Pourquoi j'ai écrit

L'analyse à partir d'un fichier plat est gênante + des exceptions sont placées, j'ai donc essayé de lire et d'extraire de xml.

Recommended Posts

Extraire les informations de classification, etc. des données genbank au format xml
Extraction de données depuis S3
Écrire des données au format HDF
[Python] Extrayez des données texte à partir de données XML de 10 Go ou plus.
Exporter les données DB au format json
Obtenir des données de Quandl en Python
Extraire des données spécifiques d'un JSON complexe
Extraire du texte d'images avec Python
Extraire des chaînes de fichiers avec Python
Extraire des informations à l'aide de File :: Stat dans Ruby
Convertir les données au format XML en données au format txt (yolov3)
Obtenez la probabilité de précipitation de XML avec Python
Utilisez PIL en Python pour extraire uniquement les données souhaitées d'Exif