Python Plik XML – jak czytać, zapisywać i analizować

Co to jest XML?

XML oznacza eXtensible Markup Language. Został zaprojektowany do przechowywania i transportu małych i średnich ilości danych i jest szeroko stosowany do udostępniania informacji strukturalnych.

Python umożliwia analizowanie i modyfikowanie dokumentów XML. Aby przeanalizować dokument XML, musisz mieć w pamięci cały dokument XML. W tym samouczku zobaczymy, jak możemy wykorzystać klasę minidom XML w Python do ładowania i analizowania plików XML.

Jak analizować XML za pomocą minidom

Stworzyliśmy przykładowy plik XML, który będziemy analizować.

Krok 1) Utwórz przykładowy plik XML

Wewnątrz pliku możemy zobaczyć imię, nazwisko, adres zamieszkania i specjalizację (SQL, Python, Testowanie i Biznes)

Jak analizować XML za pomocą minidom

Krok 2) Użyj funkcji parse, aby załadować i przeanalizować plik XML

Po przeanalizowaniu dokumentu wydrukujemy plik „nazwa węzła” katalogu głównego dokumentu oraz „zmienna pierwszego dziecka”. Zmienna i nazwa węzła to standardowe właściwości pliku XML.

Analizuj XML przy użyciu minidom

  • Zaimportuj moduł xml.dom.minidom i zadeklaruj plik, który ma zostać przeanalizowany (myxml.xml)
  • Plik ten zawiera podstawowe informacje o pracowniku, takie jak imię, nazwisko, adres zamieszkania, wiedza specjalistyczna itp.
  • Używamy funkcji parse w minidomie XML do ładowania i analizowania pliku XML
  • Mamy zmienną doc, a dokument pobiera wynik funkcji analizy
  • Chcemy wydrukować nazwę węzła i zmienną podrzędną z pliku, więc deklarujemy to w funkcji print
  • Uruchom kod — wypisuje nazwę węzła (#document) z pliku XML i pierwszą zmienną podrzędną (pracownik) z pliku XML

Note:

Nazwa węzła i zmienna podrzędna to standardowe nazwy lub właściwości domeny XML.

Krok 3) Wywołaj listę tagów XML z dokumentu XML i wydrukuj

Następnie możemy również wywołać listę tagów XML z dokumentu XML i wydrukować. Tutaj wydrukowaliśmy zestaw umiejętności takich jak SQL, Python, Testowanie i biznes.

Analizuj XML przy użyciu minidom

  • Zadeklaruj zmienną wiedzę specjalistyczną, z której wyodrębnimy całą wiedzę specjalistyczną, jaką posiada pracownik
  • Użyj standardowej funkcji dom o nazwie „getElementsByTagName”
  • Spowoduje to uzyskanie wszystkich elementów o nazwie umiejętności
  • Zadeklaruj pętlę nad każdym ze znaczników umiejętności
  • Uruchom kod - wyświetli listę czterech umiejętności

Jak napisać węzeł XML

Możemy utworzyć nowy atrybut za pomocą funkcji „createElement”, a następnie dołączyć ten nowy atrybut lub tag do istniejących tagów XML. Dodaliśmy nowy tag „BigData” w naszym pliku XML.

  1. Musisz napisać kod, aby dodać nowy atrybut (BigData) do istniejącego tagu XML
  2. Następnie należy wydrukować znacznik XML z nowymi atrybutami dołączonymi do istniejącego znacznika XML

Zapisz węzeł XML

  • Aby dodać nowy XML i dodać go do dokumentu, używamy kodu „doc.create items”
  • Ten kod utworzy nowy tag umiejętności dla naszego nowego atrybutu „Big-data”
  • Dodaj ten znacznik umiejętności do dokumentu pierwsze dziecko (pracownik)
  • Uruchom kod – pojawi się nowy tag „big data” z drugą listą specjalizacji

Przykład analizatora XML

Python 2 Przykład

import xml.dom.minidom

def main():
# use the parse() function to load and parse an XML file
   doc = xml.dom.minidom.parse("Myxml.xml");
  
# print out the document node and the name of the first child tag
   print doc.nodeName
   print doc.firstChild.tagName
  
# get a list of XML tags from the document and print each one
   expertise = doc.getElementsByTagName("expertise")
   print "%d expertise:" % expertise.length
   for skill in expertise:
     print skill.getAttribute("name")
    
#Write a new XML tag and add it into the document
   newexpertise = doc.createElement("expertise")
   newexpertise.setAttribute("name", "BigData")
   doc.firstChild.appendChild(newexpertise)
   print " "

   expertise = doc.getElementsByTagName("expertise")
   print "%d expertise:" % expertise.length
   for skill in expertise:
     print skill.getAttribute("name")
    
if name == "__main__":
  main();

Python 3 Przykład

import xml.dom.minidom

def main():
    # use the parse() function to load and parse an XML file
    doc = xml.dom.minidom.parse("Myxml.xml");

    # print out the document node and the name of the first child tag
    print (doc.nodeName)
    print (doc.firstChild.tagName)
    # get a list of XML tags from the document and print each one
    expertise = doc.getElementsByTagName("expertise")
    print ("%d expertise:" % expertise.length)
    for skill in expertise:
        print (skill.getAttribute("name"))

    # Write a new XML tag and add it into the document
    newexpertise = doc.createElement("expertise")
    newexpertise.setAttribute("name", "BigData")
    doc.firstChild.appendChild(newexpertise)
    print (" ")

    expertise = doc.getElementsByTagName("expertise")
    print ("%d expertise:" % expertise.length)
    for skill in expertise:
        print (skill.getAttribute("name"))

if __name__ == "__main__":
    main();

Jak analizować XML za pomocą ElementTree

ElementTree to interfejs API do manipulowania kodem XML. ElementTree to łatwy sposób na przetwarzanie plików XML.

Jako przykładowe dane wykorzystujemy następujący dokument XML:

<data>
   <items>
      <item name="expertise1">SQL</item>
      <item name="expertise2">Python</item>
   </items>
</data>

Czytanie XML za pomocą ElementTree:

musimy najpierw zaimportować moduł xml.etree.ElementTree.

import xml.etree.ElementTree as ET

Teraz pobierzmy element główny:

root = tree.getroot()

Poniżej znajduje się kompletny kod umożliwiający odczyt powyższych danych XML

import xml.etree.ElementTree as ET
tree = ET.parse('items.xml')
root = tree.getroot()

# all items data
print('Expertise Data:')

for elem in root:
   for subelem in elem:
      print(subelem.text)

wydajność:

Expertise Data:
SQL
Python

Podsumowanie

Python umożliwia analizę całego dokumentu XML za jednym razem, a nie tylko jednej linii na raz. Aby przeanalizować dokument XML, musisz mieć cały dokument w pamięci.

  • Aby przeanalizować dokument XML
  • Zaimportuj xml.dom.minidom
  • Użyj funkcji „parse”, aby przeanalizować dokument ( doc=xml.dom.minidom.parse (nazwa pliku);
  • Wywołaj listę tagów XML z dokumentu XML za pomocą kodu (=doc.getElementsByTagName( „nazwa tagów XML”)
  • Aby utworzyć i dodać nowy atrybut w dokumencie XML
  • Użyj funkcji „createElement”