Cred ca intrebarea ta este: cum pot sa elimin tag-urile XML si sa ramana doar datele, nu?
Daca e asta intrebarea, atunci poti face asta cu notepad++ sau orice tool care stie find&replace cu regular expressions.
Dai cautare dupa: < [ ^ > ] + > (stergi spatiile dintre caractere, daca incercam sa le pun corect, nu mi le accepta interfata TPU)
La replace lasi blank.
Dai replace all.
Si-i spui editorului sa foloseaca "regular expressions". In Notepad++ e o bifa pe acolo, in dialogul de "Replace".
Nota: ca sa intelegi ce reprezinta acel sir de caractere ca si expresie regulata, poti folosi site-ul: http://xenon.stanford.edu/~xusch/regexp/
Practic, s-ar traduce asa: cauta orice forma de tipul < >, care sa contina orice in interior cu exceptia lui >. Acel ^> inseamna "not a character like >", iar acel plus inseamna "mergi mai departe pana cand ajungi la >" (ultimul caracter din string-ul de mai sus).
De ce "not a character like >"?
Pentru ca daca nu ai da aceasta conditie, practic ti-ar elimina tot ce gaseste intre primul < si ultimul > intalnit. Adica...tot textul din fisier.
Daca-l dai in forma propusa de mine, atunci va elimina tag cu tag, unul dupa altul, lasand ce nu este intre < si > in pace.
Poti face convertire online XML in PDF aici:
https://onlineconvertfree.com/convert-format/xml-to-pdf