Puncte:2

extragerea numelor de fișiere din elementele href

drapel in

Am un document care conține o listă de fișiere. Care este modalitatea simplă de a extrage nume de fișiere în interiorul elementului href (fără ghilimele) și de a le copia în listă, separate prin întreruperi de rând?

<manifest>
<item id="ncx" href="toc.ncx" media-type="application/x-dtbncx+xml"/>
<item id="css" href="845214570.css" media-type="text/css"/>
<item id="cover-image" href="845214570.jpg" media-type="image/jpeg"/>
<item id="nav" href="nav.xhtml" media-type="application/xhtml+xml" properties="nav"/>
<item id="cover" href="cover.xhtml" media-type="application/xhtml+xml"/>
<item id="author" href="author.xhtml" media-type="application/xhtml+xml"/>
<item id="title" href="title.xhtml" media-type="application/xhtml+xml"/>
<item id="copy" href="copy.xhtml" media-type="application/xhtml+xml"/>
<item id="contents" href="contents.xhtml" media-type="application/xhtml+xml"/>
<item id="preface" href="preface.xhtml" media-type="application/xhtml+xml"/>
<item id="ack" href="ack.xhtml" media-type="application/xhtml+xml"/>
<item id="ch1" href="ch1.xhtml" media-type="application/xhtml+xml"/>
<item id="ch2" href="ch2.xhtml" media-type="application/xhtml+xml"/>
<item id="ch3" href="ch3.xhtml" media-type="application/xhtml+xml"/>
<item id="ch4" href="ch4.xhtml" media-type="application/xhtml+xml"/>
<item id="ch5" href="ch5.xhtml" media-type="application/xhtml+xml"/>
<item id="ch6" href="ch6.xhtml" media-type="application/xhtml+xml"/>
<item id="ch7" href="ch7.xhtml" media-type="application/xhtml+xml"/>
<item id="ch8" href="ch8.xhtml" media-type="application/xhtml+xml"/>
<item id="ch9" href="ch9.xhtml" media-type="application/xhtml+xml"/>
<item id="ch10" href="ch10.xhtml" media-type="application/xhtml+xml"/>
<item id="ch11" href="ch11.xhtml" media-type="application/xhtml+xml"/>
<item id="app" href="app.xhtml" media-type="application/xhtml+xml"/>
<item id="appb" href="appb.xhtml" media-type="application/xhtml+xml"/>
<item id="appc" href="appc.xhtml" media-type="application/xhtml+xml"/>
<item id="index" href="index.xhtml" media-type="application/xhtml+xml"/>
<item id="img-f0019-01" href="f0019-01.jpg" media-type="image/jpeg"/>
<item id="img-f0027-01" href="f0027-01.jpg" media-type="image/jpeg"/>
<item id="img-f0029-01" href="f0029-01.jpg" media-type="image/jpeg"/>
</manifest>
Puncte:6
drapel in

Pentru un fișier XML cu acest format simplu, puteți utiliza grep:

grep -Po 'href="\K[^"]*' fișier.xml > nume fișiere.lst

Cu toate acestea, dacă ai avea o mai complexă xml, ați putea și ar trebui să preferați un bun xml analizator, de ex. xmlstarlet:

xmlstarlet sel -t -v '//item/@href' -n file.xml > filenames.lst

Acesta poate fi instalat prin

sudo apt install xmlstarlet

După cum ați etichetat întrebarea dvs piton, bineînțeles că poți folosi și asta:

#!/usr/bin/env python3
importați xml.etree.ElementTree ca ET
root = ET.parse('file.xml')
pentru elementul din root.findall('.//item'):
    print(item.attrib['href'])
minto avatar
drapel in
Grep-ul funcționează bine. Mulțumesc.
minto avatar
drapel in
pentru python (am python 2.x), arată eroarea `./extract.py ./extract.py:4: FutureWarning: Această căutare este întreruptă în versiunea 1.3 și anterioară și va fi remediată într-o versiune viitoare. Dacă vă bazați pe comportamentul actual, schimbați-l în „.//item” pentru elementul din root.findall('//item'):` Am schimbat, dar nu s-a imprimat niciun rezultat.
pLumo avatar
drapel in
Am schimbat asta pentru a fi compatibil cu versiunea mai veche de python.
drapel hr
O altă opțiune pe care am descoperit-o recent este `xq` din [yq suite](https://github.com/kislyuk/yq) care activează interogări asemănătoare JSON pe documente xml, de ex. `xq -r '.manifest.item[] | „@href”’ fișier.xml`
bac0n avatar
drapel cn
...sau `hxselect -s \n -c 'item::attr(href)'

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.