Semalt utarbetar på URLitor - Mycket coolt verktyg för webbskrapning och datauttag

URLitor är ett nytt men effektivt webbskrapnings- och datauttagningsverktyg. För att använda URLitor behöver du bara lägga till en lista över alla URL: er som innehållet du vill skrapa online i den medföljande mallen. Sedan måste du ange HTML-elementet du vill extrahera från webbsidorna och klicka på skicka-knappen. Det är lika enkelt som det. Med det här verktyget behöver du inte göra en kopia eller klistra in från webbläsaren längre.

xPath är ett språk som används för att söka efter information i XML-filer. Den använder vissa uttryck för att välja noduppsättningar eller noder i XML-filer. De uttryck som XPath förstår liknar de som används med vanliga datorfiler eller dokument.

Även om XPath används med flera programmeringsspråk har detta verktyg byggts för användare som inte har någon programmeringskunskap. Så du behöver inte vara programmerare för att använda det. Med det här verktyget kan du extrahera data från flera HTML- och XML-sidor.

För enkelhetens användning har flera ofta använda XPath-uttryck fördefinierats till en rullgardinsmeny så att användare bara behöver välja något av dem beroende på deras syfte. Men mycket erfarna användare av XPath har friheten att använda sina anpassade uttryck närhelst de vill.

Verktyget har utformats med en kapacitet på 100 webbadresser i en enda skrapningssession och det tar högst 10 uttryck på en gång. Med andra ord kan den skrapa data från högst 100 webbadresser åt gången.

Några viktiga XPath-anpassade uttryck som kan modifieras eller läggas till har beskrivits direkt nedan:

1. // div [2] - Detta uttryck väljer den andra div hierarkiskt;

2. // link [@ rel = 'canonical'] / @ href - Detta uttryck väljer platsen (ref) för taggen som används för att ställa in rel-attributet lika med canonical;

3. / html / head / meta [@ name = 'description'] / @ content - Detta uttryck används för att välja innehåll;

4. // * [@ class = 'klassnamn'] - Du kan använda detta uttryck för att välja alla element med 'klassnamn' som CSS-klass;

5. // h2 | // title - Detta uttryck kan användas för att välja både den första H2 och sidtitel;

6. // * [name () = 'h1' eller name () = 'title'] - Detta uttryck fungerar exakt som det ovan. Men uttrycket som presenteras ovan är bättre eftersom det är kortare;

7. // * [innehåller (@klass, 'tum')] - Detta uttryck väljer alla element som har CSS-klass och innehåller också 'tum' för extraktion;

8. // överordnad :: * [text () = 'Välkommen'] - Detta uttryck väljer överordnade för alla element som har texten 'Välkommen';

Detta verktyg är en Beta-version och kan fortfarande fungera med några fel. Det är dock fortfarande ett bra verktyg för användare med liten eller ingen programmeringskunskap eftersom alla ofta använda uttryck har fördefinierats till en meny som nämnts tidigare.

mass gmail