/ / Vytvorte si plánovač sťahovania s malou programátorskou schopnosťou

Zostavte plánovač sťahovania s malou zručnosťou pri programovaní

Všetci radi sťahujeme obsah z internetu,a existuje veľa skvelých nástrojov na správu sťahovania, ktoré môžeme použiť na naplánovanie sťahovania. Môže byť jednoduchšie použiť správcu sťahovania, ale nie je na škodu preskúmať nástroje, ktoré sú už súčasťou nášho Ubuntu, a využívať ich naplno.

V tomto článku vám ukážeme vstavaný softvér v Ubuntu, pomocou ktorého môžeme sťahovať obsah z internetu pomocou wget. Okrem toho vám ukážeme, ako naplánovať sťahovanie pomocou Cron.

Stiahnutie pomocou Wget

Wget je bezplatný softvérový balík na načítaniesúbory používajúce HTTP, HTTPS a FTP, najbežnejšie používané internetové protokoly. Je to neinteraktívny nástroj príkazového riadku, takže ho možno ľahko volať zo skriptov, úloh cron, terminálov bez podpory X-Windows atď.

Otvorte terminál a poďme preskúmať, ako môžeme pomocou wget sťahovať obsah z internetu. Základná syntax sťahovania pomocou wget je nasledovná:

wget [možnosť] ... [URL] ...

Tento príkaz stiahne príručku wget do vášho lokálneho disku

wget http://www.gnu.org/software/wget/manual/wget.pdf

Linux Cron

Ubuntu je dodávaný s démonom cron používaným preplánovanie úloh, ktoré sa majú vykonať v určitom čase. Crontab vám umožňuje určiť akcie a časy, ktoré by sa mali vykonať. Takto by ste normálne plánovali úlohu pomocou nástroja príkazového riadku.

Otvorte okno terminálu a zadajte crontab -e.

Každá zo sekcií na karte crontab je oddelená znakommedzera, pričom posledná časť má jeden alebo viac medzier. Záznam cronu pozostáva z minúty (0-59), hodiny (0-23, 0 = polnoc), dňa (1-31), mesiaca (1-12), dňa v týždni (0-6, 0 = nedeľa), príkazu. Tretia položka vo vyššie uvedenom zozname crontab sťahuje súbor wget.pdf o 2:00. Prvý záznam (0) a druhý záznam (2) znamenajú 2:00. Tretí až piaty záznam (*) znamená ktorúkoľvek dennú dobu, mesiac alebo týždeň. Poslednou položkou je príkaz wget na stiahnutie súboru wget.pdf zo zadanej adresy URL.

To je základné informácie o wget a spôsob fungovania Cronu. Pozrime sa na príklad z reálneho života, ako naplánovať stiahnutie.

Plánovanie sťahovania

Stiahneme si Firefox 3.6 o 2:00. Pretože náš poskytovateľ internetových služieb poskytuje iba obmedzené množstvo dát, je potrebné zastavenie sťahovania o 8:00. Takto vyzerá nastavenie.

Prvé 2 záznamy vo vyššie uvedenej karte crontab ignorujte. Tretí a štvrtý príkaz sú jediné 2 príkazy, ktoré potrebujete. Tretí príkaz nastaví úlohu, ktorá stiahne Firefox o 2:00:

[kód]
0 2 * * * wget -c http://download.mozilla.org/?product=firefox-3.6.6&os=win&lang=sk-SK
[/ kód]

Možnosti -c označujú, že wget by mal pokračovať v existujúcom sťahovaní, ak nebolo dokončené.

Štvrtý príkaz zastaví wget o 8:00. ‘Killall’ je unixový príkaz, ktorý zabíja procesy podľa názvu.

[kód]
0 8 * * * killall wget
[/ kód]

Killall wget povie Ubuntu, aby zastavilo wget v sťahovaní súboru o 8:00.

Ďalšie užitočné príkazy wget

1. Zadajte adresár na stiahnutie súboru

[kód]
wget –output-document = / home / zainul / Downloads / wget manual.pdf http://www.gnu.org/software/wget/manual/wget.pdf
[/ kód]

voľba –výstup-dokument vám umožňuje určiť adresár a názov súboru, ktorý chcete stiahnuť

2. Stiahnutie webovej stránky

wget je tiež schopný stiahnuť si webovú stránku.

[kód]
wget -m http://www.google.com/profiles/zainul.franciscus
[/ kód]

Vyššie uvedený príkaz stiahne celú moju webovú stránku s profilom google. Voľba „-m“ informuje wget o stiahnutí „zrkadlového“ obrázka zadanej adresy URL.

Ďalšou dôležitou možnosťou je povedať wget, koľko odkazov by mal nasledovať, keď sťahuje webovú stránku.

[kód]
wget -r -l1 http://www.google.com/profiles/zainul.franciscus
[/ kód]

Vyššie uvedený príkaz wget používa dve možnosti. Prvá voľba „-r“ povie wgetu, aby určenú webovú stránku stiahol rekurzívne. Druhá možnosť ‘-l1’ znamená, že wget má získať iba prvú úroveň odkazov zo zadaného webu. Môžeme nastaviť až tri úrovne ‘-l2’ a ‘-l3’.

3. Ignorovanie vstupu robota

Majster webu udržiava textový súbor s názvom Robot.txt. Súbor „Robot.txt“ udržiava zoznam adries URL, ktoré by indexový prehľadávač webových stránok, ako napríklad wget, nemal prehľadávať. Môžeme povedať, že wget má ignorovať súbor „Robot.txt“ s voľbou „-erobots = off“. Nasledujúci príkaz povie wget, aby stiahol prvú stránku môjho profilu Google a ignoroval súbor „Robot.txt“.

[kód]
wget -erobots = off http://www.google.com/profiles/zainul.franciscus
[/ kód]

Ďalšou užitočnou možnosťou je -U. Táto možnosť maskuje wget ako prehliadač. Pamätajte, že maskovanie aplikácie ako inej aplikácie môže porušiť podmienky a podmienky poskytovateľa webových služieb.

[kód]
wget -erobots = off -U Mozilla http://www.google.com/profiles/zainul.franciscus
[/ kód]

záver

Wget je veľmi stará škola, napriek tomu je hackovateľná GNUsoftvérový balík, ktorý môžeme použiť na stiahnutie súborov. Wget je interaktívny nástroj príkazového riadku, čo znamená, že ho môžeme nechať bežať na počítači na pozadí bez toho, aby sme museli spúšťať akékoľvek aplikácie. Prezrite si stránku manuálov wget

[kód]
$ muž wget
[/ kód]

pochopiť ďalšie možnosti, ktoré môžeme použiť s wget.

odkazy

Wget Manual
Ako skombinovať dva stiahnuté súbory, keď wget zlyhá v polovici
Linux QuickTip: Sťahovanie a odvíjanie v jednom kroku