/ / Sestavte plánovač stahování s malou programovací schopností

Vytvořte plánovač stahování s malou programovací schopností

Všichni rádi stahujeme věci z internetu,a existuje spousta skvělých nástrojů pro správu stahování, které můžeme použít k naplánování stahování. Může být snadnější použít správce stahování, ale není nic škodlivého při prozkoumávání nástrojů, které již jsou součástí našeho Ubuntu a jejich plného využití.

V tomto článku vám ukážeme vestavěný software v Ubuntu, který můžeme použít ke stahování věcí z internetu pomocí wget. Kromě toho vám ukážeme, jak naplánovat stahování pomocí Cron.

Stáhnout pomocí Wget

Wget je bezplatný softwarový balíček pro načítánísoubory používající HTTP, HTTPS a FTP, nejčastěji používané internetové protokoly. Je to neinteraktivní nástroj příkazového řádku, takže jej lze snadno volat ze skriptů, cron úloh, terminálů bez podpory X-Windows atd.

Otevřete svůj terminál a podívejme se, jak můžeme pomocí wgetu stahovat věci ze sítě. Základní syntaxe stahování pomocí wgetu je následující:

wget [možnost]… [URL]…

Tento příkaz stáhne příručku wget na váš místní disk

wget http://www.gnu.org/software/wget/manual/wget.pdf

Linux Cron

Ubuntu je dodáván s démonem cronplánování úkolů, které mají být provedeny v určitém čase. Crontab umožňuje určit akce a časy, které mají být provedeny. Takto byste normálně naplánovali úlohu pomocí nástroje příkazového řádku.

Otevřete okno terminálu a zadejte crontab -e.

Každá ze sekcí v crontabu je oddělenamezeru, přičemž poslední část má v sobě jeden nebo více mezer. Záznam cron se skládá z minuty (0-59), hodiny (0-23, 0 = půlnoc), dne (1-31), měsíce (1-12), pracovního dne (0-6, 0 = neděle), příkazu. Třetí položka ve výše uvedeném crontab stáhne wget.pdf ve 2 hodiny ráno. První položka (0) a druhá položka (2) znamenají 2:00. Třetí až pátý záznam (*) znamená jakoukoli denní dobu, měsíc nebo týden. Poslední položkou je příkaz wget ke stažení souboru wget.pdf ze zadané adresy URL.

To je základní na wgetu a jak Cron pracuje. Vezměme si příklad skutečného života, jak naplánovat stahování.

Plánování stahování

Chystáme se stáhnout Firefox 3.6 ve 2 ráno. Protože náš poskytovatel internetových služeb poskytuje pouze omezené množství dat, musíme stahování zastavit v 8 hodin. Takto vypadá nastavení.

Ignorujte první 2 záznamy ve výše uvedeném crontabu. Třetí a čtvrtý příkaz jsou pouze 2 příkazy, které potřebujete. Třetí příkaz nastaví úlohu, která stáhne Firefox ve 2:00:

[kód]
0 2 * * * wget -c http://download.mozilla.org/?product=firefox-3.6.6&os=win&lang=en-GB
[/kód]

Volby -c označují, že by wget měl obnovit stávající stahování, pokud nebylo dokončeno.

Čtvrtý příkaz zastaví wget v 8 hodin. „Killall“ je unixový příkaz, který zabíjí procesy podle názvu.

[kód]
0 8 * * * killall wget
[/kód]

Killall wget řekne Ubuntu, aby zastavil wget v stahování souboru v 8 hodin.

Další užitečné příkazy wget

1. Určení adresáře pro stažení souboru

[kód]
wget –output-document = / home / zainul / Soubory ke stažení / wget manual.pdf http://www.gnu.org/software/wget/manual/wget.pdf
[/kód]

volba –output-document vám umožní určit adresář a název stahovaného souboru

2. Stahování webové stránky

wget také dokáže stáhnout webovou stránku.

[kód]
wget -m http://www.google.com/profiles/zainul.franciscus
[/kód]

Výše uvedený příkaz stáhne celou moji webovou stránku google profilu. Možnost „-m“ říká wgetu, aby stáhl „zrcadlový“ obraz zadané adresy URL.

Další důležitou možností je říct wgetu, kolik odkazů by mělo následovat při stahování webové stránky.

[kód]
wget -r -l1 http://www.google.com/profiles/zainul.franciscus
[/kód]

Výše uvedený příkaz wget používá dvě možnosti. První možnost „-r“ řekne wgetu, aby stáhl určený web rekurzivně. Druhá možnost „-l1“ říká wgetu, aby získal pouze první úroveň odkazů z daného určeného webu. Můžeme nastavit až tři úrovně „-l2“ a „-l3“.

3. Ignorování vstupu robota

Webový master udržuje textový soubor s názvem Robot.txt. Robot.txt udržuje seznam adres URL, které by prolézací modul webové stránky, jako je wget, neměl procházet. Můžeme říct wgetu, aby ignoroval možnost „Robot.txt“ s možností „-erobots = off“. Následující příkaz říká wgetu, aby stáhl první stránku mého profilu Google a ignoroval ‘Robot.txt.

[kód]
wget -erobots = off http://www.google.com/profiles/zainul.franciscus
[/kód]

Další užitečnou možností je -U. Tato volba zamaskuje wget jako prohlížeč. Mějte na paměti, že maskování aplikace jako jiné aplikace může porušit podmínky a služby poskytovatele webových služeb.

[kód]
wget -erobots = off -U Mozilla http://www.google.com/profiles/zainul.franciscus
[/kód]

Závěr

Wget je velmi stará škola, ale hacknutelná GNUsoftwarový balíček, který můžeme použít ke stažení souborů. Wget je interaktivní nástroj příkazového řádku, což znamená, že jej můžeme nechat běžet na našem počítači na pozadí, aniž bychom museli spouštět jakoukoli aplikaci. Podívejte se na manuálovou stránku wgetu

[kód]
$ man wget
[/kód]

porozumět dalším možnostem, které můžeme použít s wgetem.

Odkazy

Wget Manual
Jak kombinovat dva stažené soubory, když wget selže v polovině
Linux QuickTip: Stahování a odvíjení v jednom kroku