Parsing s pomoschyu Python. Veb-skraping v deystvii Esli programmirovanie - magiya, to veb-skraping - nastoyaschee koldovstvo. Napisav prostuyu avtomatizirovannuyu programmu, mozhno otpravlyat zaprosy veb-serveram, poluchat otvety s dannymi, a zatem analizirovat eti dannye i izvlekat neobhodimuyu informatsiyu.
Eto obnovlennoe trete izdanie knigi ne tolko poznakomit vas s veb-skrapingom, no i posluzhit ischerpyvayuschim rukovodstvom po sboru prakticheski lyubyh vidov dannyh v sovremennom Internete.
V chasti I osnovnoe vnimanie udeleno mehanike veb-skrapinga: kak s pomoschyu Python otpravlyat zaprosy veb-serveram, obrabatyvat otvety i avtomatizirovat vzaimodeystvie s saytami.
V chasti II issleduyutsya bolee konkretnye instrumenty i prilozheniya, kotorye prigodyatsya pri lyubom stsenarii veb-skrapinga. Kniga pokazhet, kak:
. analizirovat slozhnye HTML-stranitsy;
. razrabatyvat veb-skanery s pomoschyu freymvorka Scrapy;
. hranit dannye, poluchennye s pomoschyu skrapinga;
. chitat i izvlekat dannye iz dokumentov;
. ochischat i normalizovyvat ploho otformatirovannye dannye;
. chitat i zapisyvat informatsiyu na estestvennyh yazykah;
. vypolnyat poisk po formam i stranitsam vhoda;
. vypolnyat skraping JavaScript-koda i rabotat s API;
. pisat i ispolzovat programmy dlya preobrazovaniya izobrazheniy v tekst;
. obhodit protivoskrapingovye lovushki i blokatory botov;
. testirovat svoi veb-sayty s pomoschyu skrapinga.