Parsings ar Python palīdzību. Web-skrāpēšana darbībā Ja programmēšana ir maģija, tad web-skrāpēšana ir īsta burvība. Uzrakstot vienkāršu automatizētu programmu, var sūtīt pieprasījumus web-serveriem, saņemt atbildes ar datiem un pēc tam analizēt šos datus un izvilkt nepieciešamo informāciju. Šis atjaunotais trešais izdevums ne tikai iepazīstinās jūs ar web-skrāpēšanu, bet arī kalpos par izsmeļošu ceļvedi datu vākšanai praktiski jebkura veida informācijai mūsdienu internetā. I daļā galvenā uzmanība tiek pievērsta web-skrāpēšanas mehānikai: kā ar Python sūtīt pieprasījumus web-serveriem, apstrādāt atbildes un automatizēt mijiedarbību ar vietnēm. II daļā tiek pētīti konkrētāki rīki un lietojumprogrammas, kas noderēs jebkurā web-skrāpēšanas scenārijā.
Grāmata parādīs, kā:
• analizēt sarežģītas HTML lapas;
• izstrādāt web skenerus, izmantojot Scrapy ietvaru;
• glabāt datus, kas iegūti ar skrāpēšanu;
• lasīt un izvilkt datus no dokumentiem;
• attīrīt un normalizēt slikti formatētus datus;
• lasīt un rakstīt informāciju dabiskajās valodās;
• veikt meklēšanu formās un pieteikšanās lapās;
• veikt skrāpēšanu JavaScript kodā un strādāt ar API;
• rakstīt un izmantot programmas, lai pārvērstu attēlus tekstā;
• apiet pret-skrāpēšanas slazdus un botu bloķētājus;
• testēt savas vietnes, izmantojot skrāpēšanu.