乱欲视频在线播放毛片,美女被操一区二区,女女又爽又黄免费,亚洲无码精品久久久,亚洲不卡电影,亚洲精品午夜成人片DY888,亚洲色文,成人性生活片无码免费

1. scrapy簡介

scrapy是基于事件驅(qū)動的Twisted框架下用純python寫的爬蟲框架。很早之前就開始用scrapy來爬取網(wǎng)絡(luò)上的圖片和文本信息，一直沒有把細(xì)節(jié)記錄下來。這段時間，因為工作需要又重拾scrapy爬蟲，本文和大家分享下，包你一用就會，歡迎交流。

1.1 scrapy框架

scrapy框架包括5個主要的組件和2個中間件Hook。

ENGIINE：整個框架的控制中心，控制整個爬蟲的流程。根據(jù)不同的條件添加不同的事件（就是用的Twisted）
SCHEDULER：事件調(diào)度器
DOWNLOADER：接收爬蟲請求，從網(wǎng)上下載數(shù)據(jù)
SPIDERS：發(fā)起爬蟲請求，并解析DOWNLOADER返回的網(wǎng)頁內(nèi)容，同時和數(shù)據(jù)持久化進(jìn)行交互,需要開發(fā)者編寫
ITEM PIPELINES：接收SPIDERS解析的結(jié)構(gòu)化的字段，進(jìn)行持久化等操作，需要開發(fā)者編寫
MIDDLEWARES：ENGIINE和SPIDERS, ENGIINE和DOWNLOADER之間一些額外的操作，hook的方式提供給開發(fā)者

從上可知，我們只要實現(xiàn)SPIDERS（要爬什么網(wǎng)站，怎么解析）和ITEM PIPELINES（如何處理解析后的內(nèi)容）就可以了。其他的都是有框架幫你完成了。（圖片來自網(wǎng)絡(luò)，如果侵權(quán)聯(lián)系必刪）

1.2 scrapy數(shù)據(jù)流

我們再詳細(xì)看下組件之間的數(shù)據(jù)流，會更清楚框架的內(nèi)部運(yùn)作。（圖片來自網(wǎng)絡(luò)，如果侵權(quán)聯(lián)系必刪）

SPIDERS發(fā)爬蟲請求給ENGIINE，告訴它任務(wù)來了

ENGIINE將請求添加到SCHEDULER調(diào)度隊列里, 說任務(wù)就交給你了，給我安排好

SCHEDULER看看手里的爬取請求很多，挑一個給ENGIINE，說大哥幫忙轉(zhuǎn)發(fā)給下載DOWNLOADER

ENGIINE：好的， DOWNLOADER你的任務(wù)來了

DOWNLOADER：開始下載了，下載好了，任務(wù)結(jié)果交給ENGIINE

ENGIINE將結(jié)果給SPIDERS，你的一個請求下載好了，快去解析吧

SPIDERS：好的，解析產(chǎn)生了結(jié)果字段。又給SPIDERS轉(zhuǎn)發(fā)給ITEM PIPELINES

ITEM PIPELINES: 接收到字段內(nèi)容，保存起來。

第1步到第8步，一個請求終于完成了。是不是覺得很多余？ENGIINE夾在中間當(dāng)傳話筒，能不能直接跳過？可以考慮跳過了會怎么樣。

這里分析一下

SCHEDULER的作用：任務(wù)調(diào)度，控制任務(wù)的并發(fā)，防止機(jī)器處理不過來
ENGIINE：就是基于Twisted框架, 當(dāng)事件來（比如轉(zhuǎn)發(fā)請求）的時候，通過回調(diào)的方式來執(zhí)行對應(yīng)的事件。我覺得ENGIINE讓所有操作變的統(tǒng)一，都是按照事件的方式來組織其他組件，其他組件以低耦合的方式運(yùn)作；對于一種框架來說，無疑是必備的。

2. 基礎(chǔ)：XPath

寫爬蟲最重要的是解析網(wǎng)頁的內(nèi)容，這個部分就介紹下通過XPath來解析網(wǎng)頁，提取內(nèi)容。

2.1 HTML節(jié)點和屬性

（圖片來自網(wǎng)絡(luò)，如果侵權(quán)聯(lián)系必刪）

2.2 解析語法

a / b：‘/’在 xpath里表示層級關(guān)系，左邊的 a是父節(jié)點，右邊的 b是子節(jié)點
a // b：表示a下所有b，直接或者間接的
[@]：選擇具有某個屬性的節(jié)點

//div[@classs], //a[@x]：選擇具有 class屬性的 div節(jié)點、選擇具有 x屬性的 a節(jié)點
//div[@class="container"]：選擇具有 class屬性的值為 container的 div節(jié)點

//a[contains(@id, "abc")]：選擇 id屬性里有 abc的 a標(biāo)簽

一個例子

response.xpath('//div[@class="taglist"]/ul//li//a//img/@data-original').get_all()
#?獲取所有class屬性（css）為taglist的div，?下一個層ul下的所有l(wèi)i下所有a下所有img標(biāo)簽下data-original屬性

#?data-original這里放的是圖片的url地址

更多詳見

http://zvon.org/comp/r/tut-XPath_1.html#Pages~List_of_XPaths

3. 安裝部署

Scrapy 是用純python編寫的，它依賴于幾個關(guān)鍵的python包（以及其他包）：

lxml 一個高效的XML和HTML解析器
parsel ，一個寫在lxml上面的html/xml數(shù)據(jù)提取庫,
w3lib ，用于處理URL和網(wǎng)頁編碼的多用途幫助程序
twisted 異步網(wǎng)絡(luò)框架
cryptography 和 pyOpenSSL ，處理各種網(wǎng)絡(luò)級安全需求

#?安裝
pip?install?scrapy

4. 創(chuàng)建爬蟲項目

scrapy?startproject?sexy

#?創(chuàng)建一個后的項目目錄
#?sexy
#?│??scrapy.cfg
#?│
#?└─sexy
#?????│??items.py
#?????│??middlewares.py
#?????│??pipelines.py
#?????│??settings.py
#?????│??__init__.py
#?????│
#?????├─spiders
#?????│??│??__init__.py
#?????│??│
#?????│??└─__pycache__
#?????└─__pycache__

#?執(zhí)行?需要到scrapy.cfg同級別的目錄執(zhí)行
scrapy?crawl?sexy

從上可知，我們要寫的是spiders里的具體的spider類和items.py和pipelines.py（對應(yīng)的ITEM PIPELINES）

5. 開始scrapy爬蟲

5.1 簡單而強(qiáng)大的spider

這里實現(xiàn)的功能是從圖片網(wǎng)站中下載圖片，保存在本地， url做了脫敏。需要注意的點在注釋要標(biāo)明

類要繼承 scrapy.Spider
取一個唯一的name
爬取的網(wǎng)站url加到start_urls列表里
重寫parse利用xpath解析reponse的內(nèi)容

可以看到parse實現(xiàn)的時候沒有轉(zhuǎn)發(fā)給ITEM PIPELINES，直接處理了。這樣簡單的可以這么處理，如果業(yè)務(wù)很復(fù)雜，建議交給ITEM PIPELINES。后面會給例子

#?目錄結(jié)果為：spiders/sexy_spider.py
import?scrapy
import?os
import?requests
import?time


def?download_from_url(url):
????response?=?requests.get(url,?stream=True)
????if?response.status_code?==?requests.codes.ok:
????????return?response.content
????else:
????????print('%s-%s'?%?(url,?response.status_code))
????????return?None


class?SexySpider(scrapy.Spider):
???#?如果有多個spider，?name要唯一
????name?=?'sexy'
????allowed_domains?=?['uumdfdfnt.94demo.com']
????allowed_urls?=?['http://uumdfdfnt.94demo.com/']

????#?需要爬取的網(wǎng)站url加到start_urls?list里
????start_urls?=?['http://uumdfdfnt.94demo.com/tag/dingziku/index.html']
????save_path?=?'/home/sexy/dingziku'

????def?parse(self,?response):
????????#?解析網(wǎng)站，獲取圖片列表
????????img_list?=?response.xpath('//div[@class="taglist"]/ul//li//a//img/@data-original').getall()
????????time.sleep(1)

????????#?處理圖片，?具體業(yè)務(wù)操作，?可交給items，?見5.2?items例子
????????for?img_url?in?img_list:
????????????file_name?=?img_url.split('/')[-1]
????????????content?=?download_from_url(img_url)
????????????if?content?is?not?None:
????????????????with?open(os.path.join(self.save_path,?file_name),?'wb')?as?fw:
????????????????????fw.write(content)

????????#?自動下一頁（見5.3?自動下一頁）
????????next_page?=?response.xpath('//div[@class="page?both"]/ul/a[text()="下一頁"]/@href').get()
????????if?next_page?is?not?None:
????????????next_page?=?response.urljoin(next_page)
????????????yield?scrapy.Request(next_page,?callback=self.parse)

5.2 items和pipline例子

這里說明下兩個的作用

items：提供一個字段存儲， spider會將數(shù)據(jù)存在這里
pipline：會從items取數(shù)據(jù)，進(jìn)行業(yè)務(wù)操作，比如5.1中的保存圖片；又比如存儲到數(shù)據(jù)庫中等

我們來改寫下上面的例子

items.py其實就是定義字段scrapy.Field()

import?scrapy
class?SexyItem(scrapy.Item):
????#?define?the?fields?for?your?item?here?like:
????#?name?=?scrapy.Field()
????img_url?=?scrapy.Field()

spiders/sexy_spider.py

import?scrapy
import?os
#?導(dǎo)入item
from?..items?import?SexyItem

class?SexySpider(scrapy.Spider):
???#?如果有多個spider，?name要唯一
????name?=?'sexy'
????allowed_domains?=?['uumdfdfnt.94demo.com']
????allowed_urls?=?['http://uumdfdfnt.94demo.com/']

????#?需要爬取的網(wǎng)站url加到start_urls?list里
????start_urls?=?['http://uumdfdfnt.94demo.com/tag/dingziku/index.html']
????save_path?=?'/home/sexy/dingziku'

????def?parse(self,?response):
????????#?解析網(wǎng)站，獲取圖片列表
????????img_list?=?response.xpath('//div[@class="taglist"]/ul//li//a//img/@data-original').getall()
????????time.sleep(1)

????????#?處理圖片，?具體業(yè)務(wù)操作，?可交給yield?items
????????for?img_url?in?img_list:
????????????items?=?SexyItem()
????????????items['img_url']?=?img_url
????????????yield?items

pipelines.py

import?os
import?requests


def?download_from_url(url):
????response?=?requests.get(url,?stream=True)
????if?response.status_code?==?requests.codes.ok:
????????return?response.content
????else:
????????print('%s-%s'?%?(url,?response.status_code))
????????return?None


class?SexyPipeline(object):

????def?__init__(self):
????????self.save_path?=?'/tmp'

????def?process_item(self,?item,?spider):
????????if?spider.name?==?'sexy':
????????????#?取出item里內(nèi)容
????????????img_url?=?item['img_url']
????????????
????????????#?業(yè)務(wù)處理
????????????file_name?=?img_url.split('/')[-1]
????????????content?=?download_from_url(img_url)
????????????if?content?is?not?None:
????????????????with?open(os.path.join(self.save_path,?file_name),?'wb')?as?fw:
????????????????????fw.write(content)
????????return?item

重要的配置要開啟在settings.py中開啟piplines類，數(shù)值表示優(yōu)先級

ITEM_PIPELINES?=?{
???'sexy.pipelines.SexyPipeline':?300,
}

5.3 自動下一頁

有時候我們不僅要爬取請求頁面中的內(nèi)容，還要遞歸式的爬取里面的超鏈接url，特別是下一頁這種，解析內(nèi)容和當(dāng)前頁面相同的情況下。一種笨方法是手動加到start_urls里。大家都是聰明人來試試這個。

先在頁面解析下下一頁的url
scrapy.Request(next_page, callback=self.parse) 發(fā)起一個請求，并調(diào)用parse來解析，當(dāng)然你可以用其他的解析

完美了，完整例子見5.1

next_page?=?response.xpath('//div[@class="page?both"]/ul/a[text()="下一頁"]/@href').get()
if?next_page?is?not?None:
???next_page?=?response.urljoin(next_page)
???yield?scrapy.Request(next_page,?callback=self.parse)

5.4 中間件

下載中間件中間件的作用是提供一些常用的鉤子Hook來增加額外的操作。中間件的操作是在middlewares.py?？梢钥吹街饕翘幚碚埱?code style="font-size: 14px;padding: 2px 4px;border-radius: 4px;margin-right: 2px;margin-left: 2px;color: rgb(30, 107, 184);background-color: rgba(27, 31, 35, 0.05);font-family: 'Operator Mono', Consolas, Monaco, Menlo, monospace;word-break: break-all;">process_request，響應(yīng)process_response和異常process_exception三個鉤子函數(shù)。
處理請求process_request: 傳給DOWNLOADER之前做的操作
響應(yīng)process_response：DOWNLOADER給ENGIINE響應(yīng)之前的操作

這里舉一個添加模擬瀏覽器請求的方式，防止爬蟲被封鎖。重寫process_request

from?scrapy.contrib.downloadermiddleware.useragent?import?UserAgentMiddleware
import?random
agents?=?['Mozilla/5.0?(compatible;?MSIE?9.0;?Windows?NT?6.1;?Trident/5.0;',
??????????????'Mozilla/5.0?(Macintosh;?Intel?Mac?OS?X?10.6;?rv,2.0.1)?Gecko/20100101?Firefox/4.0.1',
??????????????'Opera/9.80?(Macintosh;?Intel?Mac?OS?X?10.6.8;?U;?en)?Presto/2.8.131?Version/11.11',
??????????????'Mozilla/5.0?(Macintosh;?Intel?Mac?OS?X?10_7_0)?AppleWebKit/535.11?(KHTML,?like?Gecko)?Chrome/17.0.963.56?Safari/535.11',
??????????????'Mozilla/4.0?(compatible;?MSIE?7.0;?Windows?NT?5.1;?360SE)']

class?RandomUserAgent(UserAgentMiddleware):
????def?process_request(self,?request,?spider):
????????ua?=?random.choice(agents)
????????request.headers.setdefault('User-agent',ua,)

統(tǒng)一要在settings.py中開啟下載中間件，數(shù)值表示優(yōu)先級

DOWNLOADER_MIDDLEWARES?=?{
????'sexy.middlewares.customUserAgent.RandomUserAgent':?20,
}

5.5 可用配置`settings.py`

除了上面提供的pipline配置開啟和中間件配置外，下面介紹幾個常用的配置

爬蟲機(jī)器人規(guī)則：ROBOTSTXT_OBEY = False，如果要爬取的網(wǎng)站有設(shè)置robots.txt，最好設(shè)置為False
CONCURRENT_REQUESTS：并發(fā)請求
DOWNLOAD_DELAY：下載延遲，可以適當(dāng)配置，避免把網(wǎng)站也爬掛了。

所有的配置詳見 https://doc.scrapy.org/en/latest/topics/settings.html

6. 總結(jié)

相信從上面的介紹，你已經(jīng)可以動手寫一個你自己的爬蟲了。我也完成了做筆記的任務(wù)了。scrapy還提供更加詳細(xì)的細(xì)節(jié)，可參見https://docs.scrapy.org/en/latest/。

最后總結(jié)如下：

scrapy是基于事件驅(qū)動Twisted框架的爬蟲框架。ENGIINE是核心，負(fù)責(zé)串起其他組件
開發(fā)只要編寫spider和item pipline和中間件， download和schedule交給框架
scrapy crawl 你的爬蟲name，name要唯一
爬取的url放在start_urls， spider會自動Request的，parse來解析
pipline和中間件要記得在settings中開啟
關(guān)注下settings的常用配置，需要時看下文檔

作者簡介：wedo實驗君, 數(shù)據(jù)分析師；熱愛生活，熱愛寫作

回復(fù)關(guān)鍵字“簡明python ”，立即獲取入門必備書籍《簡明python教程》電子版

回復(fù)關(guān)鍵字“爬蟲”，立即獲取爬蟲學(xué)習(xí)資料

python入門與進(jìn)階

每天與你一起成長

推薦閱讀
飛機(jī)上一般是什么操作系統(tǒng)？
曾號稱永久免費(fèi)的知名國產(chǎn)瀏覽器推出VIP會員模式，網(wǎng)友吵翻天
Python 簡史了解下？
Python很慢？推薦5個替代方案
再見，x 雷！這款 Github 全能下載工具，太強(qiáng)了！

點贊和在看就是最大的支持??

5分鐘快速掌握 scrapy 爬蟲框架

1. scrapy簡介

1.1 scrapy框架

1.2 scrapy數(shù)據(jù)流

2. 基礎(chǔ)：XPath

2.1 HTML節(jié)點和屬性

2.2 解析語法

3. 安裝部署

4. 創(chuàng)建爬蟲項目

5. 開始scrapy爬蟲

5.1 簡單而強(qiáng)大的spider

5.2 items和pipline例子

5.3 自動下一頁

5.4 中間件

5.5 可用配置`settings.py`

6. 總結(jié)

飛機(jī)上一般是什么操作系統(tǒng)？

曾號稱永久免費(fèi)的知名國產(chǎn)瀏覽器推出VIP會員模式，網(wǎng)友吵翻天

Python 簡史了解下？

Python很慢？推薦5個替代方案

再見，x 雷！這款 Github 全能下載工具，太強(qiáng)了！

5分鐘快速掌握 scrapy 爬蟲框架

1. scrapy簡介

1.1 scrapy框架

1.2 scrapy數(shù)據(jù)流

2. 基礎(chǔ)：XPath

2.1 HTML節(jié)點和屬性

2.2 解析語法

3. 安裝部署

4. 創(chuàng)建爬蟲項目

5. 開始scrapy爬蟲

5.1 簡單而強(qiáng)大的spider

5.2 items和pipline例子

5.3 自動下一頁

5.4 中間件

5.5 可用配置settings.py

6. 總結(jié)

飛機(jī)上一般是什么操作系統(tǒng)？

曾號稱永久免費(fèi)的知名國產(chǎn)瀏覽器推出VIP會員模式，網(wǎng)友吵翻天

Python 簡史了解下？

Python很慢？推薦5個替代方案

再見，x 雷！這款 Github 全能下載工具，太強(qiáng)了！

5.5 可用配置`settings.py`

飛機(jī)上一般是什么操作系統(tǒng)？

Python 簡史了解下？

再見，x 雷！這款 Github 全能下載工具，太強(qiáng)了！