傳統(tǒng)IO過(guò)程
考慮這樣一個(gè)過(guò)程:我們從磁盤(pán)中讀取一個(gè)文件數(shù)據(jù),然后將數(shù)據(jù)通過(guò)網(wǎng)絡(luò)傳輸?shù)搅硪粋€(gè)機(jī)器。對(duì)用戶來(lái)說(shuō)可能就是簡(jiǎn)單的理解為兩步操作。
File.read(fileDesc, buf, len);
Socket.send(socket, buf, len);
但是,如果我們看傳輸中涉及的內(nèi)核部分的內(nèi)部工作原理,我們將看到
即使是使用DMA傳輸?shù)挠布С?,這種方法也效率很低。首先,內(nèi)核將使用DMA將磁盤(pán)中的數(shù)據(jù)加載到其自己的內(nèi)核緩沖區(qū)中,除非在先前訪問(wèn)同一文件之后,該數(shù)據(jù)仍被緩存在內(nèi)核緩沖區(qū)中。
這樣傳輸不需要太多的CPU工作,CPU只需要進(jìn)行緩沖區(qū)管理和DMA創(chuàng)建和處理。linux 操作系統(tǒng)會(huì)根據(jù) read() 系統(tǒng)調(diào)用指定的應(yīng)用程序地址空間的地址,把這塊數(shù)據(jù)存放到請(qǐng)求這塊數(shù)據(jù)的應(yīng)用程序的地址空間中去,在接下來(lái)的處理過(guò)程中,操作系統(tǒng)需要將數(shù)據(jù)再一次從用戶應(yīng)用程序地址空間的緩沖區(qū)拷貝到與網(wǎng)絡(luò)堆棧相關(guān)的內(nèi)核緩沖區(qū)中去,這個(gè)過(guò)程也是需要占用 CPU 的。
數(shù)據(jù)拷貝操作結(jié)束以后,數(shù)據(jù)會(huì)被打包,然后發(fā)送到網(wǎng)絡(luò)接口卡上去。在數(shù)據(jù)傳輸?shù)倪^(guò)程中,應(yīng)用程序可以先返回進(jìn)而執(zhí)行其他的操作。
之后,在調(diào)用 write() 系統(tǒng)調(diào)用的時(shí)候,用戶應(yīng)用程序緩沖區(qū)中的數(shù)據(jù)內(nèi)容可以被安全的丟棄或者更改,因?yàn)椴僮飨到y(tǒng)已經(jīng)在內(nèi)核緩沖區(qū)中保留了一份數(shù)據(jù)拷貝,當(dāng)數(shù)據(jù)被成功傳送到硬件上之后,這份數(shù)據(jù)拷貝就可以被丟棄。
所以我們會(huì)發(fā)現(xiàn)這個(gè)過(guò)程涉及到了3次上下文切換,和4次數(shù)據(jù)拷貝的過(guò)程:

利用mmap()
在 Linux 中,減少拷貝次數(shù)的一種方法是調(diào)用 mmap() 來(lái)代替調(diào)用 read,比如:
tmp_buf = mmap(file, len);
write(socket, tmp_buf, len);
首先,應(yīng)用程序調(diào)用了 mmap() 之后,數(shù)據(jù)會(huì)先通過(guò) DMA 拷貝到操作系統(tǒng)內(nèi)核的緩沖區(qū)中去。接著,應(yīng)用程序跟操作系統(tǒng)共享這個(gè)緩沖區(qū),這樣,操作系統(tǒng)內(nèi)核和應(yīng)用程序存儲(chǔ)空間就不需要再進(jìn)行任何的數(shù)據(jù)拷貝操作。應(yīng)用程序調(diào)用了 write() 之后,操作系統(tǒng)內(nèi)核將數(shù)據(jù)從原來(lái)的內(nèi)核緩沖區(qū)中拷貝到與 socket 相關(guān)的內(nèi)核緩沖區(qū)中。接下來(lái),數(shù)據(jù)從內(nèi)核 socket 緩沖區(qū)拷貝到協(xié)議引擎中去,這是第三次數(shù)據(jù)拷貝操作

盡管mmap()可以減少一次 I/O 拷貝,但由于mmap()的實(shí)現(xiàn)很復(fù)雜,調(diào)用mmap()將會(huì)帶來(lái)額外的開(kāi)銷(xiāo),因此在一些情況下,沒(méi)有使用mmap()的必要:
訪問(wèn)小文件時(shí),直接使用read()或write()將更加高效。
單個(gè)進(jìn)程對(duì)文件執(zhí)行順序訪問(wèn)時(shí)(sequential access),使用mmap()幾乎不會(huì)帶來(lái)性能上的提升。譬如說(shuō),使用read()順序讀取文件時(shí),文件系統(tǒng)會(huì)使用 read-ahead 的方式提前將文件內(nèi)容緩存到文件系統(tǒng)的緩沖區(qū),因此使用read()將很大程度上可以命中緩存。
那么,在什么情況下使用mmap()去訪問(wèn)文件會(huì)更高效呢?
對(duì)文件執(zhí)行隨機(jī)訪問(wèn)時(shí),如果使用read()或write(),則意味著較低的 cache 命中率。這種情況下使用mmap()通常將更高效。
多個(gè)進(jìn)程同時(shí)訪問(wèn)同一個(gè)文件時(shí)(無(wú)論是順序訪問(wèn)還是隨機(jī)訪問(wèn)),如果使用mmap(),那么 OS 緩沖區(qū)的文件內(nèi)容可以在多個(gè)進(jìn)程之間共享,從操作系統(tǒng)角度來(lái)看,使用mmap()可以大大節(jié)省內(nèi)存。

sendfile()
為了簡(jiǎn)化用戶接口,同時(shí)還要繼續(xù)保留 mmap()/write() 技術(shù)的優(yōu)點(diǎn):減少 CPU 的拷貝次數(shù),Linux 在版本 2.1 中引入了 sendfile() 這個(gè)系統(tǒng)調(diào)用。
sendfile(sockfd, fd, NULL, len);
sendfile() 不僅減少了數(shù)據(jù)拷貝操作,它也減少了上下文切換。首先:sendfile() 系統(tǒng)調(diào)用利用 DMA 引擎將文件中的數(shù)據(jù)拷貝到操作系統(tǒng)內(nèi)核緩沖區(qū)中,然后數(shù)據(jù)被拷貝到與 socket 相關(guān)的內(nèi)核緩沖區(qū)中去。接下來(lái),DMA 引擎將數(shù)據(jù)從內(nèi)核 socket 緩沖區(qū)中拷貝到協(xié)議引擎中去。

可以看到,與使用read()和write()發(fā)送文件相比,使用sendfile()減少了一次 I/O 拷貝和兩次 上下文切換。
sendfile with DMA Gather Copy
為了避免操作系統(tǒng)內(nèi)核造成的數(shù)據(jù)副本,需要用到一個(gè)支持收集操作的網(wǎng)絡(luò)接口,這也就是說(shuō),待傳輸?shù)臄?shù)據(jù)可以分散在存儲(chǔ)的不同位置上,而不需要在連續(xù)存儲(chǔ)中存放。
這樣一來(lái),從文件中讀出的數(shù)據(jù)就根本不需要被拷貝到 socket 緩沖區(qū)中去,而只是需要將緩沖區(qū)描述符傳到網(wǎng)絡(luò)協(xié)議棧中去,之后其在緩沖區(qū)中建立起數(shù)據(jù)包的相關(guān)結(jié)構(gòu),然后通過(guò) DMA 收集拷貝功能將所有的數(shù)據(jù)結(jié)合成一個(gè)網(wǎng)絡(luò)數(shù)據(jù)包。

網(wǎng)卡的 DMA 引擎會(huì)在一次操作中從多個(gè)位置讀取包頭和數(shù)據(jù)。Linux 2.4 版本中的 socket 緩沖區(qū)就可以滿足這種條件,這也就是用于 Linux 中的眾所周知的零拷貝技術(shù),這種方法不但減少了因?yàn)槎啻紊舷挛那袚Q所帶來(lái)開(kāi)銷(xiāo),同時(shí)也減少了處理器造成的數(shù)據(jù)副本的個(gè)數(shù)。
對(duì)于用戶應(yīng)用程序來(lái)說(shuō),代碼沒(méi)有任何改變。首先,sendfile() 系統(tǒng)調(diào)用利用 DMA 引擎將文件內(nèi)容拷貝到內(nèi)核緩沖區(qū)去;然后,將帶有文件位置和長(zhǎng)度信息的緩沖區(qū)描述符添加到 socket 緩沖區(qū)中去,此過(guò)程不需要將數(shù)據(jù)從操作系統(tǒng)內(nèi)核緩沖區(qū)拷貝到 socket 緩沖區(qū)中,DMA 引擎會(huì)將數(shù)據(jù)直接從內(nèi)核緩沖區(qū)拷貝到協(xié)議引擎中去,這樣就避免了最后一次數(shù)據(jù)拷貝。
