這篇文章是翻譯自Julien Pauli的博客文章php output buffer in deep,Julien是PHP源碼的資深開發(fā)和維護(hù)人員。這篇文章從多個(gè)方面講解了PHP中的輸出緩沖區(qū)以及怎么使用它。輸出緩沖區(qū)可能一直都是PHP開發(fā)人員的一個(gè)盲點(diǎn),很多人可能只是知道這個(gè)東西,而且也知道大概怎么使用,但對(duì)于它為什么是這個(gè)樣子,以及還可能是其他什么樣子,可能并不了解,這篇文章可以解決你的所有困惑!
引言
大家都知道PHP中有一個(gè)名為“輸出緩沖區(qū)”層(layer)的東西。這篇文章就是來講解它到底是個(gè)什么東西的?PHP內(nèi)部是怎么實(shí)現(xiàn)它的?以及在PHP程序中怎么使用它?這個(gè)層并不復(fù)雜,但經(jīng)常會(huì)被誤解,很多PHP開發(fā)者并沒有完成掌握它。今天我們就一起來徹底把它搞清楚吧。
我們要討論的東西是基于PHP 5.4(及以上版本),PHP中的OB層從5.4版開始就發(fā)生了很多變化,確切說是完全重寫了,有些地方可能都不兼容PHP 5.3了。
什么是輸出緩沖區(qū)?
PHP的輸出流包含很多字節(jié),通常都是程序員要PHP輸出的文本,這些文本大多是echo語句或者printf()函數(shù)輸出的。對(duì)于PHP中的輸出緩沖區(qū),你要知道三點(diǎn)內(nèi)容。
第一點(diǎn)是任何會(huì)輸出點(diǎn)什么東西的函數(shù)都會(huì)用到輸出緩沖區(qū),當(dāng)然這說的是用PHP寫的程序。如果你是編寫PHP擴(kuò)展,你使用的函數(shù)(C函數(shù))可能會(huì)直接將輸出寫到SAPI緩沖區(qū)層,而不需要經(jīng)過OB層。你可以在源文件main/php_output.h中了解到這些C函數(shù)的API文檔,這個(gè)文件給我們提供了很多其他的信息,例如默認(rèn)的緩沖區(qū)大小。
第二點(diǎn)你需要知道的是輸出緩沖區(qū)層不是唯一用于緩沖輸出的層,它實(shí)際上只是很多層中的一個(gè)。最后一點(diǎn)你要記住輸出緩沖區(qū)層的行為跟你使用的SAPI(web或cli)相關(guān),不同的SAPI可能有不同的行為。我們先通過一個(gè)圖片來看看這些層的關(guān)系:

上面這張圖片展示了PHP中的三種緩沖區(qū)層的邏輯關(guān)系。上面的兩層就是我們通常所認(rèn)識(shí)到的“輸出緩沖區(qū)”,最后一個(gè)是SAPI中的輸出緩沖區(qū)。這些都是PHP中的層,當(dāng)輸出的字節(jié)離開PHP進(jìn)入計(jì)算機(jī)體系結(jié)構(gòu)中的更底層時(shí),緩沖區(qū)又會(huì)不斷出現(xiàn)(終端緩沖區(qū)(terminal%20buffer),fast-cgi緩沖區(qū),web服務(wù)器緩沖區(qū),OS緩沖區(qū),TCP/IP棧緩沖區(qū)。。。)。請(qǐng)記住一個(gè)通用原則,除了這篇文章中討論的PHP中的情況外,一個(gè)軟件的很多部分都會(huì)先保留信息,然后再把它們傳遞到下一部分,直到最終把這些信息傳遞給用戶。
CLI的SAPI有點(diǎn)特殊,這里重點(diǎn)講一下。CLI會(huì)將INI配置中的output_buffer選項(xiàng)強(qiáng)制設(shè)置為0,這表示禁用默認(rèn)PHP輸出緩沖區(qū)。所以在CLI中,默認(rèn)情況下你要輸出的東西會(huì)直接傳遞到SAPI層,除非你手動(dòng)調(diào)用ob_()類函數(shù)。并且在CLI中,implicit_flush的值也會(huì)被設(shè)置為1。我們經(jīng)常會(huì)搞不清implicit_flush的作用,源代碼已說明一切:當(dāng)implicit_flush被設(shè)置為打開(值為1),一旦有任何輸出寫入到SAPI緩沖區(qū)層,它都會(huì)立即刷新(flush,意思是把這些數(shù)據(jù)寫入到更低層,并且緩沖區(qū)會(huì)被清空)。換句話說就是:任何時(shí)候當(dāng)你寫入任何數(shù)據(jù)到CLI%20SAPI中時(shí),CLI%20SAPI都會(huì)立即將這些數(shù)據(jù)扔到它的下一層去,一般會(huì)是標(biāo)準(zhǔn)輸出管道,write()和fflush()這兩個(gè)函數(shù)就是負(fù)責(zé)干這個(gè)事情的。簡單,對(duì)吧!
默認(rèn)PHP輸出緩沖區(qū)
如果你使用不同于CLI的SAPI,像PHP-FPM,你會(huì)用到下面三個(gè)跟緩沖區(qū)相關(guān)的INI配置選項(xiàng):
output_buffering implicit_flush output_handler
在搞清楚這幾個(gè)選項(xiàng)的含義之前,有一點(diǎn)需要先說明下,不能在運(yùn)行時(shí)使用ini_set()改這幾個(gè)選項(xiàng)的值。這些選項(xiàng)的值會(huì)在PHP程序啟動(dòng)的時(shí)候,還沒有運(yùn)行任何腳本之前解析,所以也許在運(yùn)行時(shí)可以使用ini_set()改變它們的值,但改變后的值并不會(huì)生效,一切都已經(jīng)太遲了,因?yàn)檩敵鼍彌_區(qū)層已經(jīng)啟動(dòng)并已激活。你只能通過編輯php.ini文件或者是在執(zhí)行PHP程序的時(shí)候使用-d選項(xiàng)才能改變它們的值。
默認(rèn)情況下,PHP發(fā)行版會(huì)在php.ini中把output_buffering設(shè)置為4096個(gè)字節(jié)。如果你不使用任何php.ini文件(或者也不會(huì)在啟動(dòng)PHP的時(shí)候使用-d選項(xiàng)),它的默認(rèn)值將為0,這表示禁用輸出緩沖區(qū)。如果你將它的值設(shè)置為“ON”,那么默認(rèn)的輸出緩沖區(qū)的大小將是16kb。你可能已經(jīng)猜到了,在web應(yīng)用環(huán)境中對(duì)輸出的內(nèi)容使用緩沖區(qū)對(duì)性能有好處。默認(rèn)的4k的設(shè)置是一個(gè)合適的值,這意味著你可以先寫入4096個(gè)ASCII字符,然后再跟下面的SAPI層通信。并且在web應(yīng)用環(huán)境中,通過socket一個(gè)字節(jié)一個(gè)字節(jié)的傳輸消息的方式對(duì)性能并不好。更好的方式是把所有內(nèi)容一次性傳輸給服務(wù)器,或者至少是一塊一塊地傳輸。層與層之間的數(shù)據(jù)交換的次數(shù)越少,性能越好。你應(yīng)該總是保持輸出緩沖區(qū)處于可用狀態(tài),PHP會(huì)負(fù)責(zé)在請(qǐng)求結(jié)束后把它們中的內(nèi)容傳輸給終端用戶,你不用做任何事情。
implicit_flush已在前面談?wù)揅LI的時(shí)候提到過。對(duì)于其他的SAPI,implicit_flush默認(rèn)被設(shè)置為關(guān)閉(off),這是正確的設(shè)置,因?yàn)橹灰行聰?shù)據(jù)寫入就刷新SAPI的做法很可能并非你所希望的。對(duì)于FastCGI協(xié)議,刷新操作(flushing)是每次寫入后都發(fā)送一個(gè)FastCGI數(shù)組包(packet),如果發(fā)送數(shù)據(jù)包之前先把FastCGI的緩沖區(qū)寫滿會(huì)更好一些。如果你想手動(dòng)刷新SAPI的緩沖區(qū),使用PHP的flush()函數(shù)。如果你想寫一次就刷新一次,你可以設(shè)置INI配置中的implicit_flush選項(xiàng),或者調(diào)用一次ob_implicit_flush()函數(shù)。
output_handler是一個(gè)回調(diào)函數(shù),它可以在緩沖區(qū)刷新之前修改緩沖區(qū)中的內(nèi)容。PHP的擴(kuò)展提供了很多回調(diào)函數(shù)(用戶也可以自己編寫回調(diào)函數(shù),下面會(huì)講到)。
ob_gzhandler%20:%20使用ext/zlib壓縮輸出 mb_output_handler%20:%20使用ext/mbstring轉(zhuǎn)換字符編碼 ob_iconv_handler%20:%20使用ext/iconv轉(zhuǎn)換字符編碼 ob_tidyhandler%20:%20使用ext/tidy整理輸出的html文本 ob_[inflate/deflate]_handler%20:%20使用ext/http壓縮輸出 ob_etaghandler%20:%20使用ext/http自動(dòng)生成HTTP的Etag
緩沖區(qū)中的內(nèi)容會(huì)傳遞給你選擇的回調(diào)函數(shù)(只能用一個(gè))來執(zhí)行內(nèi)容轉(zhuǎn)換的工作,所以如果你想獲取PHP傳輸給web服務(wù)器以及用戶的內(nèi)容,你可以使用輸出緩沖區(qū)回調(diào)。當(dāng)前有一點(diǎn)也需要提一下,這里說的“輸出”指的是消息頭(headers)和消息體(body)。HTTP的消息頭也是OB層的一部分。
消息頭和消息體
當(dāng)你使用一個(gè)輸出緩沖區(qū)(無論是用戶的,還是PHP的)的時(shí)候,你可能想以你希望的方式發(fā)送HTTP消息頭和內(nèi)容。你知道任何協(xié)議都必須在發(fā)送消息體之前發(fā)送消息頭(這也是為什么叫做“頭”),但是如果你使用了輸出緩沖區(qū)層,那么PHP會(huì)接管這些,而不需要你操心。實(shí)際上,任何跟消息頭的輸出有關(guān)的PHP函數(shù)(header(),setcookie(),session_start())都使用了內(nèi)部的sapi_header_op()函數(shù),這個(gè)函數(shù)只會(huì)把內(nèi)容寫入到消息頭緩沖區(qū)中。然后當(dāng)你輸出內(nèi)容是,例如使用printf(),這些內(nèi)容會(huì)寫入到輸出緩沖區(qū)(假設(shè)只有一個(gè))。當(dāng)這個(gè)輸出緩沖區(qū)中的內(nèi)容需要被發(fā)送時(shí),PHP會(huì)先發(fā)送消息頭,然后發(fā)送消息體。PHP為你搞定了所有的事情。如果你覺得不爽,想自己動(dòng)手,那你就只有把輸出緩沖區(qū)禁用掉,除此之外別無他法。
用戶輸出緩沖區(qū)(user%20output%20buffers)
對(duì)于用戶輸出緩沖區(qū),我們先通過一個(gè)示例來看看它是怎么工作的,以及你可以用它來做什么。再強(qiáng)調(diào)一下,如果你想使用默認(rèn)PHP輸出緩沖區(qū)層的話,你不能使用CLI,因?yàn)樗呀昧诉@個(gè)層。下面的這個(gè)示例用的就是默認(rèn)PHP輸出緩沖區(qū),使用了PHP的內(nèi)部web服務(wù)器SAPI:
/*%20launched%20via%20php%20-doutput_buffering=32%20-dimplicit_flush=1%20-S127.0.0.1:8080%20-t/var/www%20*/ echo%20str_repeat('a',%2031); sleep(3); echo%20'b'; sleep(3); echo%20'c';
在這個(gè)示例中,啟動(dòng)PHP的時(shí)候?qū)⒛J(rèn)輸出緩沖區(qū)的大小設(shè)置為32字節(jié),程序運(yùn)行后會(huì)先向其中寫入31個(gè)字節(jié),然后進(jìn)入睡眠狀態(tài)。此時(shí)屏幕是空的,什么都不會(huì)輸出,跟預(yù)計(jì)一樣。2秒之后睡眠結(jié)束,再寫入了一個(gè)字節(jié),這個(gè)字節(jié)填滿了緩沖區(qū),它會(huì)立即刷新自身,把里面的數(shù)據(jù)傳遞給SAPI層的緩沖區(qū),因?yàn)槲覀儗mplicit_flush設(shè)置為1,所以SAPI層的緩沖區(qū)也會(huì)立即刷新到下一層。字符串’aaaaaaaaaa{31個(gè)a}b’會(huì)出現(xiàn)在屏幕上,然后腳本再次進(jìn)入睡眠狀態(tài)。2秒之后,再輸出一個(gè)字節(jié),此時(shí)緩沖區(qū)中有31個(gè)空字節(jié),但是PHP腳本已執(zhí)行完畢,所以包含這1個(gè)字節(jié)的緩沖區(qū)也會(huì)立即刷新,從而會(huì)在屏幕上輸出字符串’c’。
從這個(gè)示例我們可以看到默認(rèn)PHP輸出緩沖區(qū)是如何工作的。我們沒有調(diào)用任何跟緩沖區(qū)相關(guān)的函數(shù),但這并不意味這它不存在,你要認(rèn)識(shí)到它就存在當(dāng)前程序的運(yùn)行環(huán)境中(在非CLI模式中才有效)。
OK,現(xiàn)在開始討論用戶輸出緩沖區(qū),它通過調(diào)用ob_start()創(chuàng)建,我們可以創(chuàng)建很多這種緩沖區(qū)(至到內(nèi)存耗盡為止),這些緩沖區(qū)組成一個(gè)堆棧結(jié)構(gòu),每個(gè)新建緩沖區(qū)都會(huì)堆疊到之前的緩沖區(qū)上,每當(dāng)它被填滿或者溢出,都會(huì)執(zhí)行刷新操作,然后把其中的數(shù)據(jù)傳遞給下一個(gè)緩沖區(qū)。
ob_start(function($ctc)%20{%20static%20$a%20=%200;%20return%20$a++%20.%20'-%20'%20.%20$ctc%20.%20"n";},%2010); ob_start(function($ctc)%20{%20return%20ucfirst($ctc);%20},%203); echo%20"fo"; sleep(2); echo%20'o'; sleep(2); echo%20"barbazz"; sleep(2); echo%20"hello"; /*%200-%20FooBarbazzn%201-%20Hellon%20*/
在此我代替原作者講解下這個(gè)示例。我們假設(shè)第一個(gè)ob_start創(chuàng)建的用戶緩沖區(qū)為緩沖區(qū)1,第二個(gè)ob_start創(chuàng)建的為緩沖區(qū)2。按照棧的后進(jìn)先出原則,任何輸出都會(huì)先存放到緩沖區(qū)2中。
緩沖區(qū)2的大小為3個(gè)字節(jié),所以第一個(gè)echo語句輸出的字符串'fo'(2個(gè)字節(jié))會(huì)先存放在緩沖區(qū)2中,還差一個(gè)字符,當(dāng)?shù)诙cho語句輸出的'o'后,緩沖區(qū)2滿了,所以它會(huì)刷新(flush),在刷新之前會(huì)先調(diào)用ob_start()的回調(diào)函數(shù),這個(gè)函數(shù)會(huì)將緩沖區(qū)內(nèi)的字符串的首字母轉(zhuǎn)換為大寫,所以輸出為'Foo'。然后它會(huì)被保存在緩沖區(qū)1中,緩沖區(qū)1的大小為10。
第三個(gè)echo語句會(huì)輸出'barbazz',它還是會(huì)先放到緩沖區(qū)2中,這個(gè)字符串有7個(gè)字節(jié),緩沖區(qū)2已經(jīng)溢出了,所以它會(huì)立即刷新,調(diào)用回調(diào)函數(shù)得到的結(jié)果為'Barbazz',然后被傳遞到緩沖區(qū)1中。這個(gè)時(shí)候緩沖區(qū)1中保存了'FooBarbazz',10個(gè)字符,緩沖區(qū)1會(huì)刷新,同樣的先會(huì)調(diào)用ob_start()的回調(diào)函數(shù),緩沖區(qū)1的回調(diào)函數(shù)會(huì)在字符串前面添加行號(hào),以及在尾部添加一個(gè)回車符,所以輸出的第一行是'o-%20FooBarbazz'。
最后一個(gè)echo語句輸出了字符串'hello',它大于3個(gè)字符,所以會(huì)觸發(fā)緩沖區(qū)2刷新,因?yàn)榇藭r(shí)腳本已執(zhí)行完畢,所以也會(huì)立即刷新緩沖區(qū)1,最終得到的第二行輸出為'1-%20Hello'。
輸出緩沖區(qū)的內(nèi)部實(shí)現(xiàn)
自5.4版后,整個(gè)緩沖區(qū)層都被重寫了(由Michael%20Wallner完成)。之前的代碼很垃圾,很多事情都做不了,并且有很多bug。這篇文章會(huì)給你提供更多相關(guān)信息。所以PHP%205.4才會(huì)對(duì)這部分進(jìn)行重新,現(xiàn)在的設(shè)計(jì)更好,代碼也更整潔,添加了一些新特性,跟5.3版的不兼容問題也很少。贊一個(gè)!
其中最贊的一個(gè)特性是擴(kuò)展可以聲明它自己的輸出緩沖區(qū)回調(diào)與其他擴(kuò)展提供的回調(diào)沖突。在此之前,這是不可能的,之前如果要開發(fā)使用輸出緩沖區(qū)的擴(kuò)展,必須先搞清楚所有其他提供了緩沖區(qū)回調(diào)的擴(kuò)展可能帶來的影響。
下面是一個(gè)簡單的示例,它展示了怎樣注冊(cè)一個(gè)回調(diào)函數(shù)來將緩沖區(qū)中的字符轉(zhuǎn)換為大寫,這個(gè)示例的代碼可能不是很好,但是足以滿足我們的目的:
#ifdef%20HAVE_CONFIG_H #include%20"config.h" #endif #include%20"php.h" #include%20"php_ini.h" #include%20"main/php_output.h" #include%20"php_myext.h" static%20int%20myext_output_handler(void%20**nothing,%20php_output_context%20*output_context) { %20char%20*dup%20=%20NULL; %20dup%20=%20estrndup(output_context->in.data,%20output_context->in.used); %20php_strtoupper(dup,%20output_context->in.used); %20output_context->out.data%20=%20dup; %20output_context->out.used%20=%20output_context->in.used; %20output_context->out.free%20=%201; %20return%20SUCCESS; } PHP_RINIT_FUNCTION(myext) { %20php_output_handler%20*handler; %20handler%20=%20php_output_handler_create_internal("myext%20handler",%20sizeof("myext%20handler")%20-1,%20myext_output_handler,%20/*%20PHP_OUTPUT_HANDLER_DEFAULT_SIZE%20*/%20128,%20PHP_OUTPUT_HANDLER_STDFLAGS); %20php_output_handler_start(handler); %20return%20SUCCESS; } zend_module_entry%20myext_module_entry%20=%20{ %20STANDARD_MODULE_HEADER, %20"myext", %20NULL,%20/*%20Function%20entries%20*/ %20NULL, %20NULL,%20/*%20Module%20shutdown%20*/ %20PHP_RINIT(myext),%20/*%20Request%20init%20*/ %20NULL,%20/*%20Request%20shutdown%20*/ %20NULL,%20/*%20Module%20information%20*/ %20"0.1",%20/*%20Replace%20with%20version%20number%20for%20your%20extension%20*/ %20STANDARD_MODULE_PROPERTIES }; #ifdef%20COMPILE_DL_MYEXT ZEND_GET_MODULE(myext) #endif
陷阱
大部分陷阱都已經(jīng)揭示出來了。有一些是邏輯的問題,有一些是隱藏的。邏輯方面,最明顯的是你不應(yīng)該在輸出緩沖區(qū)回調(diào)函數(shù)內(nèi)調(diào)用任何緩沖區(qū)相關(guān)的函數(shù),也不要在回調(diào)函數(shù)中輸出任何東西。
相對(duì)不太明顯的是有些PHP的內(nèi)部函數(shù)也使用了輸出緩沖區(qū),它們會(huì)疊加到其他的緩沖區(qū)上,這些函數(shù)會(huì)填滿自己的緩沖區(qū)然后刷新,或者是返回里面的內(nèi)容。print_r()、highlight_file()和highlight_file::handle()都是這類函數(shù)。你不應(yīng)該在輸出緩沖區(qū)的回調(diào)函數(shù)中使用這些函數(shù)。這種行為會(huì)導(dǎo)致未定義的錯(cuò)誤,或者至少得不到你期望的結(jié)果。
總結(jié)
輸出層(output%20layer)就像一個(gè)網(wǎng),它會(huì)把所有從PHP”遺漏“的輸出圈起來,然后把它們保存到一個(gè)大小固定的緩沖區(qū)中。當(dāng)緩沖區(qū)被填滿了的時(shí),里面的內(nèi)容會(huì)刷新(寫入)到下一層(如果有的話),或者是寫入到下面的邏輯層:SAPI緩沖區(qū)。開發(fā)人員可以控制緩沖區(qū)的數(shù)量、大小以及在每個(gè)緩沖區(qū)層可以執(zhí)行的操作(清除、刷新和刪除)。這種方式非常靈活,它允許庫和框架設(shè)計(jì)者可以完全控制它們自己輸出的內(nèi)容,并把它們放到一個(gè)全局的緩沖區(qū)中。對(duì)于輸出,我們需要知道任何輸出流的內(nèi)容和任何HTTP消息頭,PHP都會(huì)以正確的順序發(fā)送它們。
輸出緩沖區(qū)也有一個(gè)默認(rèn)緩沖區(qū),可以通過設(shè)置3個(gè)INI配置選項(xiàng)來控制它,它們是為了防止出現(xiàn)過大量的細(xì)小的寫入操作,從而造成訪問SAPI層過于頻繁,這樣網(wǎng)絡(luò)消耗會(huì)很大,不利于性能。PHP的擴(kuò)展也可以定義回調(diào)函數(shù),然后在每個(gè)緩沖區(qū)上執(zhí)行這個(gè)回調(diào),這種應(yīng)用已經(jīng)有很多了,例如執(zhí)行數(shù)據(jù)壓縮,HTTP消息頭管理以及搞很多其他的事情。