很多人會有一個疑問C語言編譯器為什么能夠用C語言編寫?
今天就來帶大家一探究竟!
所謂C語言編譯器,就是把編程得到的件,比如.c,.h的件,進行讀取,并對內容進行分析,按照C語言的規則,將其轉換成cpu可以執行的二進制件。
其本質在于對件的讀入,分析,及處理。這些操作,C語言都是可以實現的。
所以用C語言來做C語言的編譯器是完全可行的。
但是,歷史上的第一個C語言編譯器,肯定不是C語言寫的,
因為在沒有編譯器時,無法把C語言轉換成可執行件。
只要有了第一版其它語言的編譯器,就可以用C語言寫編譯器了。
C語言
那么世界上第一個C語言編譯器又是怎么編寫的呢?
還是讓我們回顧一下C語言歷史
1970年Tomphson和Ritchie在BCPL(一種解釋型語言)的基礎上開發了B語言,
1973年又在B語言的基礎上成功開發出了現在的C語言。
在C語言被用作系統編程語言之前,Tomphson已經使用B語言編寫過操作系統。可見在C語言實現以前,B語言已經可以投入使用了。
因此第一個C語言編譯器的原型完全可能是用B語言或者混合B語言與PDP匯編語言編寫的。
事實上,B語言的執行效率比較低,但是如果全部用匯編語言來編寫,不僅工作量巨大,而且匯編語言的可讀性極差,很容易就會出錯!
上一張圖大家感受一下這巨大的差別!!!
C語言
為了克服這個困難,早期的C語言編譯器就采取了一個取巧的辦法先用匯編語言編寫一個C語言的一個子集的編譯器,再通過這個子集去遞推完成完整的C語言編譯器。
大致過程如下
C語言
先創造一個只有C語言最基本功能的子集,記作C0語言,C0語言已經足夠簡單了,可以直接用匯編語言編寫出C0的編譯器。
依靠C0已有的功能,設計比C0復雜,但仍然不完整的C語言的又一個子集C1語言,其中C0屬于C1,C1屬于C,用C0開發出C1語言的編譯器。
在C1的基礎上設計C語言的又一個子集C2語言,C2語言比C1復雜,但是仍然不是完整的C語言,開發出C2語言的編譯器……如此直到CN,CN已經足夠強大了,這時候就足夠開發出完整的C語言編譯器的實現了。
至于這里的N是多少,這取決于你的目標語言(這里是C語言)的復雜程度和程序員的編程能力。
那么這種大膽的子集簡化的方法,又有什么理論依據呢?
先介紹一個概念,“自編譯”Self-Compile。
對于某些具有明顯自舉(不知道哪個鬼才起的名字)性質的強類型編程語言
可以借助它們的一個有限小子集
通過有限次數的遞推來實現對它們自身的表述
(所謂強類型就是程序中的每個變量必須聲明類型后才能使用,比如C語言,相反有些腳本語言則根本沒有類型這一說法,比如Python/ target=_blank class=infotextkey>Python。)
滿足自編譯這樣的語言有C、Pascal、Ada等等,至于為什么可以自編譯,可以參見清華大學出版社的《編譯原理》,書中實現了一個Pascal的子集的編譯器。
總之,已經有計算機科學家證明了,C語言理論上是可以通過上面的方法實現完整的編譯器的。