什么是逆向工程
先給大家出一道思考題
用C語(yǔ)言設(shè)計(jì)一個(gè)程序,驗(yàn)證輸入的密碼是否是“12345678”,如果驗(yàn)證成功,就輸出“success”,如果驗(yàn)證失敗,則輸出“failed”。
我想,大部分新手小白估計(jì)會(huì)這么寫:
#include <stdio.h>
#include <string.h>
int main() {
char buf[10] = {0};
scanf("%s", buf);
if (strcmp(buf, "12345678") == 0) {
printf("success");
} else {
printf("failed");
}
return 0;
}
上面的代碼編譯后,會(huì)生成一個(gè)可執(zhí)行程序,咱們來對(duì)這個(gè)可執(zhí)行文件進(jìn)行一下反編譯,看看能看到什么?
下圖是在反編譯神器IDA中,可執(zhí)行文件反編譯出來的匯編指令圖:

可以非常清晰的看到一些字符串的信息:"success"、"failed"、"1234567。
再認(rèn)真一看,main函數(shù)中有一個(gè)分支判斷,根據(jù)判斷的結(jié)果,走入左右兩個(gè)分支,分別輸出"success"和"failed"。
如果新手看不懂上面的反匯編圖,那可以再使用IDA的神級(jí)功能:F5反編譯高級(jí)語(yǔ)言功能,直接將上面的匯編程序再進(jìn)一步還原成C語(yǔ)言。

可以對(duì)照一下上圖中的C函數(shù)代碼和原來我們的源代碼,還原度非常的高了,字符串比較的功能邏輯暴露無遺
可以看到,通過這種方式進(jìn)行密碼匹配,非常不安全,對(duì)方拿到你的程序一反編譯,就能看到密碼是什么了。
不過咱們今天的文章主題不是探討如何進(jìn)行安全地進(jìn)行密碼比較,而是另一個(gè)主題:逆向工程。
什么是逆向工程,維基百科中的解釋如下:
逆向工程(Reverse Engineering),又稱反向工程,是一種技術(shù)過程,即對(duì)一項(xiàng)目標(biāo)產(chǎn)品進(jìn)行逆向分析及研究,從而演繹并得出該產(chǎn)品的處理流程、組織結(jié)構(gòu)、功能性能規(guī)格等設(shè)計(jì)要素,以制作出功能相近,但又不完全一樣的產(chǎn)品。
逆向工程的概念起源于商業(yè)和軍事領(lǐng)域,后延伸到軟件領(lǐng)域。
在軟件領(lǐng)域,通過對(duì)程序文件進(jìn)行逆向分析,推導(dǎo)出程序?qū)υ创a設(shè)計(jì)的過程,稱為軟件逆向工程。比如上面通過分析可執(zhí)行文件還原出C代碼,分析jar包/class文件還原出JAVA源碼,這都屬于軟件逆向工程。
軟件逆向工程是網(wǎng)絡(luò)安全領(lǐng)域中的一個(gè)重要分支,網(wǎng)絡(luò)黑客通過逆向工程可以獲得目標(biāo)的程序原理,破解軟件的權(quán)限,這一般發(fā)生在商業(yè)軟件領(lǐng)域。另外一方面,黑客通過逆向分析也常用來發(fā)現(xiàn)軟件漏洞,用來對(duì)其發(fā)起攻擊,windows作為一個(gè)不開源的操作系統(tǒng),就經(jīng)常遭遇這樣的事情。
本文就來探討一下,逆向工程一般是怎么進(jìn)行的,需要學(xué)習(xí)哪些東西?
程序反編譯
逆向的一開始,通過會(huì)對(duì)目標(biāo)進(jìn)行反編譯。
作為軟件開發(fā)者,對(duì)編譯這個(gè)詞應(yīng)該不會(huì)陌生,我們寫好了程序代碼,然后使用編譯器將其轉(zhuǎn)換成可執(zhí)行的程序,這個(gè)過程叫做編譯。
反編譯,自然就是這個(gè)過程的逆過程,那該選擇什么樣的程序進(jìn)行反編譯呢?
對(duì)于C、C++、Golang等類型語(yǔ)言編寫的程序,我們一般使用IDA進(jìn)行反匯編。

對(duì)于Java語(yǔ)言編寫的class文件和jar文件,我們一般使用jd-gui進(jìn)行反編譯。
對(duì)于C#語(yǔ)言編寫的可執(zhí)行程序,我們一般使用reflector進(jìn)行反編譯。
所以學(xué)習(xí)上面三款反編譯工具的使用對(duì)學(xué)習(xí)逆向工程非常重要
可執(zhí)行文件格式
不同的操作系統(tǒng)平臺(tái)具有不同的可執(zhí)行文件格式,如Windows上的PE文件、linux平臺(tái)的ELF文件、macOS上的Mach-O文件
一個(gè)可執(zhí)行文件中除了源代碼生成的匯編指令,還有靜態(tài)數(shù)據(jù)(如代碼中引用到的字符串),導(dǎo)入導(dǎo)出信息,文件屬性信息等等,掌握提取這些信息,會(huì)對(duì)咱們了解目標(biāo)程序非常有幫助。

這就需要學(xué)習(xí)不同平臺(tái)上可執(zhí)行文件的格式,尤其是PE文件和ELF文件,是逆向工程中最常打交道的文件格式。
CPU指令集
在逆向分析程序時(shí),最主要的精力和時(shí)間就是在閱讀和分析反編譯出來的匯編指令。
所以CPU的指令集和匯編語(yǔ)言是搞逆向的同學(xué)必學(xué)的一門課。
常見的PC端CPU就是Intel的x86、x64和AMD64,移動(dòng)端的就是ARM架構(gòu)。建議先從最基本的x86開始學(xué)習(xí),尤其要注意網(wǎng)絡(luò)上很多教程講的還是16位實(shí)模式下的匯編語(yǔ)言,非常容易誤導(dǎo)人。實(shí)模式當(dāng)然要了解,但要把精力放在保護(hù)模式下32位匯編語(yǔ)言。

等x86入了門,可以擴(kuò)展學(xué)習(xí)x64,到后期再擴(kuò)展學(xué)習(xí)ARM。
學(xué)習(xí)匯編語(yǔ)言,不僅僅是學(xué)習(xí)匯編指令,更是在學(xué)習(xí)了解CPU,CPU有哪些寄存器,分別有什么用,它是如何訪問內(nèi)存,如何進(jìn)行尋址,如何進(jìn)行運(yùn)算等等。
高級(jí)語(yǔ)言特性
咱們逆向工程的目標(biāo)大都是用C/C++/Java/C#這樣的高級(jí)語(yǔ)言編寫出來的程序,要想還原出程序的代碼邏輯,如果不懂高級(jí)語(yǔ)言本身那肯定是不行的。
當(dāng)然,做逆向的同學(xué),不必要像專業(yè)的開發(fā)同學(xué)那樣對(duì)這些語(yǔ)言的特性爛熟于心,掌握很多編程技能,這倒不用。
但掌握這些語(yǔ)言的基本編程技能還是有必要。拿C語(yǔ)言來說,C語(yǔ)言中函數(shù)調(diào)用原理,參數(shù)如何傳遞,函數(shù)中的局部變量如何分布,數(shù)組如何存儲(chǔ),結(jié)構(gòu)體成員如何內(nèi)存布局,指針又是如何實(shí)現(xiàn)的等等,這些基礎(chǔ)概念咱們得知道,不然拿到反匯編代碼,也不知道如何與高級(jí)語(yǔ)言進(jìn)行轉(zhuǎn)換。

像上面說到的這些C語(yǔ)言知識(shí),學(xué)習(xí)的時(shí)候要自己對(duì)比源碼和編譯后的匯編指令長(zhǎng)什么樣,反復(fù)對(duì)比學(xué)習(xí),產(chǎn)生條件反射。除了這些,還要關(guān)注C++中面向?qū)ο髮?shí)現(xiàn)原理,虛函數(shù)機(jī)制,this指針如何傳參,new和delete/delete []等等在匯編指令層如何實(shí)現(xiàn)。
有些人說,咱不是有F5大法嗎,直接一鍵搞定?當(dāng)然F5功能非常強(qiáng)大,我也不反對(duì)使用工具,但我們不能過分依賴于工具,不然就變成一個(gè)徹底的工具人,尤其是對(duì)于初學(xué)者,自己嘗試從匯編指令轉(zhuǎn)換成高級(jí)語(yǔ)言,會(huì)讓自己對(duì)技術(shù)底層原理理解的更加透徹。而且,有很多時(shí)候F5功能用不了,那個(gè)時(shí)候還得靠自己的知識(shí)上!
軟件調(diào)試
很多時(shí)候,光靠靜態(tài)分析無法實(shí)現(xiàn)目標(biāo),比如程序進(jìn)行了加殼等技術(shù),在靜態(tài)分析下看到的全是錯(cuò)誤的指令代碼,甚至讓反編譯工具無法分析。
這個(gè)時(shí)候,就需要結(jié)合動(dòng)態(tài)分析技術(shù)一塊兒上,讓程序?qū)嶋H運(yùn)行起來,再來對(duì)其進(jìn)行分析,所以,掌握軟件調(diào)試技術(shù),也是逆向工程中不可缺失的一環(huán)