什么是逆向工程

先給大家出一道思考題

用C語(yǔ)言設(shè)計(jì)一個(gè)程序，驗(yàn)證輸入的密碼是否是“12345678”，如果驗(yàn)證成功，就輸出“success”，如果驗(yàn)證失敗，則輸出“failed”。

我想，大部分新手小白估計(jì)會(huì)這么寫：

#include <stdio.h>
#include <string.h>

int main() {

    char buf[10] = {0};
    scanf("%s", buf);
    if (strcmp(buf, "12345678") == 0) {
        printf("success");
    } else {
        printf("failed");
    }

    return 0;
}

上面的代碼編譯后，會(huì)生成一個(gè)可執(zhí)行程序，咱們來對(duì)這個(gè)可執(zhí)行文件進(jìn)行一下反編譯，看看能看到什么？

下圖是在反編譯神器IDA中，可執(zhí)行文件反編譯出來的匯編指令圖：

可以非常清晰的看到一些字符串的信息："success"、"failed"、"1234567。

再認(rèn)真一看，main函數(shù)中有一個(gè)分支判斷，根據(jù)判斷的結(jié)果，走入左右兩個(gè)分支，分別輸出"success"和"failed"。

如果新手看不懂上面的反匯編圖，那可以再使用IDA的神級(jí)功能：F5反編譯高級(jí)語(yǔ)言功能，直接將上面的匯編程序再進(jìn)一步還原成C語(yǔ)言。

可以對(duì)照一下上圖中的C函數(shù)代碼和原來我們的源代碼，還原度非常的高了，字符串比較的功能邏輯暴露無遺

可以看到，通過這種方式進(jìn)行密碼匹配，非常不安全，對(duì)方拿到你的程序一反編譯，就能看到密碼是什么了。

不過咱們今天的文章主題不是探討如何進(jìn)行安全地進(jìn)行密碼比較，而是另一個(gè)主題：逆向工程。

什么是逆向工程，維基百科中的解釋如下：

逆向工程(Reverse Engineering)，又稱反向工程，是一種技術(shù)過程，即對(duì)一項(xiàng)目標(biāo)產(chǎn)品進(jìn)行逆向分析及研究，從而演繹并得出該產(chǎn)品的處理流程、組織結(jié)構(gòu)、功能性能規(guī)格等設(shè)計(jì)要素，以制作出功能相近，但又不完全一樣的產(chǎn)品。

逆向工程的概念起源于商業(yè)和軍事領(lǐng)域，后延伸到軟件領(lǐng)域。

在軟件領(lǐng)域，通過對(duì)程序文件進(jìn)行逆向分析，推導(dǎo)出程序?qū)υ创a設(shè)計(jì)的過程，稱為軟件逆向工程。比如上面通過分析可執(zhí)行文件還原出C代碼，分析jar包/class文件還原出JAVA源碼，這都屬于軟件逆向工程。

軟件逆向工程是網(wǎng)絡(luò)安全領(lǐng)域中的一個(gè)重要分支，網(wǎng)絡(luò)黑客通過逆向工程可以獲得目標(biāo)的程序原理，破解軟件的權(quán)限，這一般發(fā)生在商業(yè)軟件領(lǐng)域。另外一方面，黑客通過逆向分析也常用來發(fā)現(xiàn)軟件漏洞，用來對(duì)其發(fā)起攻擊，windows作為一個(gè)不開源的操作系統(tǒng)，就經(jīng)常遭遇這樣的事情。

本文就來探討一下，逆向工程一般是怎么進(jìn)行的，需要學(xué)習(xí)哪些東西？

程序反編譯

逆向的一開始，通過會(huì)對(duì)目標(biāo)進(jìn)行反編譯。

作為軟件開發(fā)者，對(duì)編譯這個(gè)詞應(yīng)該不會(huì)陌生，我們寫好了程序代碼，然后使用編譯器將其轉(zhuǎn)換成可執(zhí)行的程序，這個(gè)過程叫做編譯。

反編譯，自然就是這個(gè)過程的逆過程，那該選擇什么樣的程序進(jìn)行反編譯呢？

對(duì)于C、C++、Golang等類型語(yǔ)言編寫的程序，我們一般使用IDA進(jìn)行反匯編。

對(duì)于Java語(yǔ)言編寫的class文件和jar文件，我們一般使用jd-gui進(jìn)行反編譯。

對(duì)于C#語(yǔ)言編寫的可執(zhí)行程序，我們一般使用reflector進(jìn)行反編譯。

所以學(xué)習(xí)上面三款反編譯工具的使用對(duì)學(xué)習(xí)逆向工程非常重要

可執(zhí)行文件格式

不同的操作系統(tǒng)平臺(tái)具有不同的可執(zhí)行文件格式，如Windows上的PE文件、linux平臺(tái)的ELF文件、macOS上的Mach-O文件

一個(gè)可執(zhí)行文件中除了源代碼生成的匯編指令，還有靜態(tài)數(shù)據(jù)（如代碼中引用到的字符串），導(dǎo)入導(dǎo)出信息，文件屬性信息等等，掌握提取這些信息，會(huì)對(duì)咱們了解目標(biāo)程序非常有幫助。

這就需要學(xué)習(xí)不同平臺(tái)上可執(zhí)行文件的格式，尤其是PE文件和ELF文件，是逆向工程中最常打交道的文件格式。

CPU指令集

在逆向分析程序時(shí)，最主要的精力和時(shí)間就是在閱讀和分析反編譯出來的匯編指令。

所以CPU的指令集和匯編語(yǔ)言是搞逆向的同學(xué)必學(xué)的一門課。

常見的PC端CPU就是Intel的x86、x64和AMD64，移動(dòng)端的就是ARM架構(gòu)。建議先從最基本的x86開始學(xué)習(xí)，尤其要注意網(wǎng)絡(luò)上很多教程講的還是16位實(shí)模式下的匯編語(yǔ)言，非常容易誤導(dǎo)人。實(shí)模式當(dāng)然要了解，但要把精力放在保護(hù)模式下32位匯編語(yǔ)言。

等x86入了門，可以擴(kuò)展學(xué)習(xí)x64，到后期再擴(kuò)展學(xué)習(xí)ARM。

學(xué)習(xí)匯編語(yǔ)言，不僅僅是學(xué)習(xí)匯編指令，更是在學(xué)習(xí)了解CPU，CPU有哪些寄存器，分別有什么用，它是如何訪問內(nèi)存，如何進(jìn)行尋址，如何進(jìn)行運(yùn)算等等。

高級(jí)語(yǔ)言特性

咱們逆向工程的目標(biāo)大都是用C/C++/Java/C#這樣的高級(jí)語(yǔ)言編寫出來的程序，要想還原出程序的代碼邏輯，如果不懂高級(jí)語(yǔ)言本身那肯定是不行的。

當(dāng)然，做逆向的同學(xué)，不必要像專業(yè)的開發(fā)同學(xué)那樣對(duì)這些語(yǔ)言的特性爛熟于心，掌握很多編程技能，這倒不用。

但掌握這些語(yǔ)言的基本編程技能還是有必要。拿C語(yǔ)言來說，C語(yǔ)言中函數(shù)調(diào)用原理，參數(shù)如何傳遞，函數(shù)中的局部變量如何分布，數(shù)組如何存儲(chǔ)，結(jié)構(gòu)體成員如何內(nèi)存布局，指針又是如何實(shí)現(xiàn)的等等，這些基礎(chǔ)概念咱們得知道，不然拿到反匯編代碼，也不知道如何與高級(jí)語(yǔ)言進(jìn)行轉(zhuǎn)換。

像上面說到的這些C語(yǔ)言知識(shí)，學(xué)習(xí)的時(shí)候要自己對(duì)比源碼和編譯后的匯編指令長(zhǎng)什么樣，反復(fù)對(duì)比學(xué)習(xí)，產(chǎn)生條件反射。除了這些，還要關(guān)注C++中面向?qū)ο髮?shí)現(xiàn)原理，虛函數(shù)機(jī)制，this指針如何傳參，new和delete/delete []等等在匯編指令層如何實(shí)現(xiàn)。

有些人說，咱不是有F5大法嗎，直接一鍵搞定？當(dāng)然F5功能非常強(qiáng)大，我也不反對(duì)使用工具，但我們不能過分依賴于工具，不然就變成一個(gè)徹底的工具人，尤其是對(duì)于初學(xué)者，自己嘗試從匯編指令轉(zhuǎn)換成高級(jí)語(yǔ)言，會(huì)讓自己對(duì)技術(shù)底層原理理解的更加透徹。而且，有很多時(shí)候F5功能用不了，那個(gè)時(shí)候還得靠自己的知識(shí)上！