要說清楚 HTTPS 協議的實現原理,至少需要如下幾個背景知識。
1. 大致了解幾個基本術語(HTTPS、SSL、TLS)的含義
2. 大致了解 HTTP 和 TCP 的關系(尤其是“短連接”VS“長連接”)
3. 大致了解加密算法的概念(尤其是“對稱加密與非對稱加密”的區別)
考慮到很多技術菜鳥可能不了解上述背景,俺先用最簡短的文字描述一下。如果你自認為不是菜鳥,請略過本章節,直接去看“HTTPS 協議的需求”。
先澄清幾個術語——HTTPS、SSL、TLS
1. “HTTP”是干嘛用滴?
首先,HTTP 是一個網絡協議,是專門用來幫你傳輸 Web 內容滴。關于這個協議,就算你不了解,至少也聽說過吧?比如你訪問俺的博客的主頁,瀏覽器地址欄會出現如下的網址
http://www.techug.com/
俺加了粗體的部分就是指 HTTP 協議。大部分網站都是通過 HTTP 協議來傳輸 Web 頁面、以及 Web 頁面上包含的各種東東(圖片、CSS 樣式、JS 腳本)。
2. “SSL/TLS”是干嘛用滴?
SSL 是洋文“Secure Sockets Layer”的縮寫,中文叫做“安全套接層”。它是在上世紀90年代中期,由網景公司設計的。(順便插一句,網景公司不光發明了 SSL,還發明了很多 Web 的基礎設施——比如“CSS 樣式表”和“JS 腳本”)
為啥要發明 SSL 這個協議捏?因為原先互聯網上使用的 HTTP 協議是明文的,存在很多缺點——比如傳輸內容會被偷窺(嗅探)和篡改。發明 SSL 協議,就是為了解決這些問題。
到了1999年,SSL 因為應用廣泛,已經成為互聯網上的事實標準。IETF 就在那年把 SSL 標準化。標準化之后的名稱改為 TLS(是“Transport Layer Security”的縮寫),中文叫做“傳輸層安全協議”。
很多相關的文章都把這兩者并列稱呼(SSL/TLS),因為這兩者可以視作同一個東西的不同階段。
3. “HTTPS”是啥意思?
解釋完 HTTP 和 SSL/TLS,現在就可以來解釋 HTTPS 啦。咱們通常所說的 HTTPS 協議,說白了就是“HTTP 協議”和“SSL/TLS 協議”的組合。你可以把 HTTPS 大致理解為——“HTTP over SSL”或“HTTP over TLS”(反正 SSL 和 TLS 差不多)。
再來說說 HTTP 協議的特點
作為背景知識介紹,還需要再稍微談一下 HTTP 協議本身的特點。HTTP 本身有很多特點,考慮到篇幅有限,俺只談那些和 HTTPS 相關的特點。
1. HTTP 的版本和歷史
如今咱們用的 HTTP 協議,版本號是 1.1(也就是 HTTP 1.1)。這個 1.1 版本是1995年底開始起草的(技術文檔是 RFC2068),并在1999年正式發布(技術文檔是 RFC2616)。
在 1.1 之前,還有曾經出現過兩個版本“0.9 和 1.0”,其中的 HTTP 0.9 【沒有】被廣泛使用,而 HTTP 1.0 被廣泛使用過。
另外,據說明年(2015)IETF 就要發布 HTTP 2.0 的標準了。俺拭目以待。
2. HTTP 和 TCP 之間的關系
簡單地說,TCP 協議是 HTTP 協議的基石——HTTP 協議需要依靠 TCP 協議來傳輸數據。
在網絡分層模型中,TCP 被稱為“傳輸層協議”,而 HTTP 被稱為“應用層協議”。
有很多常見的應用層協議是以 TCP 為基礎的,比如“FTP、SMTP、POP、IMAP”等。
TCP 被稱為“面向連接”的傳輸層協議。關于它的具體細節,俺就不展開了(否則篇幅又失控了)。你只需知道:傳輸層主要有兩個協議,分別是 TCP 和 UDP。TCP 比 UDP 更可靠。你可以把 TCP 協議想象成某個水管,發送端這頭進水,接收端那頭就出水。并且 TCP 協議能夠確保,先發送的數據先到達(與之相反,UDP 不保證這點)。
3. HTTP 協議如何使用 TCP 連接?
HTTP 對 TCP 連接的使用,分為兩種方式:俗稱“短連接”和“長連接”(“長連接”又稱“持久連接”,洋文叫做“Keep-Alive”或“Persistent Connection”)
假設有一個網頁,里面包含好多圖片,還包含好多【外部的】CSS 文件和 JS 文件。在“短連接”的模式下,瀏覽器會先發起一個 TCP 連接,拿到該網頁的 HTML 源代碼(拿到 HTML 之后,這個 TCP 連接就關閉了)。然后,瀏覽器開始分析這個網頁的源碼,知道這個頁面包含很多外部資源(圖片、CSS、JS)。然后針對【每一個】外部資源,再分別發起一個個 TCP 連接,把這些文件獲取到本地(同樣的,每抓取一個外部資源后,相應的 TCP 就斷開)
相反,如果是“長連接”的方式,瀏覽器也會先發起一個 TCP 連接去抓取頁面。但是抓取頁面之后,該 TCP 連接并不會立即關閉,而是暫時先保持著(所謂的“Keep-Alive”)。然后瀏覽器分析 HTML 源碼之后,發現有很多外部資源,就用剛才那個 TCP 連接去抓取此頁面的外部資源。
在 HTTP 1.0 版本,【默認】使用的是“短連接”(那時候是 Web 誕生初期,網頁相對簡單,“短連接”的問題不大);
到了1995年底開始制定 HTTP 1.1 草案的時候,網頁已經開始變得復雜(網頁內的圖片、腳本越來越多了)。這時候再用短連接的方式,效率太低下了(因為建立 TCP 連接是有“時間成本”和“CPU 成本”滴)。所以,在 HTTP 1.1 中,【默認】采用的是“Keep-Alive”的方式。
關于“Keep-Alive”的更多介紹,可以參見維基百科詞條(在“這里”)
談談“對稱加密”和“非對稱加密”的概念
1. 啥是“加密”和“解密”?
通俗而言,你可以把“加密”和“解密”理解為某種【互逆的】數學運算。就好比“加法和減法”互為逆運算、“乘法和除法”互為逆運算。
“加密”的過程,就是把“明文”變成“密文”的過程;反之,“解密”的過程,就是把“密文”變為“明文”。在這兩個過程中,都需要一個關鍵的東東——叫做“密鑰”——來參與數學運算。
2. 啥是“對稱加密”?
所謂的“對稱加密技術”,意思就是說:“加密”和“解密”使用【相同的】密鑰。這個比較好理解。就好比你用 7zip 或 WinRAR 創建一個帶密碼(口令)的加密壓縮包。當你下次要把這個壓縮文件解開的時候,你需要輸入【同樣的】密碼。在這個例子中,密碼/口令就如同剛才說的“密鑰”。
3. 啥是“非對稱加密”?
所謂的“非對稱加密技術”,意思就是說:“加密”和“解密”使用【不同的】密鑰。這玩意兒比較難理解,也比較難想到。當年“非對稱加密”的發明,還被譽為“密碼學”歷史上的一次革命。
由于篇幅有限,對“非對稱加密”這個話題,俺就不展開了。有空的話,再單獨寫一篇掃盲。