輕鬆易懂,一文帶你 http 協議入門?
一、什麼是 http?
Http 協議即超文本傳送協議 (HTTP-Hypertext transfer protocol) 。
它定義了瀏覽器(即萬維網客戶進程)怎樣向萬維網服務器請求萬維網文檔,以及服務器怎樣把文檔傳送給瀏覽器。從層次的角度看,HTTP 是面向(transaction-oriented) 應用層協議,它是萬維網上能夠可靠地交換文件(包括文本、聲音、圖像等各種多媒體文件)的重要基礎。並且詳細的規定了客戶端瀏覽器與服務器之間互相通信的規則。
二、抓包
下面是一口君抓取的訪問自己搭建的 web 服務器交互的所有數據包。以下是瀏覽器顯示信息:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" >
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>一口Linux</title>
</head>
<body >
<div align="center">
<table width="900" border="0">
<tr><td>
<form onsubmit="return isValidate(myform)" action="cgi-bin/login.cgi" method="post">
用戶名: <input type="text" >
<td> </td>
<tr><td>
密 碼: <input type="password" >
<td> </td>
<tr><td>
<input type="submit" value="登錄" id="button" >
</form>
</td></tr>
</table>
</div>
<div align="center">
<table width="900" height="467" border="0" background="./image/yikou.png">
<tr>
<td width="126" height="948"> </td>
<td width="351"></td>
<td width="101"> </td>
</tr>
</div>
</body>
</html>
下面是用抓包工具抓取的所有 HTTP 數據包:
瀏覽器發送的 GET 請求數據包:
完整的瀏覽訪問服務器數據包交互流程如下:
-
瀏覽器會向 web 服務器發起 tcp 3 次握手,(http 是基於 tcp,上圖數據包 1-3)
-
瀏覽器會根據網址欄輸入的 url,通過 DNS 協議查找該 domain 對應的 IP 地址(如果 url 中直接給出 IP 地址,則省略該步驟)
-
瀏覽器發送 HTTP 協議的 GET 請求,web 服務器會回覆對應的頁面(沒有指定的話,一般由配置文件指定默認文件比如 index.html,見數據包 4-6)
-
因爲頁面有圖片信息,瀏覽器再請求獲取對應的圖片文件(見數據包 7-24)
-
最後會關閉 tcp 連接,執行 4 握手(見數據包 25-28)
三、頁面交互流程
下面我們來看一下,從網頁輸入 URL 到加載,http 究竟做了哪些工作?
瀏覽器負責發起請求和最後的響應請求,服務器接收請求後,處理請求。
1、輸入 URL。
不管是鏈接還是地址欄的輸入,情況都是一樣的。http 協議已經規定了 URL 的格式,通過 http 協議中的域名或 IP 找到服務器。
2、找到服務器的同時,會有 http 的請求發送過來,告訴服務器我求你做什麼?http 協議規定了發送請求的格式,這個格式有三部分組成請求行、請求頭、請求體。
請求行包括請求的方式(get、post 或其他)、要求響應的文件、http 版本。請求頭包括本機信息、瀏覽器信息等等,當然,也包括 URL 中?後面的參數。
3、請求信息發送至服務器以後,服務器會獲取傳遞過來的相關信息進行後端程序的處理。服務器可以通過數據包中信息獲取 URL 傳遞過來的值,通過 form(表單) 獲取 POST 傳遞過來的值,當然,也是可以獲取到所有的其他請求過來的信息,如瀏覽器信息、cookie 信息、操作系統信息等。獲取相關的數據以後,服務器就會根據程序進行處理。
4、處理完成以後,服務器會做出響應,向瀏覽器輸出相關信息。http 對響應的格式也做出了規定,響應的信息主要包括,響應碼、響應頭、響應體。
1開頭的表示消息,
2開頭表示成功,
3開頭表示重定向,
4開頭表示失敗,
5開頭表示服務器異常。
響應頭記錄服務器相關信息如服務器是否啓用壓縮、服務器爲 IIS 或 Ngnix、程序所用服務端語言等等。當然,緩存也是在這裏設置的,通過修改響應頭可以修改 html 在本地緩存的情況,如設置瀏覽器緩存過期的時間。
響應體主要是我看到的 html 的相關內容了。
完成以上 4 步操作以後,瀏覽器就斷開了與服務器的數據連接,不能在進行數據傳輸,如果需要再次進行數據傳輸,那麼一切就要從輸入 URL 開始。
如此,便是一個完整的網頁流程,http 從中的作用就是對整個流程進行規定,包括執行步驟,每一步的數據格式。只有瞭解 http 協議以及網頁是如何產生的以後,才能對網頁進行更好的控制,例如控制瀏覽器緩存、通過非瀏覽器發送 http 請求、get 和 post 傳值的選擇,甚至是建立長連接,這些都是以 http 協議爲基礎。
四、補充
1. http 主要方法
1.0 版本和 1.1 版本的描述分別基於 RFC1945 和 RFC2616 除了上圖中的內容之外, HTTP 消息中還有一些用來表示附加信息的 頭字段。客戶端向 Web 服務器發送數據時, 會先發送頭字段, 然後再發送 數據。
2. 狀態碼
收到請求消息之後, Web 服務器會對其中的內容進行解析, 通過 URI 和方法來判斷 “對什麼”“進行怎樣的操作”, 並根據這些要求來完成自己的工作, 然後將結果存放在響應消息中。在響應消息的開頭有一個狀態碼,它用來表示操作的執行結果是成功還是發生了錯誤。
當我們訪問 Web 服務器時, 遇到找不到的文件就會顯示出 404 Not Found 的錯誤信息, 其實這就是狀態碼。狀態碼後面就是頭字段和網頁數據。響應消息會被髮送回客戶端, 客戶端收到之後, 瀏覽器會從消息中讀出所需的數據並顯示在屏幕上。到這裏, HTTP 的整個工作就完成了。
HTTP 狀態碼由三個十進制數字組成,第一個十進制數字定義了狀態碼的類型。
響應分爲五類:信息響應(100–199),成功響應(200–299),重定向(300–399),客戶端錯誤(400–499)和服務器錯誤 (500–599)
:
HTTP 狀態碼列表:
本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源:https://mp.weixin.qq.com/s/L-KFCE5ny2JjiV3HYVheQw