複製鏈接
請複製以下鏈接發送給好友

HTML文件

鎖定
超文本標記語言超文本鏈接標示語言(標準通用標記語言下的一個應用)HTML(HyperText Mark-up Language)是一種製作萬維網頁面的標準語言,是萬維網瀏覽器使用的一種語言,它消除了不同計算機之間信息交流的障礙。
HTML元素是構建網站的基石。HTML允許嵌入圖像與對象,並且可以用於創建交互式表單,它被用來結構化信息——例如標題、段落和列表等等,也可用來在一定程度上描述文檔的外觀和語義。HTML的語言形式為尖括號包圍的HTML元素(如<html>),瀏覽器使用HTML標籤和腳本來詮釋網頁內容,但不會將它們顯示在頁面上。
HTML可以嵌入如JavaScript腳本語言,它們會影響HTML網頁的行為。網頁瀏覽器也可以引用層疊樣式表(CSS)來定義文本和其它元素的外觀與佈局。維護HTML和CSS標準的組織萬維網聯盟(W3C)鼓勵人們使用CSS替代一些用於表現的HTML元素。
中文名
超文本標記語言文件
外文名
HTML
類    型
計算機語言
全    稱
HyperText Mark-up Language

HTML文件簡介

HTML文件是可以被多種網頁瀏覽器讀取,產生網頁傳遞各類資訊的文件。從本質上來説,Internet( 互聯網)是一個由一系列傳輸協議和各類文檔所組成的集合,html文件只是其中的一種。這些HTML文件存儲在分佈於世界各地的服務器硬盤上,通過傳輸協議用户可以遠程獲取這些文件所傳達的資訊和信息。
網絡瀏覽器,例如Netscape Navigator或Microsoft Internet explorer,能夠解釋HTML文件來顯示網頁,這是網絡瀏覽器的主要作用。當你使用瀏覽器在互聯網上瀏覽網頁時,瀏覽器軟件就自動完成HTML文件到網頁的轉換。
優點:打開速度快,操作簡單,無需下載其他閲讀器。
缺點:改變格式,無法直接引用,界面不友好,閲讀不方便。

HTML文件發展歷史

1980年,物理學家蒂姆·伯納斯-李在歐洲核子研究中心(CERN)在承包工程期間,為使CERN的研究人員使用並共享文檔,他提出並創建原型系統ENQUIRE。1989年,伯納斯-李在一份備忘錄中提出一個基於互聯網的超文本系統。他規定HTML並在1990年底寫出瀏覽器和服務器軟件。同年,伯納斯-李與CERN的數據系統工程師羅伯特·卡里奧聯合為項目申請資助,但未被CERN正式批准。在他的個人筆記中伯納斯-李列舉“一些使用超文本的領域”,並把百科全書列為首位。
HTML的首個公開描述出現於一個名為“HTML標籤”的文件中,由蒂姆·伯納斯-李於1991年底提及。它描述18個元素,包括HTML初始的、相對簡單的設計。除了超鏈接標籤外,其他設計都深受CERN內部一個以標準通用標記語言(SGML)為基礎的文件格式SGMLguid的影響。這些元素在HTML 4中仍有11個存在。
伯納斯-李認為HTML是SGML的一個應用程序。1993年中期互聯網工程任務組(IETF)發佈首個HTML規範的提案:“超文本標記語言(HTML)”互聯網草案,由伯納斯-李與丹·康納利撰寫。其中包括一個SGML文檔類型定義來定義語法。草案於6個月後過期,不過值得注意的是其對NCSA Mosaic瀏覽器自定義標籤從而將在線圖像嵌入的行為的認可,這反映IETF把標準立足於成功原型的理念。同樣,戴夫·拉格特在1993年末提出的與之競爭的互聯網草案“HTML+(超文本標記格式)”建議規範已經實現的功能,如表格與填寫表單。
在HTML和HTML+的草案於1994年初到期後,IETF創建一個HTML工作組,並在1995年完成"HTML 2.0",這是第一個旨在成為對其後續實現標準的依據的HTML規範。
在IETF的主持下,HTML標準的進一步發展因競爭利益而遭受停滯。自1996年起,HTML規範一直由萬維網聯盟(W3C)維護,並由商業軟件廠商出資。不過在2000年,HTML也成為國際標準(ISO/IEC15445:2000)。HTML 4.01於1999年末發佈,進一步的勘誤版本於2001年發佈。2004年,網頁超文本應用技術工作小組(WHATWG)開始開發HTML5,並在2008年與W3C共同交付,2014年10月28日完成標準化。

HTML文件版本時間線

  • 1995年11月24日
  • HTML 2.0作為IETF RFC 1866發佈。追加RFC的附加功能:1995年11月25日:RFC 1867(基於表單的文件上傳)
  • 1996年5月:RFC 1942(表格)
  • 1996年8月:RFC 1980(客户端圖像映射)
  • 1997年1月:RFC 2070(國際化
  • 1997年1月14日
  • HTML 3.2作為W3C推薦標準發佈。這是首個完全由W3C開發並標準化的版本,因IETF於1996年9月12日關閉它的HTML工作組。
  • 最初代號為“威爾伯”(Wilbur),HTML 3.2完全去除數學公式,協調各種專有擴展,並採用網景設計的大多數視覺標記標籤。由於兩家公司達成了協議,網景的閃爍元素和微軟的滾動元素被移除。HTML對數學公式的支持最後成為另外一種被稱為MathML的標準。
  • 1997年12月18日
  • HTML 4.0作為W3C推薦標準發佈。它提供三種變化:嚴格,過時的元素被禁止。
  • 過渡,過時的元素被允許。
  • 框架集,大多隻與框架相關的元素被允許。
最初代號“美洲獅”(Cougar), HTML 4.0採用許多特定瀏覽器的元素類型和屬性,並試圖淘汰網景的視覺標記功能,將其標記為不贊成使用。HTML 4是遵循ISO 8879 - SGML的SGML應用程序。
1998年4月24日
HTML 4.0進行微調,不增加版本號
1999年12月24日
HTML 4.01作為W3C推薦標準發佈。它同樣提供三種變化,最終勘誤版於2001年5月12日發佈。
2000年5月
ISO/IEC 15445:2000("ISOHTML",基於HTML 4.01嚴格版)作為ISO/IEC國際標準發佈。在ISO中這一標準位於ISO/IEC JTC 1/SC 34域(ISO/IEC聯合技術委員會1、小組委員會34 – 文檔描述與處理語言)。
2014年10月28日
HTML 5作為W3C推薦標準發佈。
草案時間線
  • 1991年10月
  • HTML標籤,一個非正式CERN文件首次公開18個HTML標籤。
  • 1992年6月
  • HTML DTD的首個非正式草案, 後續有七個修訂版(7月15日,8月6日,8月18日,11月17日,11月19日,11月20日,11月22日)。
  • 1992年11月
  • HTML DTD 1.1(首個版本號,基於RCS修訂版,版本號從1.1開始而非1.0),非正式草案。
  • 1993年6月
  • 超文本標記語言由IETFIIIR工作小組作為互聯網草案(一個粗略的建議標準)。在被第二版取代一個月後,IETF又發佈6個草案,最終在RFC1866中發佈HTML 2.0。
  • 1993年11月
  • HTML+由IETF作為互聯網草案發布,是超文本標記語言草案的一個競爭性提案。它於1994年5月到期。
  • 1995年4月 (1995年3月編寫)
  • HTML 3.0被提議作為IETF的標準,但直到提案在五個月過期後(1995年9月28日)仍沒有進一步的行動。它包含許多拉格特HTML+提案的功能,如對錶格的支持、圍繞數據的文本流和複雜的數學公式的顯示。W3C開始開發自己的Arena瀏覽器作為HTML 3和層疊樣式表的試驗枱,但HTML 3.0並沒有獲得成功。瀏覽器廠商,包括微軟和網景,選擇實現HTML3草案功能的不同子集並引入它們自己的插件(見瀏覽器大戰)。
  • 2008年1月
  • HTML5由W3C作為工作草案(鏈接)發佈。雖然HTML5的語法非常類似於SGML,但它已經放棄任何成為SGML應用程序的嘗試,除了一種替代的基於XML的HTML5序列,它已明確定義自己的“HTML”序列。
  • 2011年 HTML5 – 最終徵求
  • 2011年5月,工作小組將HTML5推進至“最終徵求”(Last Call)階段,邀請W3C社區內外人士以確認本規範的技術可靠性。W3C開發一套綜合性測試包來實現完整規範的廣泛交互操作性,完整規範的目標日期為2014年。2011年1月,WHATWG將其“HTML5”活動標準重命名為“HTML”。W3C仍然繼續其發佈HTML5的項目。
  • 2012年 HTML5 – 候選推薦
  • 2012年7月,WHATWG和W3C的工作產生一定程度的分離。W3C繼續HTML5規範工作,重點放在單一明確的標準上,這被WHATWG稱為“快照”。WHATWG組織則將HTML5作為一個“活動標準”(Living Standard)。活動標準的概念是從未完成但永遠保持更新與改進,可以蒂姆加新特性,但功能點不會被刪除。
  • 2012年12月,W3C指定HTML5作為候選推薦階段。 該階段的標準為“兩個100%完成,完全實現交互操作”。
  • 2014年 HTML5 – 提案推薦與推薦
  • 2014年9月,HTML5進入提案推薦階段。
  • 2014年10月28日,HTML5作為穩定W3C推薦標準發佈,這意味着HTML5的標準化已經完成。
XHTML版本
主條目:XHTML
XHTML是使用XML1.0改寫自HTML 4.01的獨立語言。它不再被作為單獨標準開發。
  • XHTML 1.0, 2000年1月26日作為W3C推薦標準發佈。修訂版於2002年8月1日發佈,它提供與HTML 4.0和4.01相同的三個變化,這些變化被重新在XML中制定。
  • XHTML 1.1,基於XHTML 1.0 嚴格版,2001年5月31日 作為W3C推薦標準發佈。修訂版可使用模塊化XHTML的模塊,2001年4月10日作為W3C推薦標準發佈。
  • XHTML 2.0為工作草案,但為支持HTML5與XHTML5的工作,此草案被放棄。 XHTML 2.0與XHTML 1.x不兼容,因此更確切的説這是一個XHTML風格的新語言而不是XHTML 1.x的更新。
  • 在HTML5草案中規定一個XHTML語法,稱為“XHTML5.1”。

HTML文件標記

HTML標記包含標籤(及其屬性)、基於字符的數據類型、字符引用和實體引用等幾個關鍵部分。HTML標籤是最常見的,通常成對出現,比如<h1>與</h1>。這些成對出現的標籤中,第一個標籤是開始標籤,第二個標籤是結束標籤。兩個標籤之間為元素的內容,有些標籤沒有內容,為空元素,如<img>。
HTML另一個重要組成部分為文檔類型聲明,這會觸發標準模式渲染。
以下是一個經典的Hello World程序的例子:
1<!DOCTYPE html>
2 <html>
3   <head>
4     <title>This is a title</title>
5   </head>
6   <body>
7     <p>Hello world!</p>
8   </body>
9 </html>
元素
主條目:HTML元素
HTML文檔由嵌套的HTML元素構成。它們用HTML標籤表示,包含於尖括號中,如<p>
在一般情況下,一個元素由一對標籤表示:“開始標籤”<p>與“結束標籤”</p>。元素如果含有文本內容,就被放置在這些標籤之間。
在開始與結束標籤之間也可以封裝另外的標籤,包括標籤與文本的混合。這些嵌套元素是父元素的子元素
開始標籤也可包含標籤屬性。這些屬性有諸如標識文檔區塊、將樣式信息綁定到文檔演示和為一些如<img>等的標籤嵌入圖像、引用圖像來源等作用。
一些元素如換行符<br>,不允許嵌入任何內容,無論是文字或其他標籤。這些元素只需一個單一的空標籤(類似於一個開始標籤),無需結束標籤。
許多標籤是可選的,尤其是那些很常用的段落元素<p>的閉合端標籤。HTML瀏覽器或其他介質可以從上下文識別出元素的閉合端以及由HTML標準所定義的結構規則。這些規則非常複雜,不是大多數HTML編碼人員可以完全理解的。
因此,一個HTML元素的一般形式為:<tagattribute1="value1"attribute2="value2">''content''</tag>。一些HTML元素被定義為空元素,其形式為<tagattribute1="value1"attribute2="value2">。空元素不能封裝任何內容。例如<br>標籤或內聯標籤<img>。一個HTML元素的名稱即為標籤使用的名稱。注意,結束標籤的名稱前面有一個斜槓“/”,空元素不需要也不允許結束標籤。如果元素屬性未標明,則使用其默認值
屬性[編輯]
主條目:HTML屬性
大多數元素的屬性以“名稱-值”的形式成對出現,由“=”分離並寫在開始標籤元素名之後。值一般由單引號雙引號包圍,有些值的內容包含特定字符,在HTML中可以去掉引號XHTML不行)。不加引號的屬性值被認為是不安全的。有些屬性無需成對出現,僅存在於開始標籤中即可影響元素,如img元素的ismap屬性。
許多元素存在一些共通的屬性:
  • id屬性為元素提供了在全文檔內的唯一標識。它用於識別元素,以便樣式表可以改變其表現屬性,腳本可以改變、顯示或刪除其內容或格式化。對於蒂姆加到頁面的URL,它為元素提供了一個全局唯一標識,通常為頁面的子章節。例如,ID "屬性"對於https://zh.wikipedia.org/wiki/HTML#屬性
  • class屬性提供一種將類似元素分類的方式。常被用於語義化或格式化。例如,一個HTML文檔可指定類<class="標記">來表明所有具有這一類值的元素都從屬於文檔的主文本。格式化後,這樣的元素可能會聚集在一起,並作為頁面腳註而不會出現在HTML代碼中。類屬性也被用於微格式的語義化。類值也可進行多聲明。如<class="標記重要">將元素同時放入標記與重要兩類中。
  • style屬性可以將表現性質賦予一個特定元素。比起使用id或class屬性從樣式表中選擇元素,“style”被認為是一個更好的做法,儘管有時這對一個簡單、專用或特別的樣式顯得太繁瑣。
  • title屬性用於給元素一個附加的説明。 大多數瀏覽器中這一屬性顯示為工具提示
  • lang屬性用於識別元素內容的語言,它可能與文檔的主要語言不同。例如,在中文文檔中:<p>法語<span lang="fr">c'est la vie</span>在法國的應用很普遍,意為“這就是生活” 。<p>
縮寫元素abbr可用於説明一些屬性:
<abbr id="ID" class="術語" style="color:purple;" title="超文本標記語言">HTML</abbr>
這個例子顯示為HTML; 在大多數瀏覽器中,光標指向縮寫時會顯示標題文字“超文本標記語言”。
大多數元素採用與語言相關的屬性dir來指定文字方向,如 "rtl"採用從右到左的文本,比如阿拉伯語波斯語以及希伯來語。
字符與實體引用
參見:XML與HTML字符實體引用列表和Unicode與HTML
在4.0版本中,HTML定義了一系列共252個字符實體引用和1,114,050個字符值參考。二者都支持單個字符通過簡單的標記寫入。文字字符與其對應的標記渲染的效果相同。
用這種方式“轉義”字符的能力允許字符<與&(當分別被寫作&lt;和&時)被理解為字符數據而不是標記。例如<通常為標籤的開頭,&通常為字符實體引用與數字字符引用的開頭;&或&#x26;或&#38;將&作為元素的內容或屬性的值。雙引號字符"在不被用於屬性值的標示時必須轉義為&quot;或&#x22;或&#34;;相等地,當於單引號字符'不被用於屬性值的標示時,也必須轉義為&#x27;或&#39;(或HTML5與XHTML文檔中的&apos;)。
如果文檔作者忽略了轉義這樣的字符,一些瀏覽器會嘗試通過上下文猜測他們的意圖。如果結果仍為無效標記,這會使其他瀏覽器或用户代理難以訪問到該文檔,並使它們嘗試使用搜索和索引來解析該文檔。
那些難以輸入或不在該文檔字符編碼中的字符也可通過轉義來實現。例如通常只在西歐或南美的鍵盤出現的重音符e(é),可以在HTML文檔中用作實體引用&eacute;或數字引用&#xE9;或&#233;。 諸如UTF-8Unicode字符編碼與所有的現代瀏覽器兼容並允許直接訪問全球書寫系統幾乎所有的字符。
數據類型
HTML為元素內容定義了多種數據類型,如腳本數據、樣式表數據以及許多屬性值的類型,包括ID、名稱、URI、數字長度單位、語言、媒體描述符顏色、字符編碼、日期和時間等等。所有這些數據類型都是字符數據的特殊化。
文檔類型聲明
HTML文檔需要以文檔類型聲明(英語非正式説法“doctype”)開頭。在瀏覽器中,文檔類型聲明有助於確定渲染模式——特別是是否使用怪異模式
文檔類型聲明的初衷是通過基於文檔類型定義(DTD)的SGML工具來解析並驗證HTML文檔。
HTML5未定義DTD,所以在HTML5中文檔類型聲明更為簡短:
<!DOCTYPE html>
HTML 4文檔類型聲明舉例:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
該聲明引用HTML 4.01“嚴格”版的DTD。基於SGML的驗證器可讀取DTD,正確解析這些文檔並執行驗證。在現代瀏覽器中,一個有效的文檔類型激活標準模式有別於怪異模式
另外,HTML 4.01提供過渡型與框架集型的DTD。過渡型涵蓋最廣,它可集成當前以及老舊或“過時”的標籤,而嚴格型DTD排除了過時的標籤。框架集擁有所有構建框架所需的標籤以及過渡型的標籤。

HTML文件語義化

主條目:語義化HTML
語義化HTML是一種編寫HTML的方式,它強調編碼信息的含義在其格式(樣子)之上。HTML從創立之初就包括語義化標記,但也包括標識性標記如<font>、<i>和<center>標籤。也存在一些語義上中立的span與div標籤。自1990年代末CSS開始應用於大多數瀏覽器,網頁製作者就被鼓勵使用CSS以便呈現與內容分離。
在2001年一次對語義網的討論中,蒂姆·伯納斯-李等人給出了一種的方法,使智能軟件“代理人”可能有一天會自動抓取網頁進行查找、過濾並將之前不相關的聯繫起來。這種代理甚至在現在也不普遍,但一些Web 2.0、混搭和價格比較網站的想法可能會結束。這些網頁應用程序的混合與伯納斯-李的語義代理人的之間主要區別基於以下事實:當前的聚合與信息混合通常由網頁開發者設計,他們早已知道網絡位置和他們希望混搭、比較與結合的特定數據的API語義。
網頁代理的一個重要類型是網絡爬蟲或搜索引擎蜘蛛。這些軟件代理依賴於它們發現的網頁的語義清晰度,因為它們一天要使用各種技術與算法來讀取和索引數百萬個網頁並給網頁用户提供搜索工具,沒有這些萬維網的有效性就會大大降低。
為使搜索引擎蜘蛛評估它們在HTML文檔中發現的文本片段的重要性,也為那些創建標記等混合的人與更多的自動化代理工具,HTML中的語義結構需要廣泛一致地應用從而將文本的含義呈現給瀏覽者。
表示性標記在當前的HTML和XHTML推薦中不被鼓勵使用。舊版本HTML中的大多數表示功能不再被允許使用,因為它們導致可訪問性變差、站點維護成本變高和文檔大小變大。
好的語義化HTML也改善了網頁文檔的可訪問性(參見網頁內容無障礙指南)。例如,當屏幕閲讀器或音頻瀏覽器可以正確判定一個文檔的結構時,視覺障礙用户不會再因閲讀重複或無關的信息而浪費時間。

HTML文件分發

HTML文檔分發的方法和其他計算機文件相同。不過,它們最常通過網頁服務器的超文本傳輸協議或電子郵件傳輸。
萬維網主要由從服務器通過HTTP協議向瀏覽器發送的HTML文檔組成。但是,HTTP也可以被用於傳輸HTML之外的數據,例如圖像、聲音和其他內容。為使瀏覽器瞭解如何處理接收到的文檔,在傳輸文檔時必須同時傳遞文件類型。這種元數據包含MIME類型(對於HTML 4.01或更早版本是text/html,而對於XHTML 1.0或之後的版本是application/xhtml+xml),以及字符編碼(參見HTML字符編碼方式) [1] 
在現在的瀏覽器中,和HTML文檔一起發送的MIME類型影響文檔的解讀方式。和XHTML MIME類型一起發送的文檔被認為是良構的XML,而語法錯誤會導致瀏覽器無法呈現文檔。完全相同的文檔如果和HTML MIME類型一起發送,則可能被正常顯示,因為瀏覽器對HTML的語法檢查更加鬆懈些。
W3C的推薦指出,遵循規定的推薦指引的XHTML 1.0文檔可標記二者任一的MIME類型。XHTML 1.1還指出,XHTML 1.1文檔應標有兩種MIME類型。

HTML文件事例

來查看一個HTML文件的例子。打開你喜愛的網絡瀏覽器,在瀏覽器的地址輸入框內敲入相關網址,進入Active Server Pages的網點(你的計算機應該已連上了Internet)。當在屏幕上顯示了此網頁後,從網絡瀏覽器的菜單條上選擇View Source命令。此時屏幕上就會彈出一個新的窗口並顯示一些古怪的文字。你所看到的這些文字就是HTML文件。
參考資料
  • 1.    許兆偉, 王穎. HTTP/2新特性與Web性能關係的研究與實驗[J]. 計算機技術與發展, 2017, 27(11):192-195.