-
字節
鎖定
- 中文名
- 字節
- 外文名
- Byte
- 簡 寫
- B
- 學 科
- 計算機技術
- 定 義
- 相當於一個字符,8位=1字節
- 類 型
- 數字信息的單位
- 提出時間
- 1956年6月
- 相關概念
- 位、字、字符
字節簡介
字節計算機存儲和處理信息的基本單位。一個字節由 8 個二進制位組成,由00000000到11111111,組成字節的所有二進制位由計算機作為一個單元統一處理。字節可以表示單個字符,也可以表示0到255之間的數字。
[2]
查看文件大小時,字節是操作系統列出的最小度量大小。
字節發展歷史
字節一詞是Werner Buchholz於1956年6月在IBM Stretch計算機的早期設計階段發明的,Werner Buchholz需要用一個術語來描述機器處理的信息塊,於是提出了“字節”這一術語。在考慮字節的構成時,最初基於計算效率的考慮,考慮了從1到12位的任意位數的排列。
早期人們多使用5位二進制數作為基本單位,但它只能表示32種不同的含義,無法囊括所有大寫字母和小寫字母。緊接着,一些計算機用6位二進制數表示字符,它最多可以表示64個字符,這足以表示所有大寫字母、小寫字母和數字,但對於其他符號和空格來説還不夠。ASCII 定義了 7 位字符集,這在很長一段時間內對於許多用途來説已經足夠了,並且也成為了大多數較新的字符集(ISO 646、ISO 8859、Unicode、ISO 10646 等)的基礎。
二進制計算機的硬件特質鼓勵人們將標準設置為較為方便的2的冪,8位比7位略大,不會造成太大的浪費,也滿足了計算機設計人員定義其他字符的需求。隨着8位處理器Intel 8086的的誕生,8 位字節成為標準。國際標準IEC 80000-13定義了這一常見含義,主要商業計算架構的普及也推動公眾對於 8 位字節的普遍接受。
字節單位換算
名稱 | 簡寫 | |
比特(bit) | bit/b | 1B=8bit |
半字節(Nibble) | N | 1B=0.5N |
千字節(KiloByte) | KB | 1KB=210 B =1024B |
兆字節(Mega Byte) | MB | 1MB=210 KB =220 B |
吉字節(GigaByte) | GB | 1GB=210 MB =230 B |
太字節(TeraByte) | TB | 1TB=210 GB =1240 B |
拍字節(PetaByte) | PB | 1PB=210 TB =250 B |
艾字節(EXAByte) | EB | 1EB=210 PB =260 B |
澤字節(Zetta Byte) | ZB | 1ZB=210 EB =270 B |
堯字節(Yotta Byte) | YB | 1YB=210 ZB =280 B |
字節應用領域
字節數據存儲
字節在數據存儲中起重要作用,在計算機上存儲信息時,以字節為單位進行存儲。文檔、圖像、程序都存儲為字節數。存儲設備(例如硬盤、SSD、USB 驅動器)的容量通常以字節為單位。在計算機內存中,每個字節都有一個唯一的地址,每個字節可以存儲一個字符
[4]
。
字節數據處理
在計算機中,字節是數據處理的基本單位。計算機的CPU按照字節來讀取和寫入數據,執行計算和處理指令。除了字節,CPU還可以對更大的數據單元進行操作,例如字、雙字等,這些數據單元通常由多個字節組成,可以表示更大範圍的數據。CPU通過對這些數據單元的操作,實現對更復雜的數據結構和算法的支持。
字節網絡通信
在網絡傳輸中,計算機和網絡設備通常以字節為單位來處理和傳輸數據。網絡協議,如TCP/IP,定義瞭如何將數據分割成字節流,並通過網絡傳輸到目的地。在傳輸過程中,字節也可以被用來檢查數據完整性。例如,校驗和算法會計算數據包中字節的和,並在接收端進行驗證,以確保數據在傳輸過程中沒有被篡改或損壞。
字節相關概念
字節位
位,簡寫為“b” ,讀作“比特”,表示二進制中的1位。計算機中的數據都是以0和1
字節字
字是指計算機的CPU在同一時間內處理的一組二進制數,一個字通常分為若干個字節。這組二進制數的位數是“字 長”, 字長直接反映了計算機的計算精度,字長越長,計算機一次性處理的數字位數越多,處理數據的速度就越快。
字節字符
字節字節序
字節序(Endianness),也稱為端序或字節順序,是指多字節數據在計算機內存中存儲或網絡傳輸時各字節的順序。計算機將信息存儲在各種大小的二進制位組中,每個存儲單元都分配了一個地址編號,計算機使用該編號訪問數據。一個字通常包含多個字節,需要存儲在多個地址單元中。字節序屬於數據解釋的方式,只與處理器架構有關。字節序主要有兩種類型:大端字節序(Big-endian)和小端字節序(Little-endian)。
[7]
字節大端字節序
在這種字節序中,高位字節存儲在內存的低地址處,而低位字節存儲在內存的高地址處。大端字節序接近於數字從左到右的書寫方式。字節在網絡中傳輸的順序與具體的CPU類型、操作系統等因素無關,TCP/IP協議規定在網絡傳輸中使用大端字節序,因此大端字節序是網絡傳輸中主要使用的順序。使用大端字節序的處理器包含Motorola 6800、Motorola 68000、PowerPC 970、System/370等。
字節小端字節序
在這種字節序中,低位字節存儲在內存的低地址處,而高位字節存儲在內存的高地址處。小端字節序是多數處理器架構及其相關內存主要使用的順序。使用小端字節序的處理器包含x86、MOS Technology 6502、Z80、VAX、PDP-11、RISC-V等。
字節字節與編碼
計算機中儲存的信息都是用二進制數表示的,字符編碼是一種將字符映射到字節序列的規則,即按照何種規則將字符存儲在計算機中,以便在計算機系統中存儲、處理和傳輸文本數據。字符編碼與字節的關係非常緊密,因為字節是計算機中數據存儲和處理的基本單位。
[8]
常用的字符編碼方式有ASCII編碼、Unicode編碼、GB2312編碼等。
字節ASCII編碼
ASCII(American Standard Code for Information Interchange,美國信息交換標準代碼)是基於拉丁字母的一套電腦編碼系統,主要用於顯示現代英語用於電子通信,由美國國家標準協會(ASA)在1963年制定,後來由國際標準化組織(ISO)採納,並在世界範圍內廣泛使用。
字節Unicode編碼
Unicode是一種字符集編碼標準,旨在支持全球所有語言的字符。它為每種語言中的每個字符分配了一個唯一的編碼,從而使得不同語言之間的文本處理和交換變得可能。Unicode是目前最廣泛使用的字符編碼標準,被現代操作系統、程序語言、網絡協議和數據庫系統廣泛支持。
Unicode支持超過140種語言的文字,包括幾乎所有現代語言以及古文字和符號。它為每個字符提供了一個唯一的碼點,即每個字符擁有一個唯一編號,並提供了多種不同的編碼方式,如UTF-8、UTF-16和UTF-32,這些編碼方式用於將Unicode碼點轉換為字節序列以便於存儲和傳輸。Unicode與ASCII兼容,其前128個字符與ASCII字符集相同。
UTF-8:一種可變長度的編碼方式,使用1到4個字節來表示一個字符。
UTF-16:使用2個或4個字節來表示一個字符。
UTF-32:使用固定4個字節來表示一個字符,可以表示Unicode中的所有字符。
字節GB2312編碼
GB2312是中華人民共和國國家標準漢字信息交換用編碼,全稱《信息交換用漢字編碼字符集—基本集》,由國家標準總局發佈,1981年5月1日實施。它是中國大陸地區較早的漢字編碼標準之一,對漢字的編碼和傳輸起到了重要作用。
GB2312使用兩個字節來表示一個漢字,每個字節的高位都是1,這樣就可以與ASCII碼區分開來。因為ASCII碼的最高位是0。GB2312包含6763個常用漢字和682個非漢字圖形符號。這些字符按照使用的頻率分為兩級,第一級是3755個常用漢字,第二級是3008個非常用漢字。GB2312的字符排列是按照區位碼進行的,每個漢字由一個區號和一個位號組成,區號範圍是01到94,位號範圍是01到94。
字節字節與存儲
在計算機系統中,文件是信息存儲的基本單位。文件類型,也被稱為文件格式,是計算機對數據的編碼方式,不同格式的文件使用不同的編碼方式存儲數據。常見的文件類型有文本文件、二進制文件等不同格式,它們採用不同的方式存儲數據。
字節文本文件
文本文件是一種以文本形式存儲數據的文件,其中的數據以人類可讀的字符形式存在。文本文件通常包含字母、數字、標點符號和其他可打印字符,它們使用字符編碼(如ASCII、UTF-8等)將每個字符映射到一個或多個字節。文本文件可以通過文本編輯器直接打開和編輯,因為它們的內容可以直接呈現為可理解的文本。
字節二進制文件
二進制文件是一種以二進制形式存儲數據的文件,其中的數據以計算機可以直接理解和處理的二進制數字(0和1)表示。二進制文件包含了程序、圖像、音頻、視頻等多種類型的數據,這些數據在存儲時通常以字節為單位進行編碼。與文本文件不同,二進制文件的內容不是以人類可讀的文本形式存在,因此無法直接通過文本編輯器查看。
特點 | 文本文件 | 二進制文件 |
數據表示 | 使用字符編碼(如ASCII, UTF-8)表示文本數據。 | 使用二進制編碼表示各種類型的數據,包括文本、圖像、音頻等。 |
可讀性 | 人類可讀,可以直接通過文本編輯器查看和編輯。 | 不可直接讀,需要特定應用程序或工具來解釋和顯示數據。 |
編碼方式 | 每個字符通常映射到一個或多個字節。 | 數據以字節為單位存儲,每個字節可以是數據的一部分或完整的數值。 |
緊湊性 | 相對於二進制文件,可能佔用更多的存儲空間,因為文本編碼可能包含冗餘信息。 | 通常更緊湊,因為它們不包含冗餘的編碼信息,並且可以使用更高效的數據表示方法。 |
錯誤容忍 | 對於小的數據損壞,文本文件可能仍然部分可讀。 | 對於小的數據損壞,二進制文件可能完全無法讀取。 |
兼容性 | 取決於字符編碼,跨平台和應用程序兼容性較好。 | 可能需要特定的解析器或程序來正確讀取,兼容性取決於文件格式和數據結構。 |
處理速度 | 解析和生成文本數據可能較慢,因為需要處理字符編碼。 | 通常處理速度更快,因為可以直接操作二進制數據。 |
常見格式 | .txt, .csv, .xml, .html | .exe, .jpg, .mp3, .mp4, .bin |
- 參考資料
-
- 1. 唐永華.大學計算機基礎:清華大學出版社,2020:18
- 2. 劉國華.HALCON數字圖像處理:西安電子科技大學出版社,2018.06:64
- 3. Understanding file sizes | Bytes, KB, MB, GB, TB, PB, EB, ZB, YB .GeeksforGeeks[引用日期2024-05-27]
- 4. Byte: Bits, History & Functions .Vaia[引用日期2024-05-27]
- 5. 趙恆著.大數據的腳印:中國税務出版社,2017.07:139
- 6. Brylow D .Computer Science: An Overview, 13th Edition[J]. 2019.第54頁
- 7. D. Cohen, "On Holy Wars and a Plea for Peace" in Computer, vol. 14, no. 10, pp. 48-54, 1981
- 8. 李建文.計算機字符編碼——Unicode與Windows:科學出版社,2016:1-2