複製鏈接
請複製以下鏈接發送給好友

字節

鎖定
字節(Byte)是計算機信息中用於描述存儲容量和傳輸容量的一種計量單位,是計算機的基本存儲單位。 [1]  一個字節由8個相鄰的二進制位組成,每個位由0或1組成。字節是計算機技術中最小的可操作存儲單位。國際電工委員會(IEC) 和電氣與電子工程師協會(IEEE) 將字節的單位符號指定為大寫字母B。
中文名
字節
外文名
Byte
簡    寫
B
學    科
計算機技術
定    義
相當於一個字符,8位=1字節
類    型
數字信息的單位
提出時間
1956年6月
相關概念
位、字、字符

字節簡介

字節計算機存儲和處理信息的基本單位。一個字節由 8 個二進制位組成,由00000000到11111111,組成字節的所有二進制位由計算機作為一個單元統一處理。字節可以表示單個字符,也可以表示0到255之間的數字。 [2]  查看文件大小時,字節是操作系統列出的最小度量大小。

字節發展歷史

字節一詞是Werner Buchholz於1956年6月在IBM Stretch計算機的早期設計階段發明的,Werner Buchholz需要用一個術語來描述機器處理的信息塊,於是提出了“字節”這一術語。在考慮字節的構成時,最初基於計算效率的考慮,考慮了從1到12位的任意位數的排列。
早期人們多使用5位二進制數作為基本單位,但它只能表示32種不同的含義,無法囊括所有大寫字母和小寫字母。緊接着,一些計算機用6位二進制數表示字符,它最多可以表示64個字符,這足以表示所有大寫字母、小寫字母和數字,但對於其他符號和空格來説還不夠。ASCII 定義了 7 位字符集,這在很長一段時間內對於許多用途來説已經足夠了,並且也成為了大多數較新的字符集(ISO 646、ISO 8859、Unicode、ISO 10646 等)的基礎。
二進制計算機的硬件特質鼓勵人們將標準設置為較為方便的2的冪,8位比7位略大,不會造成太大的浪費,也滿足了計算機設計人員定義其他字符的需求。隨着8位處理器Intel 8086的的誕生,8 位字節成為標準。國際標準IEC 80000-13定義了這一常見含義,主要商業計算架構的普及也推動公眾對於 8 位字節的普遍接受。

字節單位換算

名稱
簡寫
換算 [3] 
比特(bit)
bit/b
1B=8bit
半字節(Nibble)
N
1B=0.5N
千字節(KiloByte)
KB
1KB=210 B =1024B
兆字節(Mega Byte)
MB
1MB=210 KB =220 B
吉字節(GigaByte)
GB
1GB=210 MB =230 B
太字節(TeraByte)
TB
1TB=210 GB =1240 B
拍字節(PetaByte)
PB
1PB=210 TB =250 B
艾字節(EXAByte)
EB
1EB=210 PB =260 B
澤字節(Zetta Byte)
ZB
1ZB=210 EB =270 B
堯字節(Yotta Byte)
YB
1YB=210 ZB =280 B

字節應用領域

字節數據存儲

字節在數據存儲中起重要作用,在計算機上存儲信息時,以字節為單位進行存儲。文檔、圖像、程序都存儲為字節數。存儲設備(例如硬盤、SSD、USB 驅動器)的容量通常以字節為單位。在計算機內存中,每個字節都有一個唯一的地址,每個字節可以存儲一個字符 [4] 

字節數據處理

在計算機中,字節是數據處理的基本單位。計算機的CPU按照字節來讀取和寫入數據,執行計算和處理指令。除了字節,CPU還可以對更大的數據單元進行操作,例如字、雙字等,這些數據單元通常由多個字節組成,可以表示更大範圍的數據。CPU通過對這些數據單元的操作,實現對更復雜的數據結構和算法的支持。

字節網絡通信

在網絡傳輸中,計算機和網絡設備通常以字節為單位來處理和傳輸數據。網絡協議,如TCP/IP,定義瞭如何將數據分割成字節流,並通過網絡傳輸到目的地。在傳輸過程中,字節也可以被用來檢查數據完整性。例如,校驗和算法會計算數據包中字節的和,並在接收端進行驗證,以確保數據在傳輸過程中沒有被篡改或損壞。

字節相關概念

字節

位,簡寫為“b” ,讀作“比特”,表示二進制中的1位。計算機中的數據都是以0和1
來表示的。一個二進制位只能有一種狀態,即只能存放二進制數“0”或者“1”。 每8個位組成一個字節,是最小一級的信息單位 [5] 

字節

字是指計算機的CPU在同一時間內處理的一組二進制數,一個字通常分為若干個字節。這組二進制數的位數是“字 長”, 字長直接反映了計算機的計算精度,字長越長,計算機一次性處理的數字位數越多,處理數據的速度就越快。

字節字符

字符是文字和符號的抽象單位,是用户可讀和可識別的最小元素。字符可以是一個字母、數字、標點符號、空格或任何其他書寫系統中的符號。在計算機中,字符通過字符編碼轉換為字節序列以便存儲和處理。 [6] 

字節字節序

字節序(Endianness),也稱為端序或字節順序,是指多字節數據在計算機內存中存儲或網絡傳輸時各字節的順序。計算機將信息存儲在各種大小的二進制位組中,每個存儲單元都分配了一個地址編號,計算機使用該編號訪問數據。一個字通常包含多個字節,需要存儲在多個地址單元中。字節序屬於數據解釋的方式,只與處理器架構有關。字節序主要有兩種類型:大端字節序(Big-endian)和小端字節序(Little-endian)。 [7] 
字節序 字節序

字節大端字節序

在這種字節序中,高位字節存儲在內存的低地址處,而低位字節存儲在內存的高地址處。大端字節序接近於數字從左到右的書寫方式。字節在網絡中傳輸的順序與具體的CPU類型、操作系統等因素無關,TCP/IP協議規定在網絡傳輸中使用大端字節序,因此大端字節序是網絡傳輸中主要使用的順序。使用大端字節序的處理器包含Motorola 6800、Motorola 68000、PowerPC 970、System/370等。

字節小端字節序

在這種字節序中,低位字節存儲在內存的低地址處,而高位字節存儲在內存的高地址處。小端字節序是多數處理器架構及其相關內存主要使用的順序。使用小端字節序的處理器包含x86、MOS Technology 6502、Z80、VAX、PDP-11、RISC-V等。

字節字節與編碼

計算機中儲存的信息都是用二進制數表示的,字符編碼是一種將字符映射到字節序列的規則,即按照何種規則將字符存儲在計算機中,以便在計算機系統中存儲、處理和傳輸文本數據。字符編碼與字節的關係非常緊密,因為字節是計算機中數據存儲和處理的基本單位。 [8] 
常用的字符編碼方式有ASCII編碼、Unicode編碼、GB2312編碼等。

字節ASCII編碼

ASCII(American Standard Code for Information Interchange,美國信息交換標準代碼)是基於拉丁字母的一套電腦編碼系統,主要用於顯示現代英語用於電子通信,由美國國家標準協會(ASA)在1963年制定,後來由國際標準化組織(ISO)採納,並在世界範圍內廣泛使用。
ASCII編碼 ASCII編碼
ASCII碼使用單個字節(8位)來表示每個字符,但實際上只使用了低7位,因此總共可以表示128個不同的字符。它包括大寫和小寫字母、數字、標點符號、控制字符和一些特殊符號。

字節Unicode編碼

Unicode是一種字符集編碼標準,旨在支持全球所有語言的字符。它為每種語言中的每個字符分配了一個唯一的編碼,從而使得不同語言之間的文本處理和交換變得可能。Unicode是目前最廣泛使用的字符編碼標準,被現代操作系統、程序語言、網絡協議和數據庫系統廣泛支持。
Unicode支持超過140種語言的文字,包括幾乎所有現代語言以及古文字和符號。它為每個字符提供了一個唯一的碼點,即每個字符擁有一個唯一編號,並提供了多種不同的編碼方式,如UTF-8、UTF-16和UTF-32,這些編碼方式用於將Unicode碼點轉換為字節序列以便於存儲和傳輸。Unicode與ASCII兼容,其前128個字符與ASCII字符集相同。
UTF-8:一種可變長度的編碼方式,使用1到4個字節來表示一個字符。
UTF-16:使用2個或4個字節來表示一個字符。
UTF-32:使用固定4個字節來表示一個字符,可以表示Unicode中的所有字符。

字節GB2312編碼

GB2312是中華人民共和國國家標準漢字信息交換用編碼,全稱《信息交換用漢字編碼字符集—基本集》,由國家標準總局發佈,1981年5月1日實施。它是中國大陸地區較早的漢字編碼標準之一,對漢字的編碼和傳輸起到了重要作用。
GB2312編碼 GB2312編碼
GB2312使用兩個字節來表示一個漢字,每個字節的高位都是1,這樣就可以與ASCII碼區分開來。因為ASCII碼的最高位是0。GB2312包含6763個常用漢字和682個非漢字圖形符號。這些字符按照使用的頻率分為兩級,第一級是3755個常用漢字,第二級是3008個非常用漢字。GB2312的字符排列是按照區位碼進行的,每個漢字由一個區號和一個位號組成,區號範圍是01到94,位號範圍是01到94。

字節字節與存儲

在計算機系統中,文件是信息存儲的基本單位。文件類型,也被稱為文件格式,是計算機對數據的編碼方式,不同格式的文件使用不同的編碼方式存儲數據。常見的文件類型有文本文件、二進制文件等不同格式,它們採用不同的方式存儲數據。

字節文本文件

文本文件是一種以文本形式存儲數據的文件,其中的數據以人類可讀的字符形式存在。文本文件通常包含字母、數字、標點符號和其他可打印字符,它們使用字符編碼(如ASCII、UTF-8等)將每個字符映射到一個或多個字節。文本文件可以通過文本編輯器直接打開和編輯,因為它們的內容可以直接呈現為可理解的文本。

字節二進制文件

二進制文件是一種以二進制形式存儲數據的文件,其中的數據以計算機可以直接理解和處理的二進制數字(0和1)表示。二進制文件包含了程序、圖像、音頻、視頻等多種類型的數據,這些數據在存儲時通常以字節為單位進行編碼。與文本文件不同,二進制文件的內容不是以人類可讀的文本形式存在,因此無法直接通過文本編輯器查看。
文本文件與二進制文件對比
特點
文本文件
二進制文件
數據表示
使用字符編碼(如ASCII, UTF-8)表示文本數據。
使用二進制編碼表示各種類型的數據,包括文本、圖像、音頻等。
可讀性
人類可讀,可以直接通過文本編輯器查看和編輯。
不可直接讀,需要特定應用程序或工具來解釋和顯示數據。
編碼方式
每個字符通常映射到一個或多個字節。
數據以字節為單位存儲,每個字節可以是數據的一部分或完整的數值。
緊湊性
相對於二進制文件,可能佔用更多的存儲空間,因為文本編碼可能包含冗餘信息。
通常更緊湊,因為它們不包含冗餘的編碼信息,並且可以使用更高效的數據表示方法。
錯誤容忍
對於小的數據損壞,文本文件可能仍然部分可讀。
對於小的數據損壞,二進制文件可能完全無法讀取。
兼容性
取決於字符編碼,跨平台和應用程序兼容性較好。
可能需要特定的解析器或程序來正確讀取,兼容性取決於文件格式和數據結構。
處理速度
解析和生成文本數據可能較慢,因為需要處理字符編碼。
通常處理速度更快,因為可以直接操作二進制數據。
常見格式
.txt, .csv, .xml, .html
.exe, .jpg, .mp3, .mp4, .bin
參考資料
  • 1.    唐永華.大學計算機基礎:清華大學出版社,2020:18
  • 2.    劉國華.HALCON數字圖像處理:西安電子科技大學出版社,2018.06:64
  • 3.    Understanding file sizes | Bytes, KB, MB, GB, TB, PB, EB, ZB, YB  .GeeksforGeeks[引用日期2024-05-27]
  • 4.    Byte: Bits, History & Functions  .Vaia[引用日期2024-05-27]
  • 5.    趙恆著.大數據的腳印:中國税務出版社,2017.07:139
  • 6.    Brylow D .Computer Science: An Overview, 13th Edition[J]. 2019.第54頁
  • 7.    D. Cohen, "On Holy Wars and a Plea for Peace" in Computer, vol. 14, no. 10, pp. 48-54, 1981
  • 8.    李建文.計算機字符編碼——Unicode與Windows:科學出版社,2016:1-2