反饋

字節

字節（Byte）是計算機信息中用於描述存儲容量和傳輸容量的一種計量單位，是計算機的基本存儲單位。^[1] 一個字節由8個相鄰的二進制位組成，每個位由0或1組成。字節是計算機技術中最小的可操作存儲單位。國際電工委員會(IEC) 和電氣與電子工程師協會(IEEE) 將字節的單位符號指定為大寫字母B。

中文名: 字節
外文名: Byte
簡寫: B
學科: 計算機技術

定義: 相當於一個字符，8位=1字節
類型: 數字信息的單位
提出時間: 1956年6月
相關概念: 位、字、字符

字節簡介

字節計算機存儲和處理信息的基本單位。一個字節由 8 個二進制位組成，由00000000到11111111，組成字節的所有二進制位由計算機作為一個單元統一處理。字節可以表示單個字符，也可以表示0到255之間的數字。^[2] 查看文件大小時，字節是操作系統列出的最小度量大小。

字節發展歷史

字節一詞是Werner Buchholz於1956年6月在IBM Stretch計算機的早期設計階段發明的，Werner Buchholz需要用一個術語來描述機器處理的信息塊，於是提出了“字節”這一術語。在考慮字節的構成時，最初基於計算效率的考慮，考慮了從1到12位的任意位數的排列。

早期人們多使用5位二進制數作為基本單位，但它只能表示32種不同的含義，無法囊括所有大寫字母和小寫字母。緊接着，一些計算機用6位二進制數表示字符，它最多可以表示64個字符，這足以表示所有大寫字母、小寫字母和數字，但對於其他符號和空格來説還不夠。ASCII 定義了 7 位字符集，這在很長一段時間內對於許多用途來説已經足夠了，並且也成為了大多數較新的字符集（ISO 646、ISO 8859、Unicode、ISO 10646 等）的基礎。

二進制計算機的硬件特質鼓勵人們將標準設置為較為方便的2的冪，8位比7位略大，不會造成太大的浪費，也滿足了計算機設計人員定義其他字符的需求。隨着8位處理器Intel 8086的的誕生，8 位字節成為標準。國際標準IEC 80000-13定義了這一常見含義，主要商業計算架構的普及也推動公眾對於 8 位字節的普遍接受。

字節單位換算

名稱	簡寫	換算^[3]
比特（bit）	bit/b	1B=8bit
半字節（Nibble）	N	1B=0.5N
千字節（KiloByte）	KB	1KB=2¹⁰ B =1024B
兆字節（Mega Byte）	MB	1MB=2¹⁰ KB =2²⁰ B
吉字節（GigaByte）	GB	1GB=2¹⁰ MB =2³⁰ B
太字節（TeraByte）	TB	1TB=2¹⁰ GB =12⁴⁰ B
拍字節（PetaByte）	PB	1PB=2¹⁰ TB =2⁵⁰ B
艾字節（EXAByte）	EB	1EB=2¹⁰ PB =2⁶⁰ B
澤字節（Zetta Byte）	ZB	1ZB=2¹⁰ EB =2⁷⁰ B
堯字節（Yotta Byte）	YB	1YB=2¹⁰ ZB =2⁸⁰ B

字節應用領域

字節數據存儲

字節在數據存儲中起重要作用，在計算機上存儲信息時，以字節為單位進行存儲。文檔、圖像、程序都存儲為字節數。存儲設備（例如硬盤、SSD、USB 驅動器）的容量通常以字節為單位。在計算機內存中，每個字節都有一個唯一的地址，每個字節可以存儲一個字符^[4] 。

字節數據處理

在計算機中，字節是數據處理的基本單位。計算機的CPU按照字節來讀取和寫入數據，執行計算和處理指令。除了字節，CPU還可以對更大的數據單元進行操作，例如字、雙字等，這些數據單元通常由多個字節組成，可以表示更大範圍的數據。CPU通過對這些數據單元的操作，實現對更復雜的數據結構和算法的支持。

字節網絡通信

在網絡傳輸中，計算機和網絡設備通常以字節為單位來處理和傳輸數據。網絡協議，如TCP/IP，定義瞭如何將數據分割成字節流，並通過網絡傳輸到目的地。在傳輸過程中，字節也可以被用來檢查數據完整性。例如，校驗和算法會計算數據包中字節的和，並在接收端進行驗證，以確保數據在傳輸過程中沒有被篡改或損壞。

字節相關概念

字節位

位，簡寫為“b” ，讀作“比特”，表示二進制中的1位。計算機中的數據都是以0和1

來表示的。一個二進制位只能有一種狀態，即只能存放二進制數“0”或者“1”。每8個位組成一個字節，是最小一級的信息單位^[5]

字節字

字是指計算機的CPU在同一時間內處理的一組二進制數，一個字通常分為若干個字節。這組二進制數的位數是“字長”，字長直接反映了計算機的計算精度，字長越長，計算機一次性處理的數字位數越多，處理數據的速度就越快。

字節字符

字符是文字和符號的抽象單位，是用户可讀和可識別的最小元素。字符可以是一個字母、數字、標點符號、空格或任何其他書寫系統中的符號。在計算機中，字符通過字符編碼轉換為字節序列以便存儲和處理。^[6]

字節字節序

字節序（Endianness），也稱為端序或字節順序，是指多字節數據在計算機內存中存儲或網絡傳輸時各字節的順序。計算機將信息存儲在各種大小的二進制位組中，每個存儲單元都分配了一個地址編號，計算機使用該編號訪問數據。一個字通常包含多個字節，需要存儲在多個地址單元中。字節序屬於數據解釋的方式，只與處理器架構有關。字節序主要有兩種類型：大端字節序（Big-endian）和小端字節序（Little-endian）。^[7]

字節序

字節大端字節序

在這種字節序中，高位字節存儲在內存的低地址處，而低位字節存儲在內存的高地址處。大端字節序接近於數字從左到右的書寫方式。字節在網絡中傳輸的順序與具體的CPU類型、操作系統等因素無關，TCP/IP協議規定在網絡傳輸中使用大端字節序，因此大端字節序是網絡傳輸中主要使用的順序。使用大端字節序的處理器包含Motorola 6800、Motorola 68000、PowerPC 970、System/370等。

字節小端字節序

在這種字節序中，低位字節存儲在內存的低地址處，而高位字節存儲在內存的高地址處。小端字節序是多數處理器架構及其相關內存主要使用的順序。使用小端字節序的處理器包含x86、MOS Technology 6502、Z80、VAX、PDP-11、RISC-V等。

字節字節與編碼

計算機中儲存的信息都是用二進制數表示的，字符編碼是一種將字符映射到字節序列的規則，即按照何種規則將字符存儲在計算機中，以便在計算機系統中存儲、處理和傳輸文本數據。字符編碼與字節的關係非常緊密，因為字節是計算機中數據存儲和處理的基本單位。^[8]

常用的字符編碼方式有ASCII編碼、Unicode編碼、GB2312編碼等。

字節ASCII編碼

ASCII（American Standard Code for Information Interchange，美國信息交換標準代碼）是基於拉丁字母的一套電腦編碼系統，主要用於顯示現代英語用於電子通信，由美國國家標準協會（ASA）在1963年制定，後來由國際標準化組織（ISO）採納，並在世界範圍內廣泛使用。

ASCII編碼

ASCII碼使用單個字節（8位）來表示每個字符，但實際上只使用了低7位，因此總共可以表示128個不同的字符。它包括大寫和小寫字母、數字、標點符號、控制字符和一些特殊符號。

字節Unicode編碼

Unicode是一種字符集編碼標準，旨在支持全球所有語言的字符。它為每種語言中的每個字符分配了一個唯一的編碼，從而使得不同語言之間的文本處理和交換變得可能。Unicode是目前最廣泛使用的字符編碼標準，被現代操作系統、程序語言、網絡協議和數據庫系統廣泛支持。

Unicode支持超過140種語言的文字，包括幾乎所有現代語言以及古文字和符號。它為每個字符提供了一個唯一的碼點，即每個字符擁有一個唯一編號，並提供了多種不同的編碼方式，如UTF-8、UTF-16和UTF-32，這些編碼方式用於將Unicode碼點轉換為字節序列以便於存儲和傳輸。Unicode與ASCII兼容，其前128個字符與ASCII字符集相同。

UTF-8：一種可變長度的編碼方式，使用1到4個字節來表示一個字符。

UTF-16：使用2個或4個字節來表示一個字符。

UTF-32：使用固定4個字節來表示一個字符，可以表示Unicode中的所有字符。

字節GB2312編碼

GB2312是中華人民共和國國家標準漢字信息交換用編碼，全稱《信息交換用漢字編碼字符集—基本集》，由國家標準總局發佈，1981年5月1日實施。它是中國大陸地區較早的漢字編碼標準之一，對漢字的編碼和傳輸起到了重要作用。

GB2312編碼

GB2312使用兩個字節來表示一個漢字，每個字節的高位都是1，這樣就可以與ASCII碼區分開來。因為ASCII碼的最高位是0。GB2312包含6763個常用漢字和682個非漢字圖形符號。這些字符按照使用的頻率分為兩級，第一級是3755個常用漢字，第二級是3008個非常用漢字。GB2312的字符排列是按照區位碼進行的，每個漢字由一個區號和一個位號組成，區號範圍是01到94，位號範圍是01到94。

字節字節與存儲

在計算機系統中，文件是信息存儲的基本單位。文件類型，也被稱為文件格式，是計算機對數據的編碼方式，不同格式的文件使用不同的編碼方式存儲數據。常見的文件類型有文本文件、二進制文件等不同格式，它們採用不同的方式存儲數據。

字節文本文件

文本文件是一種以文本形式存儲數據的文件，其中的數據以人類可讀的字符形式存在。文本文件通常包含字母、數字、標點符號和其他可打印字符，它們使用字符編碼（如ASCII、UTF-8等）將每個字符映射到一個或多個字節。文本文件可以通過文本編輯器直接打開和編輯，因為它們的內容可以直接呈現為可理解的文本。

字節二進制文件

二進制文件是一種以二進制形式存儲數據的文件，其中的數據以計算機可以直接理解和處理的二進制數字（0和1）表示。二進制文件包含了程序、圖像、音頻、視頻等多種類型的數據，這些數據在存儲時通常以字節為單位進行編碼。與文本文件不同，二進制文件的內容不是以人類可讀的文本形式存在，因此無法直接通過文本編輯器查看。

文本文件與二進制文件對比
特點	文本文件	二進制文件
數據表示	使用字符編碼（如ASCII, UTF-8）表示文本數據。	使用二進制編碼表示各種類型的數據，包括文本、圖像、音頻等。
可讀性	人類可讀，可以直接通過文本編輯器查看和編輯。	不可直接讀，需要特定應用程序或工具來解釋和顯示數據。
編碼方式	每個字符通常映射到一個或多個字節。	數據以字節為單位存儲，每個字節可以是數據的一部分或完整的數值。
緊湊性	相對於二進制文件，可能佔用更多的存儲空間，因為文本編碼可能包含冗餘信息。	通常更緊湊，因為它們不包含冗餘的編碼信息，並且可以使用更高效的數據表示方法。
錯誤容忍	對於小的數據損壞，文本文件可能仍然部分可讀。	對於小的數據損壞，二進制文件可能完全無法讀取。
兼容性	取決於字符編碼，跨平台和應用程序兼容性較好。	可能需要特定的解析器或程序來正確讀取，兼容性取決於文件格式和數據結構。
處理速度	解析和生成文本數據可能較慢，因為需要處理字符編碼。	通常處理速度更快，因為可以直接操作二進制數據。
常見格式	.txt, .csv, .xml, .html	.exe, .jpg, .mp3, .mp4, .bin

參考資料

1. 唐永華．大學計算機基礎：清華大學出版社，2020：18
2. 劉國華．HALCON數字圖像處理：西安電子科技大學出版社，2018.06：64
3. Understanding file sizes | Bytes, KB, MB, GB, TB, PB, EB, ZB, YB ．GeeksforGeeks[引用日期2024-05-27]
4. Byte: Bits, History & Functions ．Vaia[引用日期2024-05-27]
5. 趙恆著．大數據的腳印：中國税務出版社，2017.07：139
6. Brylow D .Computer Science: An Overview, 13th Edition[J]. 2019.第54頁
7. D. Cohen, "On Holy Wars and a Plea for Peace" in Computer, vol. 14, no. 10, pp. 48-54, 1981
8. 李建文．計算機字符編碼——Unicode與Windows：科學出版社，2016：1-2

字節的概述圖（1張）

詞條統計

瀏覽次數：次
編輯次數：170次歷史版本
最近更新： Shirleysheep11 （2024-06-19）

字節

目錄