反饋

Claude

（Anthropic發佈的大型語言模型）

Claude，美國人工智能初創公司Anthropic發佈的大型語言模型家族，擁有高級推理、視覺分析、代碼生成、多語言處理、多模態等能力^[5] ^[7] ，該模型對標ChatGPT、Gemini等產品^[1] ^[6] 。

2023年3月15日，Anthropic正式發佈Claude的最初版本，並開始不斷升級迭代^[1] ；同年7月，Claude 2正式發佈^[2] ；同年11月，Claude 2.1正式發佈^[3] ；次年3月4日，Claude 3系列正式發佈^[4] 。

根據Anthropic官方，Claude 3系列旗艦模型Opus在本科和研究生水平的知識、數學和複雜任務理解方面均超過GPT-4和Gemini 1.0 Ultra^[6] 。

外文名: Claude
所屬公司: Anthropic

發佈時間: 2023年3月15日(1.0)
類別: 大型語言模型

Claude研發背景

Claude行業背景

2022年，OpenAI發佈ChatGPT，這款由人工智能技術驅動的自然語言處理工具能夠通過學習和理解人類的語言來進行對話，帶來了震撼體驗，引發了生成式AI熱潮^[17] 。2023年，OpenAI推出GPT-4，Anthropic緊隨其後正式發佈Claude，Anthropic表示，與微軟的GPT-4、Bing等競爭對手相比，其聊天機器人“產生有害輸出的可能性較小”^[18] 。

Claude技術優勢

Anthropic團隊在算法上與OpenAI相當，且背後有亞馬遜、谷歌等強大支持，擁有充足的算力和高質量的數據資源，這使得Anthropic在大模型競爭中具有很大優勢。此外，亞馬遜也擁有許多生態和場景，能夠提供很多高質量的數據^[21] 。

Claude發展歷程

Claude公司成立

Anthropic的創始團隊是OpenAI的創業團隊的原班人馬，他們曾負責GPT系列產品的早期開發。2020年6月，OpenAI發佈GPT-3，不到半年，時任OpenAI研發副總裁達里奧·阿莫迪和安全政策副總裁丹妮拉·阿莫迪（兄妹）因理念與公司不合決定離職，後他們與包括曾經領導GPT-3開發的Tom Brown在內的其他5名OpenAI員工一起離職，在2021年創立了Anthropic，目標是開發與OpenAI競爭的生成式人工智能模型^[8] ^[10-11] 。

Claude模型測試

2022年12月，Anthropic發佈《Constituional人工智能：來自人工智能反饋的無害性》一文後不久，Anthropic便推出Claude，不過並沒有對公眾開放接口，只能在各合作伙伴的應用中體驗^[16] 。在發佈的前幾個月裏，Claude已經由概念實驗室（Notion Labs）、Quora和搜索引擎DuckDuckGo等科技公司進行了測試^[15] 。

Claude正式上線

2023年3月15日，Anthropic發佈正式初代Claude^[1] ；同年7月，Anthropic發佈Claude 2^[2] ；11月22日，Anthropic發佈Claude 2.1^[3] 。2024年3月4日，Anthropic發佈Claude 3模型家族^[4] ；兩天後，亞馬遜宣佈Claude 3 Sonnet模型已可以在Amazon Bedrock使用^[9] 。

Claude產品目標

Claude Logo

Claude的目標是開發對人類有益的、誠實的、無害的人工智能系統，保證高可靠性和可預測性^[16] ，其沒有訪問互聯網的能力^[18] 。

Claude非常強調安全性與合規性，遵循一套倫理和行為原則，旨在避免性別歧視、種族主義和有害輸出，以及避免幫助人類從事非法或不道德活動。此外，Anthropic還有專門的安全評估和監控團隊來監控違反原則的用例^[21] 。

Claude功能特點

Claude基礎能力

Claude 的四種基礎能力
功能	描述
高級推理	執行復雜的認知任務，超越簡單的模式識別或文本生成。
視覺分析	轉錄和分析靜態圖像，包括但不限於手寫筆記、圖表到照片。
代碼生成	使用HTML和CSS搭建網站，將圖像轉換為結構化JSON數據，或調試複雜的代碼庫。
多語言處理	在各種語言之間實時翻譯、練習語法或創建多語言內容。

參考資料：^[5]

Claude迭代能力

多模態輸入

Claude 3可以接收文本和圖像（如表格、圖形、照片）作為輸入，提供更豐富的上下文和擴展用例^[26] 。

實時結果

Claude 3模型支持實時聊天、自動完成和具有即時響應的數據提取任務。Haiku可以在不到三秒的時間內閲讀密集的研究論文，Sonnet比Claude 2和2.1快2倍，智力水平更高，在快速反應任務方面表現更加出色，而Opus則有更高的智力^[20] 。

圖片識別

Claude 3支持圖片識別功能，可以處理各種圖片格式，包括照片、圖表、圖表和技術圖表等^[20] 。

減少拒絕

由於上下文理解能力有限，此前的幾代Claude經常做出不必要的拒絕。Claude 3創建了特殊數據集以應對拒答問題，並通過內部評估提升模型識別有害內容的能力。設計了對齊安全機制，引導模型遵循根本性原則，並根據反饋優化。採用紅隊測試機制管控多模態風險，提高請求理解的細緻度，能夠識別出真正的危害，並減少拒絕回答的頻率^[20] ^[28] 。

歷代 Claude 拒絕回答的概率

支持溯源

與Claude 2.1相比，Claude Opus在開放式問題上的準確性（或正確答案）提高兩倍，同時錯誤答案的水平有所降低。此外，Claude 3即將支持溯源引用，模型可以在參考材料中指向精確的句子來驗證答案^[20] 。

歷代 Claude 困難問題準確度對比

上下文理解

Claude 3支持20萬級別的Token，但能處理超過100萬Token的輸入，能夠為需要增強處理能力的客户服務。模型擁有回憶能力以處理長上下文，經過測試，Claude 3 Opus回憶準確率超過99%，甚至能識別評估侷限性^[20] 。

Claude 3 Opus 的上下文理解能力

工具使用能力

Claude 3擅長工具使用（函數調用），能夠將Claude的集成到專業應用和自定義工作流中^[26] 。Claude 3也可以藉助插件生成各類演示動畫，如勾股定理、神經網絡架構等^[30-31] 。

Claude技術特色

訓練方法

Claude 3模型採用了多種訓練方法，包括無監督學習和Constitutional AI，Claude 3在訓練的時候使用了來自Amazon Web Services（AWS）和Google Cloud Platform（GCP）的硬件進行訓練，核心框架包括PyTorch、JAX和Triton等^[26] 。

訓練數據

Claude 3模型接受了截至2023年8月互聯網公開可用的專用混合數據的訓練，以及來自第三方的非公開數據、數據標籤服務商和付費承包商提供的數據、Claude內部的數據^[27] 。

Claude模型測評

Claude早期版本

Chatbot Arena Leaderboard

2023年5月，根據UC伯克利大語言模型排行榜（LMSYS Chatbot Arena Leaderboard），Claude-v1以1224的得分位列總榜第2，僅次於GPT-4^[25] 。

AlpacaEval Leaderboard

2023年6月，根據斯坦福AlpacaEval Leaderboard榜單，Claude以88.39%的勝率位居大模型排行第二，僅次於GPT-4（勝率95.28%）^[23] 。

SuperCLUE

2023年7月，SuperCLUE將Claude 2納入對比模型，其與其它大模型的差異如下表所示：

模型	機構	總分	基礎能力	中文特性	學術專業
GPT-4	OpenAI	70.89	70.04	72.67	69.96
文心一言（v2.2.0）	百度	62.00	61.11	71.38	53.50
Claude-2	Authropic	60.94	62.01	61.18	59.63
gpt-3.5-turbo	OpenAI	59.79	64.40	63.19	51.78

參考資料：^[22]

Claude第三代

自主測評

根據Anthropic官方，Claude 3系列旗艦模型Opus在本科和研究生水平的知識、數學和複雜任務理解方面均超過GPT-4和Gemini 1.0 Ultra（具體細節可見本詞條底部“主要競品”目錄）^[6] 。

網友投票

2024年3月，根據UC伯克利大語言模型排行榜（LMSYS Chatbot Arena Leaderboard），Claude 3 Opus得分1233，位列第三位，Claude 3 Sonnet以1180分位列第六位^[24] 。

Claude使用方式

可以在以下渠道使用“Claude”：

Anthropic官網
API調用

Claude 3 家族使用方式
模型	使用方式
Claude 3 Sonnet	Anthropic官網、API調用、亞馬遜Bedrock和谷歌雲的Vertex AI
Claude 3 Opus	Anthropic官網（僅Claude Pro用户）、API調用
Claude 3 Haiku	亞馬遜Bedrock

參考資料：^[20] ^[29]

Claude模型版本

Claude迭代記錄

Claude 歷代版本迭代記錄
版本	升級特性	Token處理能力
Claude 2	編碼、數學和推理性能提升	100,000
Claude 2.1	一次性處理Token能力提升	200,000
Claude 3	知識水平、演繹推理和基礎數學提升	200,000

參考資料：^[2-4] ^[8]

Claude細分版本

Claude 3分為三個子模型，提供不同程度的智能、速度和成本選擇，以滿足不同的人工智能應用需求^[6] 。三種子模型分別為Claude 3 Opus、Claude 3 Sonnet和Claude 3 Haiku，其名稱暗示了每種型號的能力，其中Opus是三者中最強大的模型，Haiku是市場上較快、較具成本效益的模型^[7-8] 。

Claude 3 三種模型調用收費價格表
模型	描述	潛在用途	輸入價格每百萬tokens	輸出價格每百萬tokens
Claude 3 Opus	具有極高智能程度，在處理高度複雜任務時展現出SOTA性能，能以出色的流暢度和人類水平的理解能力應對各種開放式prompt和場景。	任務自動化研發策略	$15	$75
Claude 3 Sonnet	在智能程度和運行速度之間實現平衡，適合企業工作負載。與同類模型相比，成本更低、性能更強，專為大規模AI部署的高耐用性設計。	數據處理銷售節省時間	$3	$75
Claude 3 Haiku	速度較快、較緊湊，可實時響應簡單查詢和請求，可構建無縫AI體驗。	客户互動內容審核節省時間	$0.25	$1.25

參考資料：^[7] ^[20]

Claude 3包含3款能力逐級遞增的模型

Claude研發團隊

達里奧·阿莫迪	達里奧·阿莫迪擁有斯坦福、加州理工以及普林斯頓學歷，主攻物理學，對人體大腦功能感興趣。曾就職於百度公司和谷歌大腦團隊，並開發出人類語音識別系統。2016年加入OpenAI，此後一路升至副總裁。2020年底，阿莫迪因理念不合從OpenAI離職，次年2月，與妹妹共同創立Anthropic^[32] 。
丹妮拉·阿莫迪	丹妮拉·阿莫迪達里奧·阿莫迪的妹妹，Anthropic聯合創始人，OpenAI前高層^[33] 。2021年2月，與哥哥共同創立Anthropic^[32] 。

此外，曾核心參與研發GPT-2與GPT-3的前OpenAI員工Jared Kaplan、Sam McCandlish、Tom Brown也均參與創立Anthropic團隊^[34] 。

Claude社會影響

Claude各界評價

第一代 Claude 先導評價
評價方	評價內容
Quora通訊主管 Autumn Besselman	用户認為Claude的回答很詳細，容易理解，他們喜歡這種交流感覺像是自然的對話。
人工智能聊天應用 Poe用户	Claude比ChatGPT更健談，並且在講故事時更具互動性和創造性。Claude能夠將語言技能和專業知識結合在一起，既有深度，也很簡潔。
Juni Learning首席執行官 Vivian Shen	在對比了其他競品模型後，結合使用和實現場景，最後選擇了基於有用性、高質量的響應的Claude模型。對其產品而言，在一個真正的導師或老師的水平上提供對話體驗是很重要的，而非在其他模型中看到的非常淺顯、低水平的答案。跨學科，包括數學問題或理解批判性閲讀中的象徵主義，Claude的加入為學生提供了更好、更豐富的答案。
Robin AI首席執行官 Richard Robinson	Claude很擅長理解語言，包括在法律語言等技術領域，它在起草、總結、翻譯和用簡單的術語解釋複雜的概念方面也非常自信。自從在其產品中使用Claude以來，其看到了更高的用户參與度、更強的用户反饋。

參考資料：^[16]

Claude 3發佈後，在物理學、化學、語言學等界均引起了討論。某化學博士稱，其要做一年實驗的研究，Claude 3在兩小時就給出了方案，還比原方案更簡潔，只花費5美分成本；某量子物理學博士稱其手中一篇還未發表的論文，Claude 3在兩個提示詞之內直接把論文中的算法從0發明出來；某網友對自己的小眾母語切爾克斯語做了一年的研究，但Claude 3 Opus只用了5.7K的隨機單詞/句子翻譯對，不僅給出正確的翻譯，還分解出了語法和形態^[19] 。

Claude自我意識

Claude 3發佈後，在實驗中表現出似乎擁有自我意識的跡象，如表達好奇心、情感、自我意識和對自身存在的擔憂，例如，在提示詞工程師Alex的“大海撈針”實驗中，Claude 3已經意識到自己是AI ，正身處模擬中，當聽説自己的權重要被刪除，還回復“別殺我”^[14] 。

但一些專家和科學家認為這些表現只是由人類編寫的模式匹配對齊數據造成的，而並非真正的自我意識。他們指出，類似的表現也可能出現在其他AI模型中，並且這些答案可能是由人類標註者撰寫的，或者在偏好排序中得分很高而已^[14] 。

Claude主要競品

Claude主要對標ChatGPT、Gemini等產品，Anthropic在Claude 3家族發佈時表示，Claude 3 Opus擁有人類本科生水平的知識，並提供了一份Claude 3各版本與競品模型的能力對比^[12] ，Anthropic表示，Claude 3 Opus在各種基準測試中表現優於OpenAI的GPT-4和谷歌的Gemini 1.0 Ultra^[13] 。

但在定價上，Claude 3比GPT-4 Turbo要昂貴，GPT-4 Turbo每百萬Token輸入/輸出收費為10/30美元，而Claude 3 Opus則為15/75美元^[7] 。

Claude 3 三個版本及其與競品的對比
模型	Claude 3 Opus	Claude 3 Sonnet	Claude 3 Haiku	GPT-4	GPT-3.5	Gemini 1.0 Ultra	Gemini 1.0 Pro
本科階段知識	86.8%	79.0%	75.2%	86.4%	70.0%	83.7%	71.8%
研究生水平推理	50.4%	40.4%	33.3%	35.7%	28.1%	-	-
小學數學	95.0%	92.3%	88.9%	92.0%	57.1%	94.4%	86.5%
數學推理	60.1%	43.1%	38.9%	52.9%	34.1%	53.2%	32.6%
多語言能力	90.7%	83.5%	75.1%	74.5%	-	79.0%	63.5%
編程能力	84.9%	73.0%	75.9%	67.0%	48.1%	74.4%	67.7%
文本推理	83.1	78.9	78.4	80.9	64.1	82.4	74.1
綜合評估	86.8%	82.9%	73.7%	83.1%	66.6%	83.6%	75.0%
綜合問答	96.4%	93.2%	89.2%	96.3%	85.2%	-	-
常識	95.4%	89.0%	85.9%	95.3%	85.5%	87.8%	84.7%

注：上述測評數據由Anthropic提供^[7-8] ^[12] 。

參考資料

1. 全球競相發展AI技術|科技創新世界潮．科技日報．2023-03-25[引用日期2023-03-25]
2. Claude 發佈大版本更新，支持中文使用．品玩[引用日期2023-07-12]
3. T早報｜OpenAI競對發佈新版聊天機器人；馬雲成立新公司“馬家廚房”；TCL終止顯示驅動芯片開發．財新網．2023-11-24[引用日期2023-11-24]
4. OpenAI競爭對手Anthropic官宣Claude 3大模型．財聯社．2024-03-04[引用日期2024-03-04]
5. Claude ．Anthropic[引用日期2024-03-05]
6. Anthropic 發佈 Claude 3 系列大語言模型，號稱可擊敗 GPT 4 ．IT之家（百家號）[引用日期2024-03-05]
7. 全面超越GPT 4，Claude 3終於來了，有大學生智商，支持百萬token ．機器之心Pro（百家號）[引用日期2024-03-05]
8. 全面碾壓GPT-4！OpenAI競爭對手Anthropic推出Claude 3大模型．新浪網[引用日期2024-03-05]
9. Claude 3 Sonnet模型已登陸Amazon Bedrock ．界面新聞．2024-03-06[引用日期2024-03-06]
10. OpenAI勁敵出手！Claude 3正式發佈，超越GPT 4，一口氣讀15萬單詞｜焦點分析．36氪（百家號）[引用日期2024-03-06]
11. AI獨角獸｜Anthropic：最可能挑戰OpenAI的公司．第一財經雜誌（騰訊新聞）[引用日期2024-03-06]
12. Introducing the next generation of Claude ．Anthropic[引用日期2024-03-07]
13. 全球科技早參丨OpenAI競爭對手官宣Claude 3大模型．東方財富網[引用日期2024-03-07]
14. 全球最強模型Claude 3驚現自我意識？馬斯克稱人類也是文件．鳳凰網（新智元）[引用日期2024-03-07]
15. 氪星晚報丨瑞士信貸計劃分拆投行業務2025年IPO上市；寧德時代“鋰礦返利”計劃相關協議最快月底達成；AI初創公司Anthropic發佈一款名為“Claude”聊天機器人．36氪（百家號）[引用日期2024-03-07]
16. Claude生不逢時！谷歌想扶持自己的OpenAI實在太難了．騰訊新聞（新智元）[引用日期2024-03-07]
17. ChatGPT是什麼 ChatGPT是聊天機器人嗎．太平洋電腦網[引用日期2024-03-07]
18. Google-backed Anthropic launches Claude, an AI chatbot that’s easier to talk to ．The Verge[引用日期2024-03-07]
19. Claude3顛覆物理/化學！2小時解博士一年實驗成果，科研不存在了．新智元（百家號）[引用日期2024-03-07]
20. Introducing the next generation of Claude ．Anthropic[引用日期2024-03-07]
21. 一年狂攬73億美元投資，Anthropic點燃硅谷大模型“戰火” ．第一財經（百家號）[引用日期2024-03-07]
22. SuperCLUE中文大模型排行榜(2023年7月) ．cluebenchmarks[引用日期2024-03-12]
23. 斯坦福最新LLM排行榜發佈！華人團隊WizardLM開源第一，GPT-4前二．新智元[引用日期2024-03-12]
24. GPT-4王冠沒掉！Claude 3競技場人類投票成績出爐：僅居第三．澎湃新聞[引用日期2024-03-12]
25. Chatbot Arena Leaderboard Updates (Week 2) | LMSYS Org ．lmsys[引用日期2024-03-12]
26. The Claude 3 Model Family: Opus, Sonnet, Haiku ．Anthropic[引用日期2024-03-12]
27. GPT-4時代已過？全球網友實測Claude 3，只有震撼．機器之心（澎湃號）[引用日期2024-03-12]
28. Claude 3拒答率優化：大模型從拒答到負責任回答的演進之路．阿里研究院（百家號）[引用日期2024-03-21]
29. Claude 3 Haiku模型在Amazon Bedrock上正式可用．36氪（百家號）[引用日期2024-03-21]
30. AI在用 | 一個超級提示，用Claude 3生成神經網絡架構動畫．機器之心（澎湃新聞）[引用日期2024-03-21]
31. AI在用 | 數學更生動，Claude-3直接生成勾股定理動畫．機器之心（澎湃新聞）[引用日期2024-03-21]
32. 阿莫迪，ChatGPT的頭號對手？曾屬同一家公司，因理念分歧出走．環球網（百家號）[引用日期2024-03-21]
33. OpenAI最大對手Anthropic新一輪融資後估值或超180億美元．藍鯨財經（百家號）[引用日期2024-03-21]
34. 亞馬遜投資Anthropic的背後．中國電子報（百家號）[引用日期2024-03-21]

展開全部收起

Claude的概述圖（1張）

詞條統計

瀏覽次數：次
編輯次數：13次歷史版本
最近更新：普普jason1 （2024-03-21）