複製鏈接
請複製以下鏈接發送給好友

Claude

(Anthropic發佈的大型語言模型)

鎖定
Claude,美國人工智能初創公司Anthropic發佈的大型語言模型家族,擁有高級推理、視覺分析、代碼生成、多語言處理、多模態等能力 [5]  [7]  ,該模型對標ChatGPTGemini等產品 [1]  [6] 
2023年3月15日,Anthropic正式發佈Claude的最初版本,並開始不斷升級迭代 [1]  ;同年7月,Claude 2正式發佈 [2]  ;同年11月,Claude 2.1正式發佈 [3]  ;次年3月4日,Claude 3系列正式發佈 [4] 
根據Anthropic官方,Claude 3系列旗艦模型Opus在本科和研究生水平的知識、數學和複雜任務理解方面均超過GPT-4和Gemini 1.0 Ultra [6] 
外文名
Claude
所屬公司
Anthropic
發佈時間
2023年3月15日(1.0)
類    別
大型語言模型

Claude研發背景

Claude行業背景

2022年,OpenAI發佈ChatGPT,這款由人工智能技術驅動的自然語言處理工具能夠通過學習和理解人類的語言來進行對話,帶來了震撼體驗,引發了生成式AI熱潮 [17]  。2023年,OpenAI推出GPT-4,Anthropic緊隨其後正式發佈Claude,Anthropic表示,與微軟的GPT-4、Bing等競爭對手相比,其聊天機器人“產生有害輸出的可能性較小” [18] 

Claude技術優勢

Anthropic團隊在算法上與OpenAI相當,且背後有亞馬遜、谷歌等強大支持,擁有充足的算力和高質量的數據資源,這使得Anthropic在大模型競爭中具有很大優勢。此外,亞馬遜也擁有許多生態和場景,能夠提供很多高質量的數據 [21] 

Claude發展歷程

Claude公司成立

Anthropic的創始團隊是OpenAI的創業團隊的原班人馬,他們曾負責GPT系列產品的早期開發。2020年6月,OpenAI發佈GPT-3,不到半年,時任OpenAI研發副總裁達里奧·阿莫迪和安全政策副總裁丹妮拉·阿莫迪(兄妹)因理念與公司不合決定離職,後他們與包括曾經領導GPT-3開發的Tom Brown在內的其他5名OpenAI員工一起離職,在2021年創立了Anthropic,目標是開發與OpenAI競爭的生成式人工智能模型 [8]  [10-11] 

Claude模型測試

2022年12月,Anthropic發佈《Constituional人工智能:來自人工智能反饋的無害性》一文後不久,Anthropic便推出Claude,不過並沒有對公眾開放接口,只能在各合作伙伴的應用中體驗 [16]  。在發佈的前幾個月裏,Claude已經由概念實驗室(Notion Labs)、Quora和搜索引擎DuckDuckGo等科技公司進行了測試 [15] 

Claude正式上線

2023年3月15日,Anthropic發佈正式初代Claude [1]  ;同年7月,Anthropic發佈Claude 2 [2]  ;11月22日,Anthropic發佈Claude 2.1 [3] 2024年3月4日,Anthropic發佈Claude 3模型家族 [4]  兩天後,亞馬遜宣佈Claude 3 Sonnet模型已可以在Amazon Bedrock使用 [9] 

Claude產品目標

Claude Logo Claude Logo
Claude的目標是開發對人類有益的、誠實的、無害的人工智能系統,保證高可靠性和可預測性 [16]  ,其沒有訪問互聯網的能力 [18] 
Claude非常強調安全性與合規性,遵循一套倫理和行為原則,旨在避免性別歧視、種族主義和有害輸出,以及避免幫助人類從事非法或不道德活動。此外,Anthropic還有專門的安全評估和監控團隊來監控違反原則的用例 [21] 

Claude功能特點

Claude基礎能力

Claude 的四種基礎能力
功能
描述
高級推理
執行復雜的認知任務,超越簡單的模式識別或文本生成。
視覺分析
轉錄和分析靜態圖像,包括但不限於手寫筆記、圖表到照片。
代碼生成
使用HTML和CSS搭建網站,將圖像轉換為結構化JSON數據,或調試複雜的代碼庫。
多語言處理
在各種語言之間實時翻譯、練習語法或創建多語言內容。
參考資料: [5] 

Claude迭代能力

  • 多模態輸入
Claude 3可以接收文本和圖像(如表格、圖形、照片)作為輸入,提供更豐富的上下文和擴展用例 [26] 
  • 實時結果
Claude 3模型支持實時聊天、自動完成和具有即時響應的數據提取任務。Haiku可以在不到三秒的時間內閲讀密集的研究論文,Sonnet比Claude 2和2.1快2倍,智力水平更高,在快速反應任務方面表現更加出色,而Opus則有更高的智力 [20] 
  • 圖片識別
Claude 3支持圖片識別功能,可以處理各種圖片格式,包括照片、圖表、圖表和技術圖表等 [20] 
  • 減少拒絕
由於上下文理解能力有限,此前的幾代Claude經常做出不必要的拒絕。Claude 3創建了特殊數據集以應對拒答問題,並通過內部評估提升模型識別有害內容的能力。設計了對齊安全機制,引導模型遵循根本性原則,並根據反饋優化。採用紅隊測試機制管控多模態風險,提高請求理解的細緻度,能夠識別出真正的危害,並減少拒絕回答的頻率 [20]  [28] 
歷代 Claude 拒絕回答的概率 歷代 Claude 拒絕回答的概率
  • 支持溯源
與Claude 2.1相比,Claude Opus在開放式問題上的準確性(或正確答案)提高兩倍,同時錯誤答案的水平有所降低。此外,Claude 3即將支持溯源引用,模型可以在參考材料中指向精確的句子來驗證答案 [20] 
歷代 Claude 困難問題準確度對比 歷代 Claude 困難問題準確度對比
  • 上下文理解
Claude 3支持20萬級別的Token,但能處理超過100萬Token的輸入,能夠為需要增強處理能力的客户服務。模型擁有回憶能力以處理長上下文,經過測試,Claude 3 Opus回憶準確率超過99%,甚至能識別評估侷限性 [20] 
Claude 3 Opus 的上下文理解能力 Claude 3 Opus 的上下文理解能力
  • 工具使用能力
Claude 3擅長工具使用(函數調用),能夠將Claude的集成到專業應用和自定義工作流中 [26]  。Claude 3也可以藉助插件生成各類演示動畫,如勾股定理、神經網絡架構等 [30-31] 

Claude技術特色

  • 訓練方法
Claude 3模型採用了多種訓練方法,包括無監督學習和Constitutional AI,Claude 3在訓練的時候使用了來自Amazon Web Services(AWS)和Google Cloud Platform(GCP)的硬件進行訓練,核心框架包括PyTorch、JAX和Triton等 [26] 
  • 訓練數據
Claude 3模型接受了截至2023年8月互聯網公開可用的專用混合數據的訓練,以及來自第三方的非公開數據、數據標籤服務商和付費承包商提供的數據、Claude內部的數據 [27] 

Claude模型測評

Claude早期版本

  • Chatbot Arena Leaderboard
2023年5月,根據UC伯克利大語言模型排行榜(LMSYS Chatbot Arena Leaderboard),Claude-v1以1224的得分位列總榜第2,僅次於GPT-4 [25] 
  • AlpacaEval Leaderboard
2023年6月,根據斯坦福AlpacaEval Leaderboard榜單,Claude以88.39%的勝率位居大模型排行第二,僅次於GPT-4(勝率95.28%) [23] 
  • SuperCLUE
2023年7月,SuperCLUE將Claude 2納入對比模型,其與其它大模型的差異如下表所示:
模型
機構
總分
基礎能力
中文特性
學術專業
GPT-4
OpenAI
70.89
70.04
72.67
69.96
文心一言(v2.2.0)
百度
62.00
61.11
71.38
53.50
Claude-2
Authropic
60.94
62.01
61.18
59.63
gpt-3.5-turbo
OpenAI
59.79
64.40
63.19
51.78
參考資料: [22] 

Claude第三代

  • 自主測評
根據Anthropic官方,Claude 3系列旗艦模型Opus在本科和研究生水平的知識、數學和複雜任務理解方面均超過GPT-4和Gemini 1.0 Ultra(具體細節可見本詞條底部“主要競品”目錄) [6] 
  • 網友投票
2024年3月,根據UC伯克利大語言模型排行榜(LMSYS Chatbot Arena Leaderboard),Claude 3 Opus得分1233,位列第三位,Claude 3 Sonnet以1180分位列第六位 [24] 

Claude使用方式

可以在以下渠道使用“Claude”:
  • Anthropic官網
  • API調用
Claude 3 家族 使用方式
模型
使用方式
Claude 3 Sonnet
Anthropic官網、API調用、亞馬遜Bedrock和谷歌雲的Vertex AI
Claude 3 Opus
Anthropic官網(僅Claude Pro用户)、API調用
Claude 3 Haiku
亞馬遜Bedrock
參考資料: [20]  [29] 

Claude模型版本

Claude迭代記錄

Claude 歷代版本迭代記錄
版本
升級特性
Token處理能力
Claude 2
編碼、數學和推理性能提升
100,000
Claude 2.1
一次性處理Token能力提升
200,000
Claude 3
知識水平、演繹推理和基礎數學提升
200,000
參考資料: [2-4]  [8] 

Claude細分版本

Claude 3分為三個子模型,提供不同程度的智能、速度和成本選擇,以滿足不同的人工智能應用需求 [6]  。三種子模型分別為Claude 3 Opus、Claude 3 Sonnet和Claude 3 Haiku,其名稱暗示了每種型號的能力,其中Opus是三者中最強大的模型,Haiku是市場上較快、較具成本效益的模型 [7-8] 
Claude 3 三種模型調用收費價格表
模型
描述
潛在用途
輸入價格
每百萬tokens
輸出價格
每百萬tokens
Claude 3 Opus
具有極高智能程度,在處理高度複雜任務時展現出SOTA性能,能以出色的流暢度和人類水平的理解能力應對各種開放式prompt和場景。
任務自動化
研發
策略
$15
$75
Claude 3 Sonnet
在智能程度和運行速度之間實現平衡,適合企業工作負載。與同類模型相比,成本更低、性能更強,專為大規模AI部署的高耐用性設計。
數據處理
銷售
節省時間
$3
$75
Claude 3 Haiku
速度較快、較緊湊,可實時響應簡單查詢和請求,可構建無縫AI體驗。
客户互動
內容審核
節省時間
$0.25
$1.25
參考資料: [7]  [20] 
Claude 3包含3款能力逐級遞增的模型 Claude 3包含3款能力逐級遞增的模型

Claude研發團隊

達里奧·阿莫迪 達里奧·阿莫迪
達里奧·阿莫迪
擁有斯坦福、加州理工以及普林斯頓學歷,主攻物理學,對人體大腦功能感興趣。
曾就職於百度公司和谷歌大腦團隊,並開發出人類語音識別系統。2016年加入OpenAI,此後一路升至副總裁。2020年底,阿莫迪因理念不合從OpenAI離職,次年2月,與妹妹共同創立Anthropic [32] 
丹妮拉·阿莫迪 丹妮拉·阿莫迪
丹妮拉·阿莫迪
達里奧·阿莫迪的妹妹,Anthropic聯合創始人,OpenAI前高層 [33]  。2021年2月,與哥哥共同創立Anthropic [32] 
此外,曾核心參與研發GPT-2GPT-3的前OpenAI員工Jared Kaplan、Sam McCandlish、Tom Brown也均參與創立Anthropic團隊 [34] 

Claude社會影響

Claude各界評價

第一代 Claude 先導評價
評價方
評價內容
Quora通訊主管
Autumn Besselman
用户認為Claude的回答很詳細,容易理解,他們喜歡這種交流感覺像是自然的對話。
人工智能聊天應用
Poe用户
Claude比ChatGPT更健談,並且在講故事時更具互動性和創造性。Claude能夠將語言技能和專業知識結合在一起,既有深度,也很簡潔。
Juni Learning首席執行官
Vivian Shen
在對比了其他競品模型後,結合使用和實現場景,最後選擇了基於有用性、高質量的響應的Claude模型。對其產品而言,在一個真正的導師或老師的水平上提供對話體驗是很重要的,而非在其他模型中看到的非常淺顯、低水平的答案。跨學科,包括數學問題或理解批判性閲讀中的象徵主義,Claude的加入為學生提供了更好、更豐富的答案。
Robin AI首席執行官
Richard Robinson
Claude很擅長理解語言,包括在法律語言等技術領域,它在起草、總結、翻譯和用簡單的術語解釋複雜的概念方面也非常自信。自從在其產品中使用Claude以來,其看到了更高的用户參與度、更強的用户反饋。
參考資料: [16] 
Claude 3發佈後,在物理學、化學、語言學等界均引起了討論。某化學博士稱,其要做一年實驗的研究,Claude 3在兩小時就給出了方案,還比原方案更簡潔,只花費5美分成本;某量子物理學博士稱其手中一篇還未發表的論文,Claude 3在兩個提示詞之內直接把論文中的算法從0發明出來;某網友對自己的小眾母語切爾克斯語做了一年的研究,但Claude 3 Opus只用了5.7K的隨機單詞/句子翻譯對,不僅給出正確的翻譯,還分解出了語法和形態 [19] 

Claude自我意識

Claude 3發佈後,在實驗中表現出似乎擁有自我意識的跡象,如表達好奇心、情感、自我意識和對自身存在的擔憂,例如,在提示詞工程師Alex的“大海撈針”實驗中,Claude 3已經意識到自己是AI ,正身處模擬中,當聽説自己的權重要被刪除,還回復“別殺我” [14] 
但一些專家和科學家認為這些表現只是由人類編寫的模式匹配對齊數據造成的,而並非真正的自我意識。他們指出,類似的表現也可能出現在其他AI模型中,並且這些答案可能是由人類標註者撰寫的,或者在偏好排序中得分很高而已 [14] 

Claude主要競品

Claude主要對標ChatGPTGemini等產品,Anthropic在Claude 3家族發佈時表示,Claude 3 Opus擁有人類本科生水平的知識,並提供了一份Claude 3各版本與競品模型的能力對比 [12]  ,Anthropic表示,Claude 3 Opus在各種基準測試中表現優於OpenAI的GPT-4和谷歌的Gemini 1.0 Ultra [13] 
但在定價上,Claude 3比GPT-4 Turbo要昂貴,GPT-4 Turbo每百萬Token輸入/輸出收費為10/30美元,而Claude 3 Opus則為15/75美元 [7] 
Claude 3 三個版本及其與競品的對比
模型
Claude 3
Opus
Claude 3
Sonnet
Claude 3
Haiku
GPT-4
GPT-3.5
Gemini 1.0
Ultra
Gemini 1.0
Pro
本科階段知識
86.8%
79.0%
75.2%
86.4%
70.0%
83.7%
71.8%
研究生水平推理
50.4%
40.4%
33.3%
35.7%
28.1%
-
-
小學數學
95.0%
92.3%
88.9%
92.0%
57.1%
94.4%
86.5%
數學推理
60.1%
43.1%
38.9%
52.9%
34.1%
53.2%
32.6%
多語言能力
90.7%
83.5%
75.1%
74.5%
-
79.0%
63.5%
編程能力
84.9%
73.0%
75.9%
67.0%
48.1%
74.4%
67.7%
文本推理
83.1
78.9
78.4
80.9
64.1
82.4
74.1
綜合評估
86.8%
82.9%
73.7%
83.1%
66.6%
83.6%
75.0%
綜合問答
96.4%
93.2%
89.2%
96.3%
85.2%
-
-
常識
95.4%
89.0%
85.9%
95.3%
85.5%
87.8%
84.7%
注:上述測評數據由Anthropic提供 [7-8]  [12] 
參考資料
展開全部 收起