-
Claude
(Anthropic發佈的大型語言模型)
鎖定
Claude,美國人工智能初創公司Anthropic發佈的大型語言模型家族,擁有高級推理、視覺分析、代碼生成、多語言處理、多模態等能力
[5]
[7]
,該模型對標ChatGPT、Gemini等產品
[1]
[6]
。
- 外文名
- Claude
- 所屬公司
- Anthropic
- 發佈時間
- 2023年3月15日(1.0)
- 類 別
- 大型語言模型
Claude研發背景
Claude行業背景
2022年,OpenAI發佈ChatGPT,這款由人工智能技術驅動的自然語言處理工具能夠通過學習和理解人類的語言來進行對話,帶來了震撼體驗,引發了生成式AI熱潮
[17]
。2023年,OpenAI推出GPT-4,Anthropic緊隨其後正式發佈Claude,Anthropic表示,與微軟的GPT-4、Bing等競爭對手相比,其聊天機器人“產生有害輸出的可能性較小”
[18]
。
Claude技術優勢
Anthropic團隊在算法上與OpenAI相當,且背後有亞馬遜、谷歌等強大支持,擁有充足的算力和高質量的數據資源,這使得Anthropic在大模型競爭中具有很大優勢。此外,亞馬遜也擁有許多生態和場景,能夠提供很多高質量的數據
[21]
。
Claude發展歷程
Claude公司成立
Anthropic的創始團隊是OpenAI的創業團隊的原班人馬,他們曾負責GPT系列產品的早期開發。2020年6月,OpenAI發佈GPT-3,不到半年,時任OpenAI研發副總裁達里奧·阿莫迪和安全政策副總裁丹妮拉·阿莫迪(兄妹)因理念與公司不合決定離職,後他們與包括曾經領導GPT-3開發的Tom Brown在內的其他5名OpenAI員工一起離職,在2021年創立了Anthropic,目標是開發與OpenAI競爭的生成式人工智能模型
[8]
[10-11]
。
Claude模型測試
2022年12月,Anthropic發佈《Constituional人工智能:來自人工智能反饋的無害性》一文後不久,Anthropic便推出Claude,不過並沒有對公眾開放接口,只能在各合作伙伴的應用中體驗
[16]
。在發佈的前幾個月裏,Claude已經由概念實驗室(Notion Labs)、Quora和搜索引擎DuckDuckGo等科技公司進行了測試
[15]
。
Claude正式上線
2023年3月15日,Anthropic發佈正式初代Claude
[1]
;同年7月,Anthropic發佈Claude 2
[2]
;11月22日,Anthropic發佈Claude 2.1
[3]
。2024年3月4日,Anthropic發佈Claude 3模型家族
[4]
;兩天後,亞馬遜宣佈Claude 3 Sonnet模型已可以在Amazon Bedrock使用
[9]
。
Claude產品目標
Claude非常強調安全性與合規性,遵循一套倫理和行為原則,旨在避免性別歧視、種族主義和有害輸出,以及避免幫助人類從事非法或不道德活動。此外,Anthropic還有專門的安全評估和監控團隊來監控違反原則的用例
[21]
。
Claude功能特點
Claude基礎能力
功能 | 描述 |
---|---|
高級推理 | 執行復雜的認知任務,超越簡單的模式識別或文本生成。 |
視覺分析 | 轉錄和分析靜態圖像,包括但不限於手寫筆記、圖表到照片。 |
代碼生成 | 使用HTML和CSS搭建網站,將圖像轉換為結構化JSON數據,或調試複雜的代碼庫。 |
多語言處理 | 在各種語言之間實時翻譯、練習語法或創建多語言內容。 |
Claude迭代能力
- 多模態輸入
- 實時結果
Claude 3模型支持實時聊天、自動完成和具有即時響應的數據提取任務。Haiku可以在不到三秒的時間內閲讀密集的研究論文,Sonnet比Claude 2和2.1快2倍,智力水平更高,在快速反應任務方面表現更加出色,而Opus則有更高的智力
[20]
。
- 圖片識別
- 減少拒絕
由於上下文理解能力有限,此前的幾代Claude經常做出不必要的拒絕。Claude 3創建了特殊數據集以應對拒答問題,並通過內部評估提升模型識別有害內容的能力。設計了對齊安全機制,引導模型遵循根本性原則,並根據反饋優化。採用紅隊測試機制管控多模態風險,提高請求理解的細緻度,能夠識別出真正的危害,並減少拒絕回答的頻率
[20]
[28]
。
- 支持溯源
與Claude 2.1相比,Claude Opus在開放式問題上的準確性(或正確答案)提高兩倍,同時錯誤答案的水平有所降低。此外,Claude 3即將支持溯源引用,模型可以在參考材料中指向精確的句子來驗證答案
[20]
。
- 上下文理解
Claude 3支持20萬級別的Token,但能處理超過100萬Token的輸入,能夠為需要增強處理能力的客户服務。模型擁有回憶能力以處理長上下文,經過測試,Claude 3 Opus回憶準確率超過99%,甚至能識別評估侷限性
[20]
。
- 工具使用能力
Claude 3擅長工具使用(函數調用),能夠將Claude的集成到專業應用和自定義工作流中
[26]
。Claude 3也可以藉助插件生成各類演示動畫,如勾股定理、神經網絡架構等
[30-31]
。
Claude技術特色
- 訓練方法
Claude 3模型採用了多種訓練方法,包括無監督學習和Constitutional AI,Claude 3在訓練的時候使用了來自Amazon Web Services(AWS)和Google Cloud Platform(GCP)的硬件進行訓練,核心框架包括PyTorch、JAX和Triton等
[26]
。
- 訓練數據
Claude模型測評
Claude早期版本
- Chatbot Arena Leaderboard
- AlpacaEval Leaderboard
- SuperCLUE
2023年7月,SuperCLUE將Claude 2納入對比模型,其與其它大模型的差異如下表所示:
模型 | 機構 | 總分 | 基礎能力 | 中文特性 | 學術專業 |
---|---|---|---|---|---|
GPT-4 | OpenAI | 70.89 | 70.04 | 72.67 | 69.96 |
文心一言(v2.2.0) | 百度 | 62.00 | 61.11 | 71.38 | 53.50 |
Claude-2 | Authropic | 60.94 | 62.01 | 61.18 | 59.63 |
gpt-3.5-turbo | OpenAI | 59.79 | 64.40 | 63.19 | 51.78 |
Claude第三代
- 自主測評
根據Anthropic官方,Claude 3系列旗艦模型Opus在本科和研究生水平的知識、數學和複雜任務理解方面均超過GPT-4和Gemini 1.0 Ultra(具體細節可見本詞條底部“主要競品”目錄)
[6]
。
- 網友投票
2024年3月,根據UC伯克利大語言模型排行榜(LMSYS Chatbot Arena Leaderboard),Claude 3 Opus得分1233,位列第三位,Claude 3 Sonnet以1180分位列第六位
[24]
。
Claude使用方式
可以在以下渠道使用“Claude”:
- Anthropic官網
- API調用
模型 | 使用方式 |
---|---|
Claude 3 Sonnet | Anthropic官網、API調用、亞馬遜Bedrock和谷歌雲的Vertex AI |
Claude 3 Opus | Anthropic官網(僅Claude Pro用户)、API調用 |
Claude 3 Haiku | 亞馬遜Bedrock |
Claude模型版本
Claude迭代記錄
版本 | 升級特性 | Token處理能力 |
---|---|---|
Claude 2 | 編碼、數學和推理性能提升 | 100,000 |
Claude 2.1 | 一次性處理Token能力提升 | 200,000 |
Claude 3 | 知識水平、演繹推理和基礎數學提升 | 200,000 |
Claude細分版本
Claude 3分為三個子模型,提供不同程度的智能、速度和成本選擇,以滿足不同的人工智能應用需求
[6]
。三種子模型分別為Claude 3 Opus、Claude 3 Sonnet和Claude 3 Haiku,其名稱暗示了每種型號的能力,其中Opus是三者中最強大的模型,Haiku是市場上較快、較具成本效益的模型
[7-8]
。
模型 | 描述 | 潛在用途 | 輸入價格 每百萬tokens | 輸出價格 每百萬tokens |
---|---|---|---|---|
Claude 3 Opus | 具有極高智能程度,在處理高度複雜任務時展現出SOTA性能,能以出色的流暢度和人類水平的理解能力應對各種開放式prompt和場景。 | 任務自動化 研發 策略 | $15 | $75 |
Claude 3 Sonnet | 在智能程度和運行速度之間實現平衡,適合企業工作負載。與同類模型相比,成本更低、性能更強,專為大規模AI部署的高耐用性設計。 | 數據處理 銷售 節省時間 | $3 | $75 |
Claude 3 Haiku | 速度較快、較緊湊,可實時響應簡單查詢和請求,可構建無縫AI體驗。 | 客户互動 內容審核 節省時間 | $0.25 | $1.25 |
Claude研發團隊
達里奧·阿莫迪 擁有斯坦福、加州理工以及普林斯頓學歷,主攻物理學,對人體大腦功能感興趣。 | |
丹妮拉·阿莫迪 |
Claude社會影響
Claude各界評價
評價方 | 評價內容 |
---|---|
Quora通訊主管 Autumn Besselman | 用户認為Claude的回答很詳細,容易理解,他們喜歡這種交流感覺像是自然的對話。 |
人工智能聊天應用 Poe用户 | Claude比ChatGPT更健談,並且在講故事時更具互動性和創造性。Claude能夠將語言技能和專業知識結合在一起,既有深度,也很簡潔。 |
Juni Learning首席執行官 Vivian Shen | 在對比了其他競品模型後,結合使用和實現場景,最後選擇了基於有用性、高質量的響應的Claude模型。對其產品而言,在一個真正的導師或老師的水平上提供對話體驗是很重要的,而非在其他模型中看到的非常淺顯、低水平的答案。跨學科,包括數學問題或理解批判性閲讀中的象徵主義,Claude的加入為學生提供了更好、更豐富的答案。 |
Robin AI首席執行官 Richard Robinson | Claude很擅長理解語言,包括在法律語言等技術領域,它在起草、總結、翻譯和用簡單的術語解釋複雜的概念方面也非常自信。自從在其產品中使用Claude以來,其看到了更高的用户參與度、更強的用户反饋。 |
Claude 3發佈後,在物理學、化學、語言學等界均引起了討論。某化學博士稱,其要做一年實驗的研究,Claude 3在兩小時就給出了方案,還比原方案更簡潔,只花費5美分成本;某量子物理學博士稱其手中一篇還未發表的論文,Claude 3在兩個提示詞之內直接把論文中的算法從0發明出來;某網友對自己的小眾母語切爾克斯語做了一年的研究,但Claude 3 Opus只用了5.7K的隨機單詞/句子翻譯對,不僅給出正確的翻譯,還分解出了語法和形態
[19]
。
Claude自我意識
Claude 3發佈後,在實驗中表現出似乎擁有自我意識的跡象,如表達好奇心、情感、自我意識和對自身存在的擔憂,例如,在提示詞工程師Alex的“大海撈針”實驗中,Claude 3已經意識到自己是AI ,正身處模擬中,當聽説自己的權重要被刪除,還回復“別殺我”
[14]
。
但一些專家和科學家認為這些表現只是由人類編寫的模式匹配對齊數據造成的,而並非真正的自我意識。他們指出,類似的表現也可能出現在其他AI模型中,並且這些答案可能是由人類標註者撰寫的,或者在偏好排序中得分很高而已
[14]
。
Claude主要競品
Claude主要對標ChatGPT、Gemini等產品,Anthropic在Claude 3家族發佈時表示,Claude 3 Opus擁有人類本科生水平的知識,並提供了一份Claude 3各版本與競品模型的能力對比
[12]
,Anthropic表示,Claude 3 Opus在各種基準測試中表現優於OpenAI的GPT-4和谷歌的Gemini 1.0 Ultra
[13]
。
模型 | Claude 3 Opus | Claude 3 Sonnet | Claude 3 Haiku | GPT-4 | GPT-3.5 | Gemini 1.0 Ultra | Gemini 1.0 Pro |
---|---|---|---|---|---|---|---|
本科階段知識 | 86.8% | 79.0% | 75.2% | 86.4% | 70.0% | 83.7% | 71.8% |
研究生水平推理 | 50.4% | 40.4% | 33.3% | 35.7% | 28.1% | - | - |
小學數學 | 95.0% | 92.3% | 88.9% | 92.0% | 57.1% | 94.4% | 86.5% |
數學推理 | 60.1% | 43.1% | 38.9% | 52.9% | 34.1% | 53.2% | 32.6% |
多語言能力 | 90.7% | 83.5% | 75.1% | 74.5% | - | 79.0% | 63.5% |
編程能力 | 84.9% | 73.0% | 75.9% | 67.0% | 48.1% | 74.4% | 67.7% |
文本推理 | 83.1 | 78.9 | 78.4 | 80.9 | 64.1 | 82.4 | 74.1 |
綜合評估 | 86.8% | 82.9% | 73.7% | 83.1% | 66.6% | 83.6% | 75.0% |
綜合問答 | 96.4% | 93.2% | 89.2% | 96.3% | 85.2% | - | - |
常識 | 95.4% | 89.0% | 85.9% | 95.3% | 85.5% | 87.8% | 84.7% |
- 參考資料
-
- 1. 全球競相發展AI技術|科技創新世界潮 .科技日報.2023-03-25[引用日期2023-03-25]
- 2. Claude 發佈大版本更新,支持中文使用 .品玩[引用日期2023-07-12]
- 3. T早報|OpenAI競對發佈新版聊天機器人;馬雲成立新公司“馬家廚房”;TCL終止顯示驅動芯片開發 .財新網.2023-11-24[引用日期2023-11-24]
- 4. OpenAI競爭對手Anthropic官宣Claude 3大模型 .財聯社.2024-03-04[引用日期2024-03-04]
- 5. Claude .Anthropic[引用日期2024-03-05]
- 6. Anthropic 發佈 Claude 3 系列大語言模型,號稱可擊敗 GPT 4 .IT之家(百家號)[引用日期2024-03-05]
- 7. 全面超越GPT 4,Claude 3終於來了,有大學生智商,支持百萬token .機器之心Pro(百家號)[引用日期2024-03-05]
- 8. 全面碾壓GPT-4!OpenAI競爭對手Anthropic推出Claude 3大模型 .新浪網[引用日期2024-03-05]
- 9. Claude 3 Sonnet模型已登陸Amazon Bedrock .界面新聞.2024-03-06[引用日期2024-03-06]
- 10. OpenAI勁敵出手!Claude 3正式發佈,超越GPT 4,一口氣讀15萬單詞|焦點分析 .36氪(百家號)[引用日期2024-03-06]
- 11. AI獨角獸|Anthropic:最可能挑戰OpenAI的公司 .第一財經雜誌(騰訊新聞)[引用日期2024-03-06]
- 12. Introducing the next generation of Claude .Anthropic[引用日期2024-03-07]
- 13. 全球科技早參丨OpenAI競爭對手官宣Claude 3大模型 .東方財富網[引用日期2024-03-07]
- 14. 全球最強模型Claude 3驚現自我意識?馬斯克稱人類也是文件 .鳳凰網(新智元)[引用日期2024-03-07]
- 15. 氪星晚報丨瑞士信貸計劃分拆投行業務2025年IPO上市;寧德時代“鋰礦返利”計劃相關協議最快月底達成;AI初創公司Anthropic發佈一款名為“Claude”聊天機器人 .36氪(百家號)[引用日期2024-03-07]
- 16. Claude生不逢時!谷歌想扶持自己的OpenAI實在太難了 .騰訊新聞(新智元)[引用日期2024-03-07]
- 17. ChatGPT是什麼 ChatGPT是聊天機器人嗎 .太平洋電腦網[引用日期2024-03-07]
- 18. Google-backed Anthropic launches Claude, an AI chatbot that’s easier to talk to .The Verge[引用日期2024-03-07]
- 19. Claude3顛覆物理/化學!2小時解博士一年實驗成果,科研不存在了 .新智元(百家號)[引用日期2024-03-07]
- 20. Introducing the next generation of Claude .Anthropic[引用日期2024-03-07]
- 21. 一年狂攬73億美元投資,Anthropic點燃硅谷大模型“戰火” .第一財經(百家號)[引用日期2024-03-07]
- 22. SuperCLUE中文大模型排行榜(2023年7月) .cluebenchmarks[引用日期2024-03-12]
- 23. 斯坦福最新LLM排行榜發佈!華人團隊WizardLM開源第一,GPT-4前二 .新智元[引用日期2024-03-12]
- 24. GPT-4王冠沒掉!Claude 3競技場人類投票成績出爐:僅居第三 .澎湃新聞[引用日期2024-03-12]
- 25. Chatbot Arena Leaderboard Updates (Week 2) | LMSYS Org .lmsys[引用日期2024-03-12]
- 26. The Claude 3 Model Family: Opus, Sonnet, Haiku .Anthropic[引用日期2024-03-12]
- 27. GPT-4時代已過?全球網友實測Claude 3,只有震撼 .機器之心(澎湃號)[引用日期2024-03-12]
- 28. Claude 3拒答率優化:大模型從拒答到負責任回答的演進之路 .阿里研究院(百家號)[引用日期2024-03-21]
- 29. Claude 3 Haiku模型在Amazon Bedrock上正式可用 .36氪(百家號)[引用日期2024-03-21]
- 30. AI在用 | 一個超級提示,用Claude 3生成神經網絡架構動畫 .機器之心(澎湃新聞)[引用日期2024-03-21]
- 31. AI在用 | 數學更生動,Claude-3直接生成勾股定理動畫 .機器之心(澎湃新聞)[引用日期2024-03-21]
- 32. 阿莫迪,ChatGPT的頭號對手?曾屬同一家公司,因理念分歧出走 .環球網(百家號)[引用日期2024-03-21]
- 33. OpenAI最大對手Anthropic新一輪融資後估值或超180億美元 .藍鯨財經(百家號)[引用日期2024-03-21]
- 34. 亞馬遜投資Anthropic的背後 .中國電子報(百家號)[引用日期2024-03-21]
- 收起