Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
根據 LMSYS Chatbot Arena 最新評比,全球最強 AI 寶座近日再度換人坐,兩個月前才遭 AI 新創公司 Anthropic 旗下 Claude3 Opus 超越的 OpenAI ChatGPT,再次用實力重奪 AI 一哥寶座,在最新的 AI 基準測試中,OpenAI 幾天前剛發布的 GPT-4-Turbo-2024-04-09 版本,大幅超越 Claude3 Opus。
才在今年3月時,多個新聞報導指出Claude3的Claude 3 Opus全面勝過Google和OpenAI等對手,不管是ChatGPT免費版背後的GPT3.5、付費版背後的GPT-4,還是Google的Gemini 1.0 Ultra以及Gemini 1.0 Pro,都無法和Claude 3 Opus匹敵。但現在OpenAI在4月9日發布的GPT-4-Turbo正式版被LMSYS Chatbot Arena 最新評比列為全球最強 AI 寶座
根據 OpenAI 介紹,GPT-4-Turbo-2024-04-09 版本在寫作、數學、邏輯推理以及程式設計等多個領域均有顯著進步,使用新版 GPT4 寫作會發現它的反應速度提升,溝通更為流暢,表達方式更趨於口語化。新版的寫作風格更貼近人類的自然語言,多了些人情味,少了點 AI 機器味。
就在 OpenAI 發表更新版本後,中國玩家透過 AI 工具站 BotGo 進行了 GPT-4-Turbo 體驗並發佈測評指出,在程式碼能力測試上,相較於 Claude 3 Opus 完全沒找到 bug 在哪,GPT-4-Turbo-2024-04-09 版本已經能夠發現 Bug 的問題,並且提供了修復的程式碼,修改後的程式碼也更為優質,而且除了 Bug 之外還提出了索引處理和效率方面的問題及建議,整體表現確實比 Claude3 更為優秀 。解析上傳圖片方面,最新版的 GPT-4 則好像還不能解析上傳的圖片,可能還在調測當中,並在圖片問答方面還是不如 Claude-3 Opus。
然而在各個優秀的AI工具上,每個人有不同的看法。在測試比對下,發現各工具還是據尤其相當的優點,如在寫作能力測試方面,中國玩家給予的評論則是 Claude-3 寫的文章既較口語化且富有感染力,內容也有一定的深度,GPT-4 和 Gemini Pro 則差不多,GPT-4 比較專業,Gemini Pro 比較流暢,速度也快一些。
LMSYS 平台(專門評測大型語言模型 (LLM) 性能的平台)曾專門做過測驗對比發現,GPT4 的英文寫作更強,而 Claude3 的中文寫作能力更勝一籌。就讓我們來看看GPT4 與Claude3的不同吧!
Claude是由Anthropic推出的AI模型,同時也是能與人類對話的AI互動服務。我們可以像使用ChatGPT一樣,直接從網站上與Claude互動,也能調用Claude API,投入企業內部開發。
(圖:Shutterstock)
根據Anthropic官網介紹,Claude擅長處理文字,可以生成包含文件、信件、問答等大量內容,也能夠編輯、重寫、摘要、分類這些內容;它也可以自然地與人對話,扮演不同角色,就像與真人對話一般;因為訓練資料龐大,它精通不同語言,也熟諳程式撰寫,更能回答許多文化、領域的專精知識;最後則是將工作流程自動化,它能夠根據使用者下的指令,有邏輯地解決任務。
不過,它沒有辦法造訪網頁,使用者可以從外部貼入資訊與它互動。Claude同時服膺Anthropic的理念,希望生成出有幫助、誠實、無害的內容,此原則被稱為「HHH」(Helpful, Honest, and Harmless),因此經過特別的訓練手法,希望符合開發者想要呈現的行為。
Anthropic一共推出三款命名頗具詩意的模型,能力由弱到強分別是Claude 3 Haiku(俳句)、Claude 3 Sonnet(十四行詩)以及 Claude 3 Opus(古典樂的編號作品)。 根據Anthropic自行檢測,在推理能力、數學能力、大學生程度的知識上,表現最佳的Claude 3 Opus。先前並未開放多模態功能,隨著這次更新,企業用戶將能像使用ChatGPT一樣,上傳投影片、照片、文字檔案以及圖表,請Claude協助辨識並判讀,能改進回答的正確性、更精準判斷使用者意圖、增加多模態能力、提供結構化的輸出格式與函數呼叫功能等
特性 | ChatGPT3.5 | ChatGPT4.0 | Claude3 |
描述 | 聰明的圖書管理員 | 超級計算機 | 專業顧問團 |
學習能力 | 學過很多書本知識 | 儲存更多資訊和知識 | 每個模型都有自己的專長 |
文字處理 | 寫作和回答問題 | 更快更準的問題處理 | 寫詩到分析音樂 |
圖像理解 | 不擅長 | 能理解圖片,跨語言流暢交流 | 在看圖方面堪比 4.0 |
處理速度 | 相對較慢 | 快速且準確 | 快速閱讀文章,處理大量信息 |
https://news.cnyes.com/news/id/5527161