8月8日消息,OpenAI在今天凌晨的直播中,正式發(fā)布了GPT-5模型,號稱是自家最出色的模型,在編程、數(shù)學、寫作、健康、視覺感知等多個領域都具備頂尖的性能。
OpenAI首席執(zhí)行官薩姆·奧爾特曼(Sam Altman)稱,GPT-5是該公司此前人工智能模型的“重大升級”,并表示“與它交流,真的就像在和任何領域的專家對話”。
GPT-5今日起開始向免費用戶和付費用戶逐步推出,付費用戶擁有更高的使用限額。
Pro訂閱者可無限訪問GPT-5,并能使用GPT-5 Pro;Plus用戶可將其作為日常問題的默認模型,使用量顯著高于免費用戶。
GPT-5是一個統(tǒng)一的系統(tǒng),由智能高效模型+深度推理模型(GPT-5 thinking)+實時路由器組成。
其中,智能高效模型可回答大多數(shù)問題;深度推理模型用于解決更復雜的問題。
實時路由器則是會根據(jù)對話類型、復雜性、工具需求和用戶明確意圖,快速決定使用哪種模型,且會基于真實信號持續(xù)訓練改進。
一旦達到使用限制,每個模型的精簡版將處理剩余的查詢,OpenAI未來將會把這些功能整合到一個單一模型中。
GPT-5在基準測試中表現(xiàn)優(yōu)于之前的模型,回答問題速度更快,對實際問題的解答更有幫助,減少幻覺、改進指令遵循以及最大程度減少諂媚。
尤其在寫作、編程和健康咨詢這三個ChatGPT最常見的應用場景中表現(xiàn)提升。
編程:是迄今為止最強的編程模型,在復雜前端生成和大型代碼庫調試方面有顯著改進,能根據(jù)單個提示創(chuàng)建美觀且響應迅速的網站、應用程序和游戲等。
創(chuàng)意表達與寫作:能將粗略想法轉化為有文學深度和節(jié)奏的引人共鳴的作品,能更好地處理涉及結構模糊的寫作,在日常寫作任務中也更有幫助。
健康:在與健康相關的問題上表現(xiàn)最佳,在HealthBench上的得分顯著高于以往任何模型,能更主動地標記潛在問題并提問以提供更有幫助的答案,還能根據(jù)用戶的背景、知識水平和地理位置提供更精確可靠的響應,但不能替代醫(yī)療專業(yè)人員。
在數(shù)學(AIME 2025無工具時94.6%)、真實世界編程(SWE-bench Verified 74.9%、Aider Polyglot 88%)、多模態(tài)理解(MMMU 84.2%)和健康(HealthBench Hard 46.2%)等方面創(chuàng)造新的最先進水平。
GPT-5 Pro憑借擴展推理,在GPQA上也創(chuàng)造新的最先進水平,無工具時得分88.4%。
GPT-5 Pro用于最具挑戰(zhàn)性、最復雜的任務,替代OpenAI o3-Pro,它的思考時間更長,使用規(guī)?;咝У牟⑿袦y試時計算,能提供最高質量和最全面的答案。
在多個具有挑戰(zhàn)性的智力基準測試中表現(xiàn)最佳,在超過1000個有經濟價值的真實世界推理提示的評估中,外部專家在67.8%的情況下更青睞GPT-5 Pro,其主要錯誤減少22%,在健康、科學、數(shù)學和編程方面表現(xiàn)出色。