2023年11月6日,由創新工場董事長兼CEO李開復成立的AI公司“零一萬物”發布了首款開源中英雙語大模型“Yi”。與此同時,36氪從知情人士處獲悉,零一萬物已完成新一輪融資,由阿里云領投。目前,零一萬物估值已超10億美元,躋身獨角獸行列。
此前,“Yi”于11月2日已經在Hugging Face低調上傳了兩個參數規模分別為6B和34B的基礎模型。截至11月5日,Yi-34B分別在Hugging Face LLM Leaderboard(pretrained)(預訓練大語言模型)和中文大模型榜單C-Eval排行榜已經爬升到1位。
上下文窗口,意味著模型的“記憶力”。據介紹,Yi目前擁有200K上下文窗口,可處理約40萬字的文本——這也是目前全球大模型中最長的上下文窗口。
李開復提到,由于GPU緊缺,當模型尺寸從6B推向更大的尺寸時,團隊需要把握好規模減少試錯成本,不能一味追求“大”。通過打磨AI Infra,Yi-34B將訓練成本下降了40%,“別的友商如果要用2000張GPU,我們只要1200張?!?/p>
Yi的訓練數據主要來源于公開語料的爬取和數據庫。李開復介紹,訓練數據的難點在于重復率高、質量低。通過清晰,團隊從100多T的數據中篩選出了3T。由于中文語料的質量較低,目前,Yi的訓練數據中英文語料的比例高于中文語料。
那么Yi的能力究竟幾何?在測評中,零一萬物參考了Meta開源模型Llama2能力測評中所用到的PIQA、SIQA、HellaSwag、WinoGrande等多個數據集,來評估Yi的“常識推理能力”“閱讀理解能力”“數學與代碼能力”等多維度能力。
結果顯示,Yi-6B在常識推理能力和閱讀理解能力上達到了國內外開源模型的平均水平,但在數學與代碼能力上還較弱。Yi-34B在常識推理能力和閱讀理解能力上均大幅領先國內外開源模型,在數學與代碼能力上處于領先水平。
相較于市面上常見的參數規模7B、13B,零一萬物給出的是6B和34B的方案。李開復認為,34B的尺寸屬于開源大模型稀缺的“黃金比例”尺寸,達到“涌現”門檻、滿足精度要求的同時,對廠商而言能夠采用高效率單卡推理,訓練成本友好。
李開復坦言,在完成融資前,零一萬物為了覆蓋算力等訓練成本已經負債幾千萬美元。這也側面反映出李開復All in AI的決心。
作為零一萬物的發起人,李開復也可謂是中國人工智能的領軍人物之一。他曾先后擔任微軟全球副總裁、谷歌全球副總裁兼大中華區總裁,并在2009年創立了天使投資和企業孵化平臺創新工場。
2023年3月,李開復躬身入局大模型賽道,為籌建新公司零一萬物廣發“英雄帖”:“零一萬物歡迎有AI 2.0技術實力和AGI信仰的優秀人才加入,一起打造AI2.0全新平臺,加速AGI到來?!钡?月,零一萬物已有來自阿里、百度、谷歌、微軟等國內外公司的數十位核心成員到位。發布會上,李開復介紹,“(團隊)在6、7月份寫的第一行代碼?!?/p>
如今,零一萬物已經集結了國內外一批人工智能領域的大牛:
比如零一萬物AI Infra副總裁戴宗宏,曾是阿里達摩院機器智能技術資深算法專家,以及華為云人工智能領域CTO。在阿里期間,他構建了阿里巴巴搜索引擎平臺,后帶領團隊研發了圖像搜索應用拍立淘。
再比如,零一萬物預訓練負責人黃文灝來自智源人工智能研究院,曾擔任健康計算研究中心技術負責人。加入智源前,他曾任微軟亞洲研究院研究員,負責自然語言理解、實體抽取、對話理解以及人機協同等研究工作。加入零一萬物后,黃文灝團隊主要負責Yi的訓練。
李開復認為,AI 2.0時代,最大的商機將出現在To C/消費級的超級應用。他提到,互聯網時代的Super App微信和抖音的第一個版本并不是Super App,而是準確捕捉了用戶的需求。而零一萬物的目標是在AI 2.0時代再做一款微信、抖音。
具體到零一萬物的商業規劃,李開復告訴36氪,AI 1.0時代無法商業化的公司很早被淘汰,而商業化的公司的最大挑戰是能夠可持續、可增長——這意味著AI 1.0的不少公司需要人頭規模,不是高質量的收入。
他強調,收入的規?;粦撚萌祟^推動,而應該用技術推動?!耙源藶樵瓌t,零一萬物將朝著Consumer(消費級)應用發力?!笨紤]到國內用戶的付費意識和意愿尚在培養階段,零一萬物將同時考慮應用的本地化和出海。
目前,零一萬物已經啟動100B以上參數規模的模型訓練,而多模態大模型團隊已經集結了十多個人?!皫字苤畠任覀兙陀行碌陌l布和大家分享?!崩铋_復透露,“Yi”的定位是通用底座,同時,Yi系列量化版本、對話模型、數學模型、代碼模型、多模態模型將以快節奏推出。