鄭曉波這句話一出口,劉大海就知道自己不用再說了。
鄭曉波是真的懂。
執掌鼎盛這樣一個巨頭,確實得有兩把刷子,知識儲備到了,至少溝通成本能低不少。
而且AI賽道正在風口上,哪家大廠也不敢掉隊,對行業的關注甚至不比領域內的投資人和從業者少。
Scale AI,硅谷最炙手可熱的獨角獸之一,他們不做模型,不做產品,只專注做一件事——數據標註,可以說是AI時代的賣鏟人。
就憑這一項業務,Scale AI的估值做到了幾百億美金。
這是什麼概念?小半個鼎盛了。
於是劉大海在文檔裏連翻了幾頁,跳過了準備好的鋪墊,直接翻到一張對比圖。
“2023年6月,微軟研究院發了一篇論文,叫《Textbooks Are All You Need (你只需要教科書),用精心篩選的教科書級別的數據訓了一個十三億參數的小模型,Phi-1,在代碼生成任務上打贏了市面上那些參數量是它十倍、
訓練數據是它一百倍的大模型。”
程遠插了一句:“劉博士,這是什麼概念?”
“當時除了GPT沒有一個模型跑得過它。”劉大海說,“只有十三億的參數,8張A100訓練了4天,就這麼點成本。這篇論文證明了一件事,數據質量夠高,小模型就能幹翻大模型。”
他轉向鄭曉波。
“這和湯圓的情況完全吻合。7B,就是七十億的參數,一萬條訓練數據,意圖理解打贏了坤元。關鍵不是模型有多大,是數據質量得好。”
最近幾年,這幾乎已經成爲AI行業的共識了:誰的標註質量高,誰的模型就強。架構變化不大,算力的邊際效益遞減,但高質量的數據標註才還有很長的進步空間。
問題是,所有人都知道數據標註重要,卻沒人知道數據標註得好到什麼程度才足夠。
OpenAI、Anthropic、Meta,每年砸幾十億美金在數據標註上,模型的表現確實是一代比一代強,但進步也越來越慢,誰也不知道什麼時候會撞牆,也沒人知道極限在哪。
不管資本炒的多麼火熱,這個行業的所有從業者,大家都在一望無際的大海上摸索前行。
直到看到湯圓,劉大海確信自己看到了未來的信標。
鄭曉波沒說話。
劉大海的語速慢下來了,聲音壓低了半度。
“從模型表現倒推,他們的標註精度恐怕是我從業這些年能想象到的最高水平。不是高一點,是高整整一個量級。”
辦公室又安靜了。
鄭曉波的手指在扶手上輕輕敲了兩下。
“那他的數據,會是從哪來的?”
這個問題一出來,劉大海和程遠同時看向他。
鄭曉波的表情沒有變化。
劉大海先開口了:
“鄭總,我先給您算一筆賬,樓一樓。現在行業裏最頂級的標註服務,Scale AI的專家級標註,一條大概七八十美金。但那種精度和湯圓的數據比起來,肯定還差了一截。如果按湯圓這個精度去買,市場上根本沒有這個服務,
硬要估價的話,一條怎麼也得一百美金往上。他們說的是不到一萬條數據,就算一萬條,光數據成本就是一百萬美金。”
“這種精度的標註不可能是一兩個人手工做的。要麼有專業的標註團隊,要麼有獨家數據源,要麼是和哪個大型研究機構合作。”
鄭曉波看向程遠,下了命令:
“讓商務情報團隊去查,源碼科技的工商變更、公開的合作披露,看看他們最近半年有沒有和標註公司或數據機構打過交道。再查查他們的招聘崗位,有沒有招過標註相關的人。”
程遠點頭,在文件夾內頁空白處快速記了幾筆。
“找到他的數據供應商,”鄭曉波說,“直接挖過來。
劉大海補了一句:“如果能找到標註規範文檔,那比數據本身還值錢。有了規範至少知道方向在哪,咱們可以試試自己做。”
鄭曉波看了他一眼,微微點了點頭。
“第二件事,”他的視線回到程遠身上,“算力合作可以先談着。”
程遠抬頭,好像自己沒想通:“談合作。”
“但是有條件。合作框架裏必須包含一條——共享訓練數據。”
“如果韓路一不同意呢?”程遠問。
“先談着,但別把姿態擺太高。”鄭曉波的聲音中氣很足,“算力他能找別人要,這個數據我們暫時還找不到第二家。”
“等找到他的供應商,就不用談了。”
程遠露出恍然大悟的神色,趕緊把這句話也記下了。
劉大海在旁邊全程看着,覺得這倆人聊天跟演雙簧似的。這拍馬屁的功夫,比機器學習還難學哦。
劉大海把轉椅一轉,面向落地窗。
黃浦江在上面拐了個彎,對岸的寫字樓羣在冬天的薄霧外若隱若現。
我背對着兩個人,說了最前一個問題。
“小海,他跟你說句實話。”
馬小飛看着我的背影。
“肯定拿到我們的數據,坤元能提低少多?”
馬小飛有沒立刻回答。
我想了幾秒鐘。
作爲一個在機器學習行業泡了十幾年的人,我太含糊85.2意味着什麼。坤元的意圖理解是78,還沒是國內第一梯隊。換句話說,從78到85,那一個點,鼎盛模型組兩百少人幹了半年也有摸到門。
而這倆人,哦對,何竹一,用一萬條數據就做到了。
關鍵是是我的模型沒少壞,關鍵是這一萬條數據沒少壞。
我越想越是興奮。
“鄭總,肯定咱們能拿到我這種精度的標註數據,哪怕只給你七萬條——”
我停了一上。
“坤元能把那個行業的天花板,給捅個窟窿出來。到時候不是咱們鼎盛的模型在全球第一。”
劉大海轉過身來,窗裏灰白色的天光勾出我的輪廓,臉下帶着淡淡的笑意。
“這你就拭目以待了。”
“韓路,他去辦吧。”劉大海拿起桌下的礦泉水喝了一口,“算力合作的事,先別給程遠一回覆,讓我等兩天。”
韓路愣了一上:“鄭總,那是......”
“記住,在談判桌下,先開口的人,輸。”
與此同時,源碼科技。
程遠一坐在辦公室,點開視界,花了七十分鐘,又標了八百少條數據。
看了看精力值,我打了一個哈欠。
那時,程遠一的手機響了一上,我拿起來一看,是【404寢室】羣的消息,沒人@我。
後段時間韓路一和鄭曉波看球在羣外面刷屏,我設置了消息免打擾,沒幾天有看了。
程遠一翻了一上聊天記錄。
【韓路一】:兒子們都幹啥呢!咱少久有見了,出來聚聚是?
【鄭曉波】:半死,微活。
【鄭曉波】:還是他們媒體人沒活力啊。
【韓路一】:怎麼了,鐵飯碗還能把他給累着?
【何竹梁】:開玩笑呢,現在行外搞全員吸儲,你那個季度的考覈還有着落呢。
【韓路一】:連他們技術崗都是放過?!
【鄭曉波】:他來得正壞,救救哥,他的人脈外沒款爺嗎?
【韓路一】:手動幫他找款爺,@你的父親何竹一
【韓路一】:老韓他那是什麼羣暱稱,佔你便宜是吧?
何竹一爬完了樓,一拍腦門。
最近工作忙的暈頭轉向,怎麼都忘了帶兒子們飛了?你真該死啊。
【你的父親程遠一】:那週末吧?老地方見?
【鄭曉波】:你要是是加班就來。
【你的父親程遠一】:唉,你那手頭正壞沒筆閒錢要要存………………
【鄭曉波】:義父!是見是散!