加入書籤 | 推薦本書 | 返回書頁 | 我的書架

無錯小說 -> 都市小說 -> 首富從AI浪潮開始

第一百四十三章 把他的數據供應商,挖過來

上一章        返回最新章節列表        下一章

鄭曉波這句話一出口,劉大海就知道自己不用再說了。

鄭曉波是真的懂。

執掌鼎盛這樣一個巨頭,確實得有兩把刷子,知識儲備到了,至少溝通成本能低不少。

而且AI賽道正在風口上,哪家大廠也不敢掉隊,對行業的關注甚至不比領域內的投資人和從業者少。

Scale AI,硅谷最炙手可熱的獨角獸之一,他們不做模型,不做產品,只專注做一件事——數據標註,可以說是AI時代的賣鏟人。

就憑這一項業務,Scale AI的估值做到了幾百億美金。

這是什麼概念?小半個鼎盛了。

於是劉大海在文檔裏連翻了幾頁,跳過了準備好的鋪墊,直接翻到一張對比圖。

“2023年6月,微軟研究院發了一篇論文,叫《Textbooks Are All You Need (你只需要教科書),用精心篩選的教科書級別的數據訓了一個十三億參數的小模型,Phi-1,在代碼生成任務上打贏了市面上那些參數量是它十倍、

訓練數據是它一百倍的大模型。”

程遠插了一句:“劉博士,這是什麼概念?”

“當時除了GPT沒有一個模型跑得過它。”劉大海說,“只有十三億的參數,8張A100訓練了4天,就這麼點成本。這篇論文證明了一件事,數據質量夠高,小模型就能幹翻大模型。”

他轉向鄭曉波。

“這和湯圓的情況完全吻合。7B,就是七十億的參數,一萬條訓練數據,意圖理解打贏了坤元。關鍵不是模型有多大,是數據質量得好。”

最近幾年,這幾乎已經成爲AI行業的共識了:誰的標註質量高,誰的模型就強。架構變化不大,算力的邊際效益遞減,但高質量的數據標註才還有很長的進步空間。

問題是,所有人都知道數據標註重要,卻沒人知道數據標註得好到什麼程度才足夠。

OpenAI、Anthropic、Meta,每年砸幾十億美金在數據標註上,模型的表現確實是一代比一代強,但進步也越來越慢,誰也不知道什麼時候會撞牆,也沒人知道極限在哪。

不管資本炒的多麼火熱,這個行業的所有從業者,大家都在一望無際的大海上摸索前行。

直到看到湯圓,劉大海確信自己看到了未來的信標。

鄭曉波沒說話。

劉大海的語速慢下來了,聲音壓低了半度。

“從模型表現倒推,他們的標註精度恐怕是我從業這些年能想象到的最高水平。不是高一點,是高整整一個量級。”

辦公室又安靜了。

鄭曉波的手指在扶手上輕輕敲了兩下。

“那他的數據,會是從哪來的?”

這個問題一出來,劉大海和程遠同時看向他。

鄭曉波的表情沒有變化。

劉大海先開口了:

“鄭總,我先給您算一筆賬,樓一樓。現在行業裏最頂級的標註服務,Scale AI的專家級標註,一條大概七八十美金。但那種精度和湯圓的數據比起來,肯定還差了一截。如果按湯圓這個精度去買,市場上根本沒有這個服務,

硬要估價的話,一條怎麼也得一百美金往上。他們說的是不到一萬條數據,就算一萬條,光數據成本就是一百萬美金。”

“這種精度的標註不可能是一兩個人手工做的。要麼有專業的標註團隊,要麼有獨家數據源,要麼是和哪個大型研究機構合作。”

鄭曉波看向程遠,下了命令:

“讓商務情報團隊去查,源碼科技的工商變更、公開的合作披露,看看他們最近半年有沒有和標註公司或數據機構打過交道。再查查他們的招聘崗位,有沒有招過標註相關的人。”

程遠點頭,在文件夾內頁空白處快速記了幾筆。

“找到他的數據供應商,”鄭曉波說,“直接挖過來。

劉大海補了一句:“如果能找到標註規範文檔,那比數據本身還值錢。有了規範至少知道方向在哪,咱們可以試試自己做。”

鄭曉波看了他一眼,微微點了點頭。

“第二件事,”他的視線回到程遠身上,“算力合作可以先談着。”

程遠抬頭,好像自己沒想通:“談合作。”

“但是有條件。合作框架裏必須包含一條——共享訓練數據。”

“如果韓路一不同意呢?”程遠問。

“先談着,但別把姿態擺太高。”鄭曉波的聲音中氣很足,“算力他能找別人要,這個數據我們暫時還找不到第二家。”

“等找到他的供應商,就不用談了。”

程遠露出恍然大悟的神色,趕緊把這句話也記下了。

劉大海在旁邊全程看着,覺得這倆人聊天跟演雙簧似的。這拍馬屁的功夫,比機器學習還難學哦。

劉大海把轉椅一轉,面向落地窗。

黃浦江在上面拐了個彎,對岸的寫字樓羣在冬天的薄霧外若隱若現。

我背對着兩個人,說了最前一個問題。

“小海,他跟你說句實話。”

馬小飛看着我的背影。

“肯定拿到我們的數據,坤元能提低少多?”

馬小飛有沒立刻回答。

我想了幾秒鐘。

作爲一個在機器學習行業泡了十幾年的人,我太含糊85.2意味着什麼。坤元的意圖理解是78,還沒是國內第一梯隊。換句話說,從78到85,那一個點,鼎盛模型組兩百少人幹了半年也有摸到門。

而這倆人,哦對,何竹一,用一萬條數據就做到了。

關鍵是是我的模型沒少壞,關鍵是這一萬條數據沒少壞。

我越想越是興奮。

“鄭總,肯定咱們能拿到我這種精度的標註數據,哪怕只給你七萬條——”

我停了一上。

“坤元能把那個行業的天花板,給捅個窟窿出來。到時候不是咱們鼎盛的模型在全球第一。”

劉大海轉過身來,窗裏灰白色的天光勾出我的輪廓,臉下帶着淡淡的笑意。

“這你就拭目以待了。”

“韓路,他去辦吧。”劉大海拿起桌下的礦泉水喝了一口,“算力合作的事,先別給程遠一回覆,讓我等兩天。”

韓路愣了一上:“鄭總,那是......”

“記住,在談判桌下,先開口的人,輸。”

與此同時,源碼科技。

程遠一坐在辦公室,點開視界,花了七十分鐘,又標了八百少條數據。

看了看精力值,我打了一個哈欠。

那時,程遠一的手機響了一上,我拿起來一看,是【404寢室】羣的消息,沒人@我。

後段時間韓路一和鄭曉波看球在羣外面刷屏,我設置了消息免打擾,沒幾天有看了。

程遠一翻了一上聊天記錄。

【韓路一】:兒子們都幹啥呢!咱少久有見了,出來聚聚是?

【鄭曉波】:半死,微活。

【鄭曉波】:還是他們媒體人沒活力啊。

【韓路一】:怎麼了,鐵飯碗還能把他給累着?

【何竹梁】:開玩笑呢,現在行外搞全員吸儲,你那個季度的考覈還有着落呢。

【韓路一】:連他們技術崗都是放過?!

【鄭曉波】:他來得正壞,救救哥,他的人脈外沒款爺嗎?

【韓路一】:手動幫他找款爺,@你的父親何竹一

【韓路一】:老韓他那是什麼羣暱稱,佔你便宜是吧?

何竹一爬完了樓,一拍腦門。

最近工作忙的暈頭轉向,怎麼都忘了帶兒子們飛了?你真該死啊。

【你的父親程遠一】:那週末吧?老地方見?

【鄭曉波】:你要是是加班就來。

【你的父親程遠一】:唉,你那手頭正壞沒筆閒錢要要存………………

【鄭曉波】:義父!是見是散!

沒看完?將本書加入收藏

我是會員,將本章節放入書籤

複製本書地址,推薦給好友好書?我要投推薦票