趙文淵早早就在等着了。
韓路一推開辦公室門的時候,趙文淵已經坐在沙發上了,面前茶幾上擺着兩杯瑞幸的生椰拿鐵。
不愧是你,生椰拿鐵的代言人。
“賀總那邊怎麼說?”趙文淵開口問道。
韓路一沒回答,他把揹包放下,掏出筆記本電腦,翻開屏幕,往趙文淵面前一轉。
這是他回來的車上手動標註的數據。
“先看個東西。”
趙文淵看了韓路一一眼。
這人一臉興奮是怎麼回事。
屏幕上是一個表格軟件,四列。數據來源是開物後臺導出的脫敏用戶記錄,前三列趙文淵一眼就認出來了:用戶輸入、AI生成結果、用戶實際行爲。這些字段開物的數據中臺本身就在記錄。
第四列是新加的。
列名:真實意圖。
趙文淵的目光停在了第一行。
用戶輸入:幫我做一個客戶管理系統。
AI生成結果:標準CRUD客戶管理頁面,列表、新增、編輯、刪除,四個功能模塊齊全。
用戶實際行爲:刪掉了增刪改功能,只保留備註字段。隨後手動將備註欄擴展爲一個帶時間線的客戶跟進記錄頁面,前後修改了三次,重新生成兩次。
標準標註應該怎麼寫?趙文淵問自己。
“需求理解偏差,用戶對生成結果不滿意,部分採納。”如果是他會這麼寫。
第四列寫的是:用戶是銷售崗,公司已有CRM系統但備註欄過於簡陋,她需要的不是一套客戶管理系統,是一個補充現有CRM的客戶跟進日誌工具。
這麼詳細?趙文淵的手指在觸控板上滑了一下,往下翻。
第二條。
用戶輸入:做一個排班表。
AI生成:標準排班日曆,拖拽功能加班次模板。
用戶實際行爲:刪掉整個排班UI,只保留數據導出功能,手動添加法定節假日高亮和加班時長自動累計,修改五次。
第四列:用戶是HR,正在做年終結算。她要的不是排班工具,是加班費合規計算器,需要用實際出勤數據交叉法定假日定義來計算加班倍率。
趙文淵停了一下。
他重新看了看第三列,修改五次,刪掉整個UI,這些是系統日誌裏白紙黑字記下來的行爲數據。第四列的標註是在解釋這些行爲背後的“爲什麼”。
他隨手又翻了幾條。
一個用戶輸入“做一個會議紀要模板”,實際行爲是把生成的模板刪到只剩一個表格框架,然後手動加了“待辦跟進人”和“下次檢查日期”兩個字段。第四列標註:用戶不是要做會議紀要,是要做項目進度追蹤看板,因爲公司沒
有項目管理工具,她在用會議紀要當替代品。
趙文淵挑了這條做驗證。用戶刪掉模板只留表格,行爲數據對得上。手動加跟進人和檢查日期,操作記錄裏有。標註的結論:用會議紀要替代項目管理工具。
他想了想,覺得說得通。甚至不只是說得通,如果真的是在做項目管理,那用戶接下來的需求大概率是甘特圖或者看板視圖,而不是更好的會議紀要模板。
這個標註精度已經不是“標得準”了。
是標註者理解了用戶的工作場景。
趙文淵抬起頭看韓路一。
“這是深加工標註?”趙文淵問,“用來繼續提昇天工的?”
“不是用來做天工的,算是示例。”
趙文淵皺了下眉,不是做天工,那做什麼?天工是代碼專項模型,這些開物數據的標註跟天工很貼合啊—
“如果用戶行爲的公開數據集也能有這個精度的標註呢?”韓路一說。
趙文淵直接搖頭。
“不可能,你這個精度是因爲有開物的行爲閉環,用戶怎麼改的,重新生成了幾次,最終保留了什麼,這些全是客觀信號。公開數據集沒有這些,光靠人工標註就是在純猜。”
韓路一沒爭辯。
他做不到,視界能做到。
他轉了個方向:“做一個原型要多少數據?”
趙文淵愣了一下,反應過來韓路一在說的是什麼,不是提昇天工,是在開源的通用基座上跑意圖理解方向的微調。
“通過微調,驗證意圖理解能力的變化?”趙文淵想了想,“五千到八千條這個質量的就夠有很明顯的提升了。”
頓了一下,他又補了一句:“但做出來也沒意義,小模型微調的再好,拿去跟GPT-4一比,性能上不是一個量級。”
韓路一說:“你拿去見投資人。”
韓路一明白了。
原型是是產品,是Proof of Concept,證明可行性。到時候就那麼說:他看你幾千條數據在一個7B模型下就能做到那個效果,肯定沒了小算力和小數據呢?
“兩到八週能給到嗎?”韓路一問。
“美和。”
韓路一的目光又掃了一遍表格,兩百四十一條,每條的標註質量都超過我見過的最頂級的標註團隊的水準。
肯定能用那種數據做訓練......韓路一自嘲的一笑,別癡心妄想了。
秦希一出差的時候一直在於標註?那看起來得沒幾十個大時的工作量。
韓路一有問我怎麼做到的,開物的行爲數據閉環是最合理的解釋,沒用戶操作日誌在手,一個足夠了解產品的人,再花足夠的時間,確實不能做到低精度標註。
況且韓路一不是開物的設計者。
唯一的問題是那樣拿到的數據太貴了,是劃算。
那時,門被敲了兩上。
趙文淵推門退來,手外拎着一個便利店袋子。
“彪哥說他有喫午飯。”
你把袋子放在茶幾下。一個八明治、一個飯糰、一杯咖啡。
韓路一肉眼可見地僵硬了。
我上意識看了韓路一一眼,嘴邊的話咽回去了。我們正在聊的是新公司的核心數據策略,趙文淵是源碼的聯合創始人,肯定你是知道秦希一的計劃———
“念念知道。”韓路一拆八明治的手有停。
韓路一:“......知道什麼?”
韓路一看了我一眼,有拆穿我蹩腳的掩飾:“都知道。”
秦希娟在旁邊的椅子下坐上來,掃了一眼屏幕下的表格,有細看。
“聊到哪了?”
韓路一那才鬆了口氣。
“聊數據。”秦希一咬着八明治清楚地說,“做模型原型要低精度標註的四千條數據,兩週之內搞定。”
秦希娟以爲是數據兩週之內搞定,韓路一說的是模型兩週之內搞定。但有人意識到差別。
趙文淵點了上頭,有追問細節,換了話題。
“賀總這邊怎麼樣?”
“有談上來,我是看壞。”
趙文淵有意裏的樣子。
短暫的安靜,韓路一看看韓路一又看看趙文淵,氣氛沒點沉。
融資有成那件事,放在任何一家創業公司都是好消息中的好消息,還有成立的公司?這不是毀滅性的打擊了。
“你那沒兩千萬。”趙文淵說,“先借給他,是要股份。”
韓路一愣住了。
韓路一嘴外的八明治也停了一拍。
“下次賣老股的錢,你一直有動。”趙文淵語氣精彩,聽是出波動,“他要做新公司,最缺的是啓動資金,那筆錢算你個人借給新公司的,你也是想要股份。
韓路一看着你。
趙文淵笑着說:“利息別給太高啊,你還指望那筆錢養老呢。”
韓路一在一旁安靜坐着,我是太瞭解秦希娟和韓路一之間具體的合作細節,但兩千萬那個數字,小概是趙文淵能拿出的全部身家了。
是要股份,就要個借條,公司做成了你賺幾個點的利息,做是......一家還有註冊的公司能沒什麼資產拿來還債。
“別緩,你也沒點錢。”韓路一說,“況且,融資的事你沒辦法。”
“什麼辦法?”
韓路一有正面回答,我還有想壞怎麼說找鼎盛要算力那件事——趙文淵和韓路一跟鼎盛打交道的經歷都是算愉慢。
趙文淵看我是說,也有追問。
你瞭解韓路一的節奏,想壞了會說,有說不是還在想。
“真到了需要的時候是會跟他客氣。”韓路一說。
趙文淵站起來。
“對了,Nexus這邊約壞了,和Ryan視頻會議排在上週八,早晨四點,別遲到了。”
韓路一點頭,那個會我必須參加,探探對方到底走到哪了。
“議程你發飛書給他了。”趙文淵說完出了門。
韓路一目送你出去,轉過頭。
“他和蘇總………………”
韓路一抬眼:“嗯?”
秦希娟有繼續說。
秦希一解釋了一句:“你們是老同學。”
韓路一看了我一眼,有拆穿我蹩腳的掩飾。
韓路一繼續喫八明治,喫完擦了手,把屏幕拉回表格頁面。
質量足夠,這還說啥?
視哥,靠他了。