
發(fā)布
注冊
/
登錄大模型訓練
關注創(chuàng)建者:匿名 創(chuàng)建時間:2026-01-04

大模型訓練的實例教程
1 引言
盡管已經發(fā)展出許多預訓練模型,但正如過去試驗看到的一樣,這些預訓練模型還不能真正滿足我們巖土工程專業(yè)的需要,為了真正達到我們的目的,必須在預訓練模型的基礎上微調出我們自己的模型GeotechSet,之所以長時間沒有這樣做,其中一個主要原因是考慮到時間問題,以我目前的硬件配置,訓練出一個新的模型需要好幾個小時(下面例子的模型訓練用了大約50分鐘,訓練數(shù)據1.3M)。這個筆記簡要總結了微調模型的過程,檢驗了訓練出來的模型是否可用。
2 訓練模型
微調代碼保存在training_stsbenchmark.py中,訓練數(shù)據集保存在datasets文件夾內。
預訓練模型可以選擇任意的Transformers模型,例如Bert,RoBERTa,XLNet, XLM-R,DistilBERT等(bert-base-uncased, roberta-base, xlm-roberta-base,bert-base-cased)。
展開 在這個過程中無論是訓練樣本還是測試樣本都得到了盡可能多的學習。
交叉驗證法的缺點就是,當數(shù)據集比較大時,訓練模型的開銷較大。
自助法
給定包含m個樣本的數(shù)據集D,我們對它進行采樣產生數(shù)據集D’:每次從D中挑選一個樣本,將其放入D’,然后再將該樣本放回初始數(shù)據集D中;這個過程重復執(zhí)行m次后,我們就得到了包含m個樣本的數(shù)據集D’
即通過自助采樣,初始數(shù)據集D中約有36.8%的樣本未出現(xiàn)在采樣集D′里。于是 ,實際評估的模型與期望評估的模型都是使用m個樣本,而我們仍有數(shù)據總量約1/3的沒在訓練集出現(xiàn)過的樣本用于測試。
自助法在數(shù)據集較小、難以有效劃分訓練/測試集時比較有用。然而自助法產生的測試集改變了初始數(shù)據集的分布,這會引入誤差。
因此在數(shù)據集比較大時,采用留出法和交叉驗證法較好。
神經網絡在網絡結構確定的情況下,有兩部分影響模型最終的性能,一是普通參數(shù)(比如權重w和偏置b),另一個是超參數(shù)(例如學習率,網絡層數(shù))。普通參數(shù)我們在訓練集上進行訓練,超參數(shù)我們一般人工指定(比較不同超參數(shù)的模型在驗證集上的性能)。那為什么我們不像普通參數(shù)一樣在訓練集上訓練超參數(shù)呢?(花書給出了解答)一是超參數(shù)一般難以優(yōu)化(無法像普通參數(shù)一樣通過梯度下降的方式進行優(yōu)化)。二是超參數(shù)很多時候不適合在訓練集上進行訓練,例如:如果在訓練集上訓練能控制模型容量的超參數(shù),這些超參數(shù)總會被訓練成使得模型容量最大的參數(shù)(因為模型容量越大,訓練誤差越小),所以訓練集上訓練超參數(shù)的結果就是模型絕對過擬合。
正因為超參數(shù)無法在訓練集上進行訓練,因此我們單獨設立了一個驗證集,用于選擇(人工訓練)最優(yōu)的超參數(shù)。因為驗證集是用于選擇超參數(shù)的,因此驗證集和訓練集是獨立不重疊的。
展開 ,但模型訓練在很大程度上是一門藝術而不是科學,調參是模型訓練時必要步驟,會占用大量時間。
亞歷克斯網
概述:AlexNet 由 Alex Krizhevsky 開發(fā),是最早普及 CNN 在圖像分類中的使用的深度學習模型之一。
主要特點:
具有 8 層的簡單架構。
ReLU 激活函數(shù)和 dropout 正則化。
應用:通用圖像分類和歷史基準。
10. 視覺變形金剛 (ViT)
概述:Vision Transformers 由 Google 開發(fā),將最初為 NLP 設計的 Transformer 架構應用于圖像分類。
主要特點:
Transformer 編碼器架構。
使用大型數(shù)據集和計算資源進行良好擴展。
應用:一般圖像分類和大規(guī)模視覺任務。
用于圖像分類的預訓練模型的優(yōu)勢
減少訓練時間:預訓練模型顯著縮短了訓練時間。由于它們已經在大型數(shù)據集上進行了訓練,因此只需要針對特定任務進行微調。這種效率使開發(fā)人員能夠更快地部署模型。
提高準確性:這些模型已經在大量數(shù)據上進行了訓練,使它們能夠很好地泛化。因此,與從頭開始訓練的模型相比,它們通常在各種任務上實現(xiàn)更高的準確性。這將產生更可靠的圖像分類結果。
資源效率:使用預先訓練的模型可以減少對大型數(shù)據集和計算能力的需求。與訓練新模型相比,微調預訓練模型所需的資源更少,因此資源有限的組織更容易使用它。
用于圖像分類的預訓練模型的挑戰(zhàn)
適應性:微調預訓練模型以適應特定任務可能很復雜。并非所有模型都能很好地適應所有任務,有時需要進行大量調整才能實現(xiàn)最佳性能。
過擬合:存在過度擬合的風險,尤其是在對小型數(shù)據集進行微調時。
展開 訓練設置與gpt2的訓練設置相同,仍然使用run_language_modeling.py,增大了下面參數(shù)的設置:
per_device_train_batch_size=8dataloader_num_workers=16block_size=256
訓練文本使用了401k的小數(shù)據集,運行參數(shù)如下:
Num examples = 403Num Epochs = 2Instantaneous batch size per device = 8Total train batch size (w. parallel, distributed & accumulation) = 8Gradient Accumulation steps = 1Total optimization steps = 102
CPU的占用率
內存的占用率
這個訓練共用了1小時26分鐘,生成的模型如下所示,大約3.1G。作為對比,同樣的數(shù)據在GPT2上訓練,產生的模型只有498M。有兩個原因導致了運行時間這么長,一個原因是使用了gpt2-large大模型,另一個原因是使用了CPU訓練,隨著訓練數(shù)據的增加,訓練時間還會更長。
4 使用新模型
當新的模型建立后,轉到GPU環(huán)境下(mwu-transformer)運行geotech-gpt2-finetune.py,這樣做可能稍微快點兒。使用“step-path failure in a rock slope”作為引導句,生成的文本摘要總結如下(省略)。
展開 
大模型訓練的相關專題、標簽、搜索
大模型訓練的最新內容
相關機型 UltraLAB A330
方案B:科研團隊/工業(yè)設計 — 大規(guī)模代理模型訓練工作站
適用場景:多物理場耦合代理模型(電-熱-力-流)、大規(guī)模DOE(500~5000點)、不確定性量化(GP/PCE)、仿真App商業(yè)化部署前驗證。
3月20日,新思科技芯課程AI系列主題第三講即將推出:「基于大語言模型的VC SpyGlass Lint Advisor流程與應用」,將介紹GenAI技術和傳統(tǒng)Lint流程相結合的新技術--VC SpyGlass Lint Advisor。該技術不僅能理解Lint報錯的原因并提供精準的代碼修復建議,還能通過自然語言描述來滿足定制化Lint檢查的需求;另外它還能通過自然語言描述直接生成期望的waiver
當大模型突破多模態(tài)感知與復雜推理瓶頸,具身智能正從“執(zhí)行工具”進化為“自主智能體”——大模型作為核心“大腦”,為機器人賦予環(huán)境理解、自然交互與自主決策能力,徹底重構技術創(chuàng)新邏輯,開啟“認知智能+物理執(zhí)行”的全新產業(yè)周期。定于2026年6月10日-12日在北京舉辦的“2026北京人工智能展會-世亞智博會”,精準錨定這一技術融合趨勢,以“大模型賦能·機器人進化”為核心,打造亞洲頂級的融合技術發(fā)布與生態(tài)協(xié)同高地
聚焦展示產品
聚焦展示服務器、私有化部署、沉浸式液冷、便攜式存儲設備、算力運維、邊緣計算、冷板式液冷、AI大模型訓練平臺、分布式存儲解決方案、混合存儲系統(tǒng)、全閃存陣列等前沿領域熱門產品。
近年來,人工智能領域迎來了一場深刻的技術范式變革。隨著大模型在多模態(tài)感知與復雜推理能力上的突破性進展,具身智能正從簡單的"執(zhí)行工具"向具備自主決策能力的"智能體"進化。這一轉變不僅重新定義了機器人的能力邊界,更徹底重構了人工智能技術創(chuàng)新的底層邏輯,推動產業(yè)進入"認知智能+物理執(zhí)行"深度融合的全新周期。
技術突破:從感知到決策的跨越式發(fā)展
當前,大模型技術已經突破了傳統(tǒng)AI的局限,展現(xiàn)出前所未有的多模態(tài)理解能力
與此同時,百度飛槳、華為昇思等國產AI框架也將展示其在多模態(tài)大模型訓練方面的突破性進展,這些技術正在重塑全球AI產業(yè)格局。
機器人展區(qū)無疑是本屆展會最具人氣的板塊之一。來自日本、德國、美國等機器人強國的企業(yè)將同臺競技,展示工業(yè)機器人、服務機器人、特種機器人等領域的最新成果。
百度、商湯科技等AI龍頭企業(yè)已確認參展,將帶來大模型訓練、邊緣計算等最新解決方案。展會期間還將舉辦"AI算力高峰論壇",邀請國內外專家探討算力基礎設施建設如何支撐數(shù)字經濟高質量發(fā)展。
全國特種電子元器件館將集中展示應用于航空航天、軍工、醫(yī)療等高端領域的電子元器件。這個展館的特色在于設立了"國產替代成果展區(qū)",系統(tǒng)呈現(xiàn)我國在高端電子元器件領域突破"卡脖子"技術的進展。
6.根據應用場景選擇 AI 工具
總結一下,根據應用場景選擇工具:若需場值預測,可使用 PhysicsAI,訓練成本取決于樣本數(shù)量和網格規(guī)模,可能需幾小時到幾天,大模型訓練 GPU 加速效果顯著;若需時間歷程預測,如溫度變化,力的變化曲線等等,可使用 romAI,且訓練好的降價模型 FMU 文件可部署在系統(tǒng)級仿真模型中進行快速預測。
更多精彩內容,請關注“鋰電芯動”公眾號
引言
在科學計算領域,COMSOL Multiphysics是一款強大的仿真軟件,能夠解決復雜的物理場問題。然而,其仿真過程往往需要大量計算資源和時間。為了提高效率,可以使用Python控制COMSOL,結合深度神經網絡(DNN)構建代理模型。
具體而言,Python腳本可以自動化COMSOL的仿真流程,生成訓練數(shù)據集。這些數(shù)據包括輸入參數(shù)(如幾何尺寸
當Stable Diffusion的GPU集群在深夜進入休眠狀態(tài),而某AI創(chuàng)業(yè)公司的推理算力需求卻暴漲300%時,CIO張總盯著監(jiān)控屏上的算力曲線,終于意識到:傳統(tǒng)許可證管理模式在AI大模型時代已瀕臨崩潰。這種矛盾背后,折射出整個軟件行業(yè)正在經歷的深層變革——在算力需求呈現(xiàn)脈沖式增長的今天,靜態(tài)的許可證分配方式正遭遇前所未有的挑戰(zhàn)。
一、彈性算力需求下的管理困境
在深圳某AI產業(yè)園,一場由算力分配引發(fā)的