
發布
注冊
/
登錄模型訓練的案例
Bert模型微調---產生自己的訓練數據模型
1 引言
盡管已經發展出許多預訓練模型,但正如過去試驗看到的一樣,這些預訓練模型還不能真正滿足我們巖土工程專業的需要,為了真正達到我們的目的,必須在預訓練模型的基礎上微調出我們自己的模型GeotechSet,之所以長時間沒有這樣做,其中一個主要原因是考慮到時間問題,以我目前的硬件配置,訓練出一個新的模型需要好幾個小時(下面例子的模型訓練用了大約50分鐘,訓練數據1.3M)。這個筆記簡要總結了微調模型的過程,檢驗了訓練出來的模型是否可用。
2 訓練模型
微調代碼保存在training_stsbenchmark.py中,訓練數據集保存在datasets文件夾內。
預訓練模型可以選擇任意的Transformers模型,例如Bert,RoBERTa,XLNet, XLM-R,DistilBERT等(bert-base-uncased, roberta-base, xlm-roberta-base,bert-base-cased)。
展開 用于圖像分類的頂級預訓練模型
亞歷克斯網
概述:AlexNet 由 Alex Krizhevsky 開發,是最早普及 CNN 在圖像分類中的使用的深度學習模型之一。
主要特點:
具有 8 層的簡單架構。
ReLU 激活函數和 dropout 正則化。
應用:通用圖像分類和歷史基準。
10. 視覺變形金剛 (ViT)
概述:Vision Transformers 由 Google 開發,將最初為 NLP 設計的 Transformer 架構應用于圖像分類。
主要特點:
Transformer 編碼器架構。
使用大型數據集和計算資源進行良好擴展。
應用:一般圖像分類和大規模視覺任務。
用于圖像分類的預訓練模型的優勢
減少訓練時間:預訓練模型顯著縮短了訓練時間。由于它們已經在大型數據集上進行了訓練,因此只需要針對特定任務進行微調。這種效率使開發人員能夠更快地部署模型。
提高準確性:這些模型已經在大量數據上進行了訓練,使它們能夠很好地泛化。因此,與從頭開始訓練的模型相比,它們通常在各種任務上實現更高的準確性。這將產生更可靠的圖像分類結果。
資源效率:使用預先訓練的模型可以減少對大型數據集和計算能力的需求。與訓練新模型相比,微調預訓練模型所需的資源更少,因此資源有限的組織更容易使用它。
用于圖像分類的預訓練模型的挑戰
適應性:微調預訓練模型以適應特定任務可能很復雜。并非所有模型都能很好地適應所有任務,有時需要進行大量調整才能實現最佳性能。
過擬合:存在過度擬合的風險,尤其是在對小型數據集進行微調時。
展開 語義相關的Doc2Vec模型訓練參數優化
,但模型訓練在很大程度上是一門藝術而不是科學,調參是模型訓練時必要步驟,會占用大量時間。
用Python控制Comsol自動運行方法(三):構建并訓練深度神經網絡代理模型
5.讀取csv文件數據來構建并訓練DNN模型
訓練后的DNN模型對E_vol和P_vol_ave的預測效果如下圖所示
訓練集(藍色點)和測試集(橘色點)基本都集中在理想預測線(紅色虛線:代表預測值等于實際值)附近,且R^2的值都在0.99以上,說明該模型具備比較優異的預測能力,可以作為一個合格的代理模型。
6.同一組參數下,Comsol計算的和DNN模型預測的Ragone圖對比
可以看出1C倍率以下,DNN預測的平均體積功率密度(P_vol_ave)與Comsol計算出來是有些差距的,而2C倍率以上DNN預測出來的結果與Comsol計算出來的重合得還是挺不錯的。
補充說明
本文展示的方法不僅僅局限于鋰離子電池模型,只需要在我這個案例的代碼基礎上稍作修改即可拓展到任何其他仿真領域代理模型的構建和訓練。為了方便代碼基礎比較薄弱的小伙伴根據自己的需求修改我的代碼,我錄制了一個視頻來詳細講解代碼的功能以及操作步驟。
文章付費 (請前往“鋰電芯動”公眾號)后即可獲得本文的Comsol模型、python代碼以及講解視頻如下:
展開 
成功案例丨開發時間從1小時縮短到3分鐘:如何利用歷史數據訓練AI模型,預測設計性能?
</p><p><br></p><p><br></p><p><strong>Altair解決方案</strong></p><p>Hero 選擇了Altair<sup>?</sup> PhysicsAI?,這是一項強大的幾何深度學習技術,能夠利用歷史數據訓練AI模型,并在傳統FEA方法所需時間的一小部分內生成物理預測結果。PhysicsAI的工作流程已無縫集成到仿真與設計平臺 Altair<sup>?</sup> HyperWorks<sup>?</sup>中,這使得Hero的所有用戶,無論技能水平如何,都能輕松將這一解決方案融入現有流程。</p><p><br></p><p>為了充分利用PhysicsAI,Hero首先將現有數據分為訓練集和測試集:訓練集用于基于歷史仿真數據訓練機器學習模型,測試集則用于評估和量化AI模型的預測準確性。由于Hero的產品線涵蓋多種車型(如運動型摩托車、探險摩托車、通勤摩托車和巡航車等),團隊使用了多樣化的把手數據集,以確保AI模型能夠生成準確的結果。</p><p><br></p><p>數據分割和模型訓練是AI驅動工程流程中的關鍵步驟。Hero采用了典型的80/20數據分割方式,即80%的數據用于模型訓練,20%的數據用于預測評估。項目團隊從24個數據集中選擇了30種把手變體進行訓練。訓練完成后,他們使用剩余的6個把手數據集對AI模型進行了測試,并通過將傳統FEA結果與AI生成的預測結果進行對比來評估準確性。對比顯示,兩者的偏差僅為3%,這證明了PhysicsAI能夠在極短時間內提供與傳統FEA相媲美的精確預測。
展開 閱讀理解回答問題(Question Answering)---一個更強的BERT預訓練模型
1 引言
在<Transformers之問題對答(Question Answering)>中, 使用了mrm8488/bert-multi-cased-finetuned-xquadv1數據集回答問題, 這個數據集是一個多語言預訓練模型: BERT(base-multilingual-cased) fine-tuned for multilingual Q&A. 并且使用了最簡單的管道pileline()調用方法. 就像我們已經看到的一樣, 這個模型得出的結果不理想, 因此本文探索了一個更高級的預訓練模型.
2 模型描述
本文的試驗模型采用了bert-large-uncased-whole-word-masking-finetuned-squad數據集作為問題回答模型。在默認狀態下, 這個模型保存在C:\Users\m\.cache\huggingface\transformers文件夾內. 該模型不區分字母的大小寫, 使用了屏蔽語言模擬masked language modeling (MLM) 目標對英語語言進行預訓練。可以在問題回答管道中使用它,或者使用它來輸出給定查詢和上下文的原始結果。BERT模型在BookCorpus上進行了預訓練,該數據集由11,038本未出版的書籍和英文維基百科組成(不包括列表、表格和標題)。
與其他BERT模型不同的是,這個模型使用了全詞屏蔽Whole Word Masking技術進行訓練。在這種情況下,一個詞所對應的所有標記(tokens)都會被一次性屏蔽掉, 而整體屏蔽率保持不變。訓練是相同的 -- 每個被屏蔽的WordPiece標記都是獨立預測的。在預訓練之后,這個模型在SQuAD數據集上用一個微調腳本進行了微調。
展開 不得已而為之---CPU下使用gpt2-large模型進行微調訓練
5 結束語
這個筆記簡要記錄了在現有條件下使用CPU微調gpt2-large的過程,這是一個不得已而采用的方法,與GPT2的訓練結果相比,生成文本的質量好很多,缺點是訓練需要大量時間。另外,實踐證明XLNet模型《自回歸式語言XLNet模型的文本生成試驗》在文本生成方面的結果不如gpt2好,即使進行了微調,結果也強差人意,因此決定放棄XLNet在文本生成方面的應用。
【DTEmpower案例操作教程】向導式建模
圖15 數據變換配置
7)模型配置
模型配置包括訓練測試集劃分、算法選擇、精度指標和優化配置4部分內容。本案例中的訓練測試集來自同一份數據集,因此數據集來源選擇基于同一數據集拆分,測試集占比配置為默認的25%。
圖16 訓練/測試集配置
訓練算法選擇默認的基礎線性回歸和梯度提升決策樹兩種算法,精度指標和優化配置都選用默認配置。配置完成之后點擊保存按鈕。
8)模型訓練和結果查看
建模流程配置完成之后點擊訓練按鈕,如圖17,即可開始模型的訓練。
圖1
7
開啟模型訓練
模型訓練完成之后,向導式建模會以圖表的形式向用戶展示模型的評價指標。如圖18展示了EQV1目標變量的建模評價結果,線性回歸模型的R2指標在0.2左右,而GBDT模型的R2指標在0.4左右,說明適合用非線性模型建立EQV1目標變量和輸入變量之間的映射關系。
圖18 查看建模結果
至此,已經完成了向導式建模的流程搭建和模型訓練,后續可通過優化配置等選項進一步提高模型精度。
DTEmpower更多詳細介紹及軟件試用,請點擊“DTEmpower - 智能數據建模軟件”,前往查閱。試用無需申請license,下載軟件安裝后可直接免費試用30天。
展開 智能駕駛的數據采集與測評解決方案
總結
目前自動駕駛的主流算法模型主要以有監督的深度學習方式為主,需要大量的結構化標注數據對模型進行訓練和調優。可見數據采集、標注在其中扮演了極為重要的角色。本文重點介紹了數據采集、標注的整個過程需求、方法、原則、類型要素及仿真場景重構等。數據采集流程包收集三大主要流程,其中涉及需求收集階段進行原始采集需求收集;數據獲取服務涉及數據獲取包含定制數據方案、人工數據采集、自動化數據采集、調研問卷收集幾大方面。數據加工服務涉及數據清洗、數據評估、數據提取、分析處理及標準化數據輸出。數據交付階段主要涉及將采集數據輸入至訓練模型進行智能學習過程。
在功能開發過程中,利用好數據采集、標注方法可以很好的提升場景重構、訓練能力,提升前期軟件開發性能。
展開 【DTEmpower案例操作教程】智能模型預警
圖14 添加數據分割節點
點擊開始,數據分割節點將原始數據集隨機分割為訓練集與測試集,具體分割比例可在節點配置中調整,如圖15所示。
圖
15 數據分割節點配置
8)模型訓練
將工具箱切換至回歸訓練,從中將BaggingDeFo節點拖拽至畫布中,并連接數據分割節點,如圖16所示。
圖16 添加模型訓練節點
在BaggingDeFo節點配置中,開啟交叉驗證。點擊開始,模型訓練結束后,可在左側資源樹中查看模型詳細信息。點擊頂部菜單欄模型處理中的線性擬合或誤差對比等,可觀察模型訓練效果,如圖17所示。
圖17 查看模型訓練效果
9)模型測試
將工具箱切換至模型操作,從中將模型對比節點拖拽至畫布中,并同時連接數據分割與BaggingDeFo節點,如圖18所示。
圖18 添加模型對比節點
點擊數據分割與模型對比之間的連線,在連線配置窗口中選擇編輯,將輸入值改為test_data并點擊確定,如圖19所示。
圖19 模型對比連線配置
點擊開始,運行結束后可查看模型測試結果,如圖20所示。
圖20
查看模型測試結果
10)模型測試
當確認得到滿意的模型訓練效果后,可以通過在資源樹的模型上點擊鼠標右鍵下載至本地磁盤中,如圖21所示。
圖21 下載模型
DTEmpower更多詳細介紹及軟件試用,請點擊“DTEmpower - 智能數據建模軟件”,前往查閱。試用無需申請license,下載軟件安裝后可直接免費試用30天。
展開 Cloudam云端,云上高性能算力平臺助力人工智能
隨著企業上云和數字化轉型升級的不斷深化,云計算在人工智能領域的重要作用日漸凸顯,許多人工智能模型訓練都需要高性能計算。CLOUDAM云端自主研發的云E算力平臺能夠為有算力需求的企業和個人用戶提供解決方案及算力服務。我們通過一個人工智能的案例來詳細介紹Cloudam云端,云E算力平臺是如何幫助用戶快速完成模型訓練的。
一、云上高性能算力平臺助力人工智能
某人工智能企業從事語音設備相關技術研發,因A輪融資后,隨著規模急劇擴張算力需求也隨之增加,所以企業急求一個靈活、彈性的HPC方案來滿足語音識別相關模型訓練。人工智能的計算和訓練往往會消耗大量計算機時和內存,用戶需要一個能使用大量GPU,能支持多卡任務,且同時要能支持AI常用框架的解決方案,如Notebook、Pytorch、Tensorflow及Kaldi等。
針對這個問題,云E算力平臺SaaS接入,用戶通過瀏覽器直接使用Notebook、Pytorch等即可觸發人工智能訓練任務,操作顯得十分簡單。同時,云E通過腳本夜間自動上傳脫敏后的訓練數據,這將會自動觸發訓練流程。全自動上傳可以充分利用帶寬,幫助用戶快速高效的上傳文件。此外,Cloudam云端與客戶簽訂數據安全及保密協議,云E平臺也會嚴格保障用戶輸入數據及計算結果的安全與私密性,給了用戶完美的安全保障。
這一方案獲得的顯著。該部署實現了支持多團隊、多任務并行的模型訓練,單模型最多時使用40張Nvidia V100 GPU,使得訓練周期比在用戶本地縮短了5倍以上,讓人工智能的訓練、研究更加高效。同時能讓客戶將很多研究型的訓練任務放入云端,通過大規模的并行計算來快速驗證結果,極大的提升了客戶的創新速度,完美助力了企業發展和創新。
展開 
基于深度學習的目標檢測算法面試必備(RCNN~YOLOv5)
【兩階段】和【多階段】目標檢測算法統稱級聯目標檢測算法,【多階段】目標檢測算法通過多次重復進行步驟:1)候選區域的獲取,2)候選區域分類和回歸,反復修正候選區域
根據是否屬于錨框分為:
1、Anchor-Free:
CornerNet
FCOS
TTFNet
YOLOv1(注意)
2、Anchor-based:
RetinaNet
YOLOv2-v5
PP-YOLO
SSD
主要考慮問題
1、準確性
2、實時性
3、多尺度
4、標簽方案
5、目標重疊
6、模型訓練
7、重復編碼
8、數據增強
9、樣本不平衡
兩階段目標檢測算法
RCNN
1、模型通過【選擇性搜索算法】獲取潛在的候選區域
2、截取原圖每個候選區域并resize輸入到模型中進行特征抽取
3、使用SVM進行分類,以及進行bounding box 回歸
存在問題:
重復編碼:由于候選區域存在重疊,模型需要重復進行重疊區域的特征圖提取,計算冗余
模型訓練:由于特征抽取模型和區域的分類回歸模型分開訓練,無法進行端到端的模型訓練,訓練過程需要提取每個包含重疊區域的候選區域特征并保存用于分類和回歸訓練
實時性差:重復編碼導致實時性不佳,【選擇性搜索算法】耗時嚴重
展開 CFD專欄丨基于幾何深度學習的車輛空氣動力學快速預測
SER算法并不訓練場值,僅從幾何形狀預測 KPI 值或曲線,優勢是訓練成本低,可用于汽車概念設計初期,對空氣動力學性能進行快速評估。
PhysicsAI 的三種算法對比
Similarity Score:定義預測模型的相似度,
為訓練集中2個參考樣本的差異度,d為待測模型和訓練集最接近樣本點的差異度。
Similarity Score=1表示待預測模型和訓練集中的其中一個模型剛好一樣;
Similarity Score=0表示待預測模型和訓練集的最接近程度和訓練集內2個參考樣本的差異度一樣;
Similarity Score<0表示待預測模型和訓練集的任何一個模型相似度很低。預測結果非常不可靠。
MAE:Mean Absolute Error 平均絕對誤差,用于評估機器學習預測的精度。較低的 MAE 表明預測更準確。
Transfer Learning:遷移學習是機器學習的一種策略,假設已經基于車型A的訓練集創建了深度模型,如將其直接用于預測車型B和車型C,可能會產生較大誤差。由于不同車型之間有些相似特征,例如A和B車型的前臉相似,A和C車型的車尾相似。可以通過增加樣本的方法,更新已有的模型,而無須從頭開始訓練,并提高深度學習的泛化能力。
展開 千尋馳觀測評:真正達到實用級別的北斗+AI道路智能巡檢
千尋位置行業解決方案專家何喆卿介紹,首先數據要達到一定的體量,這是應用的基礎,此外算力要能支持大規模的模型訓練,而后算法方面需要達到一定的精度。
“我們采集了不同城市、不同環境下的海量圖像數據,構建了百萬級別的樣本數據;除了聚焦于路面病害,針對交通標志牌、龍門架、護欄、攝像頭等目標,進行專門的模型訓練。”何喆卿表示。
目前千尋馳觀有效支持7種道路表面病害,24大類總計355種細分類道路基礎及附屬設施的模型訓練,支持目標的覆蓋率達到95%。在模型訓練完成后,同時測試了模型的泛化能力,并在不同的路況、環境中完成了初步驗證。
像素級目標還原 所見即所得
交通領域是實時動態的業務領域,尤其像高速公路場景,可能一秒就三十幾米。在這個時候,算法的精度至關重要。
相比于一般的AI道路巡檢系統,千尋馳觀將北斗高精度定位與計算機視覺技術融合,采集到的每幀畫面均賦予了高精度位置及時間信息,一方面使得識別目標的定位結果和不規則病害面積的計算結果更為精準,減少估算誤差;另一方面檢測對象精準的絕對位置坐標,可以與道路公里樁進行綁定,根據需求定制相應的業務報表,有效支撐養護運維。
經多地的實測驗證,千尋馳觀已實現了道路檢測目標車道級的位置估計、像素級的面積計算以及病害+路產“端側聯合”智能識別,召回率和準確率均優于90%。
基于技術優勢,千尋馳觀在減少誤檢、漏報,提升自動化采集的程度上實現了性能升級,但為了滿足行業的多重需求,綜合體驗,千尋馳觀的能力還不止于此。
數據自動融合去重 挑戰0漏檢0重檢
經實地檢驗,千尋位置技術人員發現,AI識別病害,在注重其準確性(不錯報)的同時亦需要將召回率(不漏報)也納入重要的模型評價指標。由于病害模型的不精準,會造成目標因大小位置的變化重復報告。
展開 基于機器學習的智能垃圾短信檢測超強系統
模型訓練通過 `Pipeline` 實現:
模型評估與可視化
訓練完成后,系統自動評估模型性能,并通過混淆矩陣進行可視化展示:
模型保存與批量預測
完成訓練后,系統自動保存模型,便于后續快速調用進行批量短信檢測:
系統優勢
高效準確:使用經典機器學習算法搭配優化的超參數,提供高效且準確的垃圾短信檢測能力。
靈活可配置:支持多種模型與文本向量化方式,用戶可自由調整超參數以適應不同數據集。
可視化支持:自動生成混淆矩陣與性能報告,幫助用戶直觀理解模型表現。
批量檢測:保存模型后可直接用于批量檢測,適用于企業短信網關或反欺詐系統。
易用性強:命令行友好,僅需一行命令即可完成訓練與預測。
應用場景
短信防騷擾服務:集成到手機或運營商平臺,自動過濾垃圾短信。
企業內部郵件過濾:可用于郵件服務器端的惡意郵件檢測。
智能客服系統:在客戶服務系統中識別潛在的惡意消息。
使用方法
安裝依賴
訓練模型
預測測試
模型保存與加載
訓練完成后,模型會自動保存為 `sms_spam_pipeline.pkl`,方便后續直接加載進行預測。
效果展示
在測試集上的混淆矩陣:
在測試集上的分類結果報告:
日志記錄與錯誤處理
系統自動記錄訓練過程,包括模型選擇、超參數、測試結果等。發生異常時自動記錄錯誤日志,方便后續排查問題。
總結
本智能垃圾短信檢測系統基于機器學習技術,具備高效準確的檢測能力、靈活的配置選項和直觀的可視化分析。
展開