
發布
注冊
/
登錄自動翻譯的案例
數據分析與AI|面對 RapidMiner 一萬多行漢化翻譯難題:中國工程師如何直接實現自動翻譯?
為了能讓國內客戶有更好的使用體驗,中國工程師們通常會被要求將產品中成千上萬的英文進行漢化翻譯,這讓工程師們倍感壓力。
Altair? RapidMiner? 作為廣受歡迎的數據分析與人工智能平臺,經常面臨產品更新需求。每次需要對RapidMiner 進行更新,外國同事一句“Can you localize it into Chinese?”, 就會讓中國工程師開始心跳加速、頭皮發麻。
RapidMiner 產品里有上百個模塊、成千上萬個參數說明,難道都要人工一點點復制翻譯?別鬧了,數據科學家們都快笑出聲:“我們搞 AI 的,翻譯還手動?”
好在我們用的是 RapidMiner,這才是今天的主角。
無需寫代碼,RapidMiner模塊就能自動翻譯
RapidMiner 的強大之處不止是自動建模、數據清洗,而在于——你可以像搭積木一樣連接模型服務,哪怕是如自然語言處理、翻譯、多語言文本生成等復雜場景,RapidMiner 也能優雅解決。
比如現在,我們只需拖幾個模塊,連上翻譯模型,就能批量把英文界面秒變中文。
模塊名稱、說明文字、提示語句,通通自動翻譯,中國工程師用國內網站即可輕松實現。
怎么實現的?只需要3個模塊 + 1個模型:
1. “Read Excel”模塊:讀取英文模塊信息
2. “Translation”模塊:直接接入翻譯模型,(有條件的可以直連HuggingFace)
3. “Write Excel”模塊:輸出中文版本文檔,直接寫進表格
整個流程全程可視化配置,0 行代碼,每個動作都可追溯、調試、復用,實現真正的企業級翻譯流程自動化。
一萬多行待翻譯文檔,放那不管,讓它跑。跑完結果如下圖,整體翻譯效果是比較理想的!
展開 python3.8批量自動翻譯英文文件夾和文件名 ¥6
原始文件
翻譯后
AI 中的機器翻譯
?
語言的機器翻譯是指使用人工智能 (AI) 和機器學習算法自動將文本或語音從一種語言翻譯成另一種語言。這項技術經過多年的發展,并且變得越來越復雜,能夠為多種語言提供準確的翻譯。本文探討了更多關于機器翻譯的信息,我們為什么需要它及其應用。
目錄
什么是機器翻譯?
機器翻譯的主要方法有哪些?
為什么我們需要 NLP 中的機器翻譯?
機器翻譯有什么應用?
人工翻譯可以被 AI 取代嗎?
?
什么是機器翻譯?
是計算語言學的一個子領域,專注于開發能夠自動將文本或語音從一種語言翻譯成另一種語言的系統。在自然語言處理 (NLP) 中,機器翻譯的目標是生成不僅語法正確而且準確傳達原始內容含義的翻譯。
?
編輯
機器翻譯模型
機器翻譯的歷史
將文本從一種自然語言(源)自動翻譯成另一種自然語言稱為機器翻譯(目標)。它是最早被想象的計算機應用程序之一(Weaver,1949 年)。
過去,機器翻譯有三種主要用途:
粗略的翻譯,例如免費互聯網服務提供的翻譯,傳達了外國聲明或文件的“要點”,但充斥著不準確之處。公司利用預先編輯的翻譯以多種語言發布文檔和銷售材料。
原始源內容是用有限的語言編寫的,這使得機器翻譯更容易,并且輸出通常由一個人編輯以糾正任何缺陷。
受限來源翻譯是完全自動化的,但僅適用于高度刻板的語言,例如天氣預報。
展開 JDI|12.3吋透明顯示屏R?lclear量產出貨!透光率高達84%
與其它透明屏比較(圖片來源:JDI官網)
R?lclear的主要用途是實時轉錄和自動翻譯等的面對面交流。不過,由于還沒有專用的應用程序,因此只能嘗試顯示視頻站點的視頻和文本。
展示視頻中最引人注目的是“水族箱”的影像。雖然是魚在水族箱里游這樣最簡單的影像,但是因為能看到玻璃另一邊的圖像,所以感覺極為自然。
水族箱影像(圖片來源:日經科技)
另外,顯示屏對面通透可見,所以比起在普通的顯示屏或投影儀上顯示,讓人真切感受到了立體效果。現場音樂視頻和音樂視頻等作品也是如此,雖然實際上無法立體觀看,但會感到有一種立體縱深感。
室內裝潢和設計家用電器等需要強調透明度的顯示屏的產品,可能成為 R?lclear 的用途之一。
翻轉文字,可讓對面一側看到
經過實際確認該顯示屏的雙面視圖,從任意一側觀看時,圖像的亮度沒有差異。在像觀看水族箱這樣的圖像中,不會注意到顯示的圖像是倒置的。
相反,在顯示文本時,從背面看時,字符會出現反轉。如果突出顯示要從背面閱讀的文本的話,則可以從任意一側閱讀。
R?lclear顯示屏透光率高,即使透明顯示屏的另一側有人,也可以看清面部表情,因此隔著顯示屏交流也沒有太大的不便。
隔著普通的顯示屏,一邊看對方的目光一邊交流是很困難的,但透明顯示屏的話,可以在看到對方的同時看到文字信息。由于透光率高,即使透過透明顯示屏也能看到對方的面部表情。
可以通過反轉文本顯示,來從背面閱讀。 上圖:從正面看,下圖:從背面看(圖片來源:日經科技)
通過利用正反雙面視圖,JDI將推動 R?lclear在以交流為中心的發展。例如,通過為聽覺障礙者顯示文字或者為外國人提供自動翻譯來輔助對話。
展開 
工業產品的全球化進程加速了提供產品語言版本的多樣化!
通過后臺系統 可以自動翻譯成不同語言,為來自不同國家的各地同事帶來了便利。
科大訊飛的“人機耦合說”真的說清楚了嗎?背后究竟隱藏了什么?
2018 年 9 月 20 日,科大訊飛被指責在 2018 創新與新興產業發展國際會議上所使用的“智能翻譯”系統造假,其顯示的中文翻譯,并不是根據其傳感器采集的聲音文件所呼應的,而是后臺兩位同傳譯員臨場實時翻譯后,再由機器讀出來的。
而科大訊飛則在 9 月 21 日回應稱,該企業主要為主辦方提供兩種翻譯方案:一、直接由機器離線翻譯,現場全自動翻譯并同步展示在屏幕上,沒有任何人工同傳參與;二、直接轉寫同傳語音,并且為同傳語音打上字幕,直播提供中英文對照的字幕。
科大訊飛認為,第二項業務是人機耦合,可以降低同傳工作者工作強度、賦能翻譯人員,并在聲明中特別強調:人機耦合才是未來。
這個答案顯顯然沒有讓人們滿意,因為在該場會議的進行過程中,根據同傳譯員的說法,他們并沒有感覺到任何實質工作量上的減少。
同傳譯員的爆料,不只來自于對于此次會議工作流程的問題,更反映了部份新興科技變革所造成的抵觸情緒,就如同仍經常被提及的:“ AI 是否會取代人類工作崗位”,許多人將此視為危機甚或是威脅。
如果科技變革所帶動的效益,確實讓人無話可說,那么時代就會繼續前進,該被碾壓的是那些沒能跟上腳步的人事物。但不可否認的是,包括新興科技的導入演化,都不會是一步到位的,失誤甚至是失敗都是常見的狀況,奚落嘲諷自是難免,但并不影響整體科技的發展。只不過當科技變革與商業利益產生交互作用,也就是靠著新興科技得以獲得不同型式的商業利益時,那勢必要面對更高的檢驗標準。科大訊飛此次所遭遇的狀況如此,許多靠著 AI 或者是其他新興科技拉高品牌知名度、獲得更高估值、融得更多資金的科技公司也都是如此。
人機耦合到底是個什么?
根據科大訊飛在事件后的回應來看,科大訊飛在回答中提到了“人機耦合”這個名詞,誠然“人機耦合”是真實存在的一種理論,也被應用在了多種領域之中。
展開 MIT發布2018年“全球十大突破性技術”
佩戴耳塞的人用自己的語言講話——默認是英語——然后谷歌翻譯應用就會對所講的話進行翻譯,并在智能手機上大聲播放。手持手機的人回應后,回答被翻譯,然后在耳塞中播放。
谷歌翻譯之前就已經有了對話功能,其 iOS 和安卓版應用都可以自動識別說話者的語言,然后自動翻譯。但背景噪音會增加應用理解話語的難度,同時也會讓應用很難判斷說話人何時停頓,何時開始翻譯。
Pixel Buds 有效解決了這些問題,因為佩戴人可以在說話的同時用手指點擊和長按右邊的耳塞。將交互分別放在智能手機和耳塞上,可以讓雙方都能控制麥克風,幫助講者保持眼神交流,因為這樣就不用來回傳遞手機了。
目前,Pixel Buds 因為低于行業平均水準的設計而備受抨擊。耳塞看起來很不智能,也不是很貼合耳朵,而且很難與手機進行適配。不過硬件笨拙還是有計可施的。Pixel Buds 讓大家看到了近實時翻譯跨語言障礙自由溝通的曙光,而且你還不用把一條巴別魚塞到耳朵里。
在中國,有許多公司也積極投入發展,科大訊飛、百度、搜狗可以說是這個領域的領先者,除了提供智能語音、翻譯等服務外,也將技術引入硬件中,不過,相較于外國業者偏好以耳機作為切入點,中國企業則選擇翻譯機,像是科大訊飛推出曉譯翻譯機,百度則有共享 WiFi 翻譯機。
展開 自動駕駛車輛測試的31個挑戰:與行業及學術專家的訪談
CH-C1缺乏測試自動化「lack of test automation」:由于自動駕駛汽車的測試工作量預計會增加,因此測試自動化被認為是必須的。然而,目前測試過程中自動化的使用被認為不足以應對L4或L5的ADS測試需求。根據一位專家的說法,測試自動化需要進一步適應V型模式的所有層次,從軟件單元測試到車輛測試,并且涉及測試用例的生成和測試執行。從受訪者的經驗來看,目前測試是手動完成的,或者在很小的程度上是自動化的。但是,就復雜性而言,這還沒有達到L4或L5的ADS所需要的程度(ID03)。
CH-C2測試自動化、對象和基礎設施之間的交互「interaction between test automation, object and infrastructure」:擴大測試自動化的范圍,并從手動測試轉向測試自動化是具有挑戰性的。測試自動化工具需要集成在測試環境中,并且需要創建與測試對象和其他仿真工具(如環境仿真)的接口。集成測試對象、環境仿真和測試自動化軟件在技術上是可行的,但這是一項具有挑戰性的任務,直到所有東西都按照預期的方式一起工作(也參見CH-B12),并且只有所有東西都同步并匹配在一起時,才能避免在某些地方出現問題(ID04)。
CH-C3為實施測試所付出的精力「test implementation effort」:現今執行測試往往是昂貴的,需要特定工具的,并且每次改變系統的細節時都需要手動操作。測試用例是由人寫的,因此測試用例不能被自動翻譯(ID01),例如,測試自動化軟件的控制輸入。
展開 自動駕駛車輛測試的31個挑戰:與行業及學術專家的訪談
CH-C1缺乏測試自動化「lack of test automation」:由于自動駕駛汽車的測試工作量預計會增加,因此測試自動化被認為是必須的。然而,目前測試過程中自動化的使用被認為不足以應對L4或L5的ADS測試需求。根據一位專家的說法,測試自動化需要進一步適應V型模式的所有層次,從軟件單元測試到車輛測試,并且涉及測試用例的生成和測試執行。從受訪者的經驗來看,目前測試是手動完成的,或者在很小的程度上是自動化的。但是,就復雜性而言,這還沒有達到L4或L5的ADS所需要的程度(ID03)。
CH-C2測試自動化、對象和基礎設施之間的交互「interaction between test automation, object and infrastructure」:擴大測試自動化的范圍,并從手動測試轉向測試自動化是具有挑戰性的。測試自動化工具需要集成在測試環境中,并且需要創建與測試對象和其他仿真工具(如環境仿真)的接口。集成測試對象、環境仿真和測試自動化軟件在技術上是可行的,但這是一項具有挑戰性的任務,直到所有東西都按照預期的方式一起工作(也參見CH-B12),并且只有所有東西都同步并匹配在一起時,才能避免在某些地方出現問題(ID04)。
CH-C3為實施測試所付出的精力「test implementation effort」:現今執行測試往往是昂貴的,需要特定工具的,并且每次改變系統的細節時都需要手動操作。測試用例是由人寫的,因此測試用例不能被自動翻譯(ID01),例如,測試自動化軟件的控制輸入。
展開 NASA眼中CFD的未來(5)知識提取
知識提取在自然語言處理、計算機視覺、數據挖掘和機器學習等領域中得到廣泛應用,可以用于信息抽取、智能搜索、機器翻譯、自動問答和智能推薦等應用。
知識提取在計算流體力學(CFD)方面的應用可以幫助人們更好地理解流體力學問題并提高計算效率。以下是一些知識提取在CFD中的具體應用:
流場數據分析:CFD模擬產生的大量數據可以使用知識提取技術進行分析和處理。例如,可以使用機器學習方法提取出流場中的渦旋、湍流等特征,幫助工程師更好地理解流體力學問題。
幾何建模:在CFD模擬中,幾何模型是一個重要的輸入參數。使用知識提取技術,可以自動從三維掃描數據中提取幾何模型,減少手動建模的時間和成本。
建模參數選擇:CFD模擬中需要選擇一些建模參數,如網格大小、湍流模型等。使用知識提取技術,可以根據先前的模擬數據自動選擇最優的建模參數,提高計算效率。
流動控制:使用知識提取技術,可以從先前的模擬數據中提取出控制流動的關鍵參數,如舵角、噴氣方向等,幫助工程師制定更有效的控制策略。
總之,知識提取技術在CFD領域的應用可以幫助人們更好地理解流體力學問題,提高計算效率和預測精度。
行業進展
自發布該研究報告以來的六年中,CFD知識提取(KE)已經取得了重大進展。該研究認為,集成數據庫和可視化技術將是實現2030年目標的關鍵。
在集成數據庫方面,到2025年,將實現用于創建具有1000個非穩態CFD模擬加上所有數據源完整UQ的實時多保真度數據庫的技術演示。在可視化方面,到2020年將進行一項技術演示,即對一個包含100億點、非穩態CFD模擬進行按需分析/可視化。
有幾項工作正在進行,以實現2025年數據庫演示。
展開 深度學習臺式、便攜式、機架式、集群硬件配置選型2022v1
升級更新日期:2022年1月5日
關鍵點:
硬件架構 (1)全部采用PCIe 4.0接口,(2)所有方案里的配置完美優化,整機性能大幅提升
系統和軟件:開機即用
配置:增加 支持8塊GPU、10塊GPU方案
價格: 再次下調
目錄
1 UltraLAB深度學習計算設備介紹
2 最新多GPU算力匯總表2021v3
3 深度學習計算硬件配置推薦2021v3
3.1 深度學習工作站GA300i配置推薦---最大2塊GPU
3.2 深度學習工作站GR420M配置推薦-—最大7塊GPU
3.3 深度學習工作站GX650M配置推薦---最大10塊GPU
3.4 便攜GPU工作站PG配置推薦—-最大4塊GPU
3.5 深度學習服務器配置推薦--最大8塊GPU
3.6 深度學習多機集群配置推薦-20塊卡、40塊卡
21世紀計算機最大挑戰—深度學習、人工智能,它幫助更多領域的應用研究獲取質的進展,計算機視覺、語音識別、自動機器翻譯、自動駕駛汽車、藥物發現、生物信息、醫學診斷、視頻游戲、圍棋、智能電網…
不怕千招會,就怕一招絕,對于科研人員一旦通過深度學習技術在某一個應用領域有所成就,就會獲取最大的機會。
西安坤隆計算機公司2008年進入工作站領域,專注于計算應用的最快計算硬件架構,針對深度學習GPU超算的不同環境、不同計算規模等等,提供更專業匹配、與時俱進的計算設備:
圖靈超算工作站(臺式)
圖靈超算服務器(機架式)
便攜超算工作站(移動便攜式)
GPU多機集群…
我們不僅提供種類齊全計算設備,更注重計算效能和完美計算配置,目標:保證每臺機器運行軟件,其性能發揮最大化、性能極致化。
展開 
深度學習臺式、便攜式、機架式、集群完美選型2021v3
目錄
1 UltraLAB深度學習計算設備介紹
2 最新多GPU算力匯總表2021v3
3 深度學習計算硬件配置推薦2021v3
3.1 深度學習工作站配置推薦---最大2塊GPU
3.2 深度學習工作站配置推薦-—最大7塊GPU
3.3 深度學習工作站配置推薦---最大6塊GPU
3.4 便攜GPU工作站配置推薦—-最大4塊GPU
3.5 深度學習服務器配置推薦--最大8塊GPU
3.6 深度學習多機集群配置推薦
21世紀計算機最大挑戰—深度學習、人工智能,它幫助更多領域的應用研究獲取質的進展,計算機視覺、語音識別、自動機器翻譯、自動駕駛汽車、藥物發現、生物信息、醫學診斷、視頻游戲、圍棋、智能電網…
不怕千招會,就怕一招絕,對于科研人員一旦通過深度學習技術在某一個應用領域有所成就,就會獲取最大的機會。
西安坤隆計算機公司2008年進入工作站領域,專注于計算應用的最快計算硬件架構,針對深度學習GPU超算的不同環境、不同計算規模等等,提供更專業匹配、與時俱進的計算設備:
圖靈超算工作站(臺式)
圖靈超算服務器(機架式)
便攜超算工作站(移動便攜式)
GPU多機集群…
我們不僅提供種類齊全計算設備,更注重計算效能和完美計算配置,目標:保證每臺機器運行軟件,其性能發揮最大化、性能極致化。
展開