在企業(yè)大數(shù)據(jù)實操過程中的人工智能技術
文章摘要:大數(shù)據(jù)、云計算和高級算法,這三大技術趨勢的獨特融合幫助人工智能走出了學術界,并使其在日常應用中無處不在。如今,人工智能已經(jīng)從根本上改變了軟件的編寫方式,并將其融入日常數(shù)字體驗中,比如寫電子郵件、搜...
大數(shù)據(jù)、云計算和高級算法,這三大技術趨勢的獨特融合幫助人工智能走出了學術界,并使其在日常應用中無處不在。如今,人工智能已經(jīng)從根本上改變了軟件的編寫方式,并將其融入日常數(shù)字體驗中,比如寫電子郵件、搜索網(wǎng)頁、買衣服、搜索和聽音樂以及建立網(wǎng)站。然而,人工智能在制造、運輸、航空、發(fā)電、金融服務和其他行業(yè)的全球基礎設施系統(tǒng)中的傳播速度稍慢。
雖然這些行業(yè)有大量數(shù)據(jù),但數(shù)據(jù)通常無法導出或不好處理,例如:數(shù)據(jù)不在公共領域;油氣勘探或環(huán)境影響報告需要知識淵博的人進行注釋;來自燃氣輪機、泵、壓縮機的傳感器數(shù)據(jù)以多種格式保存在復雜的數(shù)據(jù)存儲中,并且不總是被清除;飛機維護日志或手冊,這些困難的挑戰(zhàn)使得應用那些革命性的互聯(lián)網(wǎng)搜索、閱讀發(fā)票、翻譯語言和進行對話的人工智能技術不適用于專門領域。
工業(yè)中的人工智能從業(yè)者意識到,傳統(tǒng)的監(jiān)督機器學習方法和來自學術界與研究的大規(guī)模模型往往在專業(yè)領域失敗,這使得商業(yè)企業(yè)中的大數(shù)據(jù)操作變得非常困難。正如Gartner高級總監(jiān)分析師Chirag Dekate在2019年所說,“試飛看似簡單,但部署到生產中卻是出了名的困難?!?/p>
與依賴數(shù)據(jù)科學家和軟件開發(fā)的人員相比,行業(yè)采用的關鍵
是賦予深入了解流程和數(shù)據(jù)的權力。然而,使中小企業(yè)(如飛機技術人員、發(fā)電廠運營商、財務分析師、海關代理等)能夠直觀、快速地定義、構建和部署自己的專用人工智能,需要新的數(shù)據(jù)發(fā)
現(xiàn)、工具、自動化和數(shù)據(jù)科學驗證方法。
在企業(yè)中操作最普遍的大數(shù)據(jù)形式的一些經(jīng)驗證的技術包括:
基于數(shù)字傳感器數(shù)據(jù)的正常行為建模為非計劃資產停機創(chuàng)建早期預警
工業(yè)運營通常依賴于燃氣輪機等關鍵高價值資產。一天的計劃外停機或停電可能會使電力公司或公用事業(yè)提供商損失約30萬美元的收入——對消費者的影響可能會嚴重得多。由于其關鍵性,這些系統(tǒng)通常都是冗余的,并且有全面的預防性維護計劃。具有諷刺意味的是,這使得傳統(tǒng)的監(jiān)督機器學習變得困難,因為在系統(tǒng)的生命周期中很少有故障。
正常行為建模是一種與領域無關的半監(jiān)督機器學習技術,可以通過將任何系統(tǒng)表示為過程參數(shù)的組合來快速建模。SME在歷史數(shù)據(jù)中確定系統(tǒng)正常行為的時間框架,然后AI開始學習過程參數(shù)之間的潛在關系。自動編碼器是一種神經(jīng)網(wǎng)絡,它對歷史數(shù)據(jù)進行訓練,并將潛在關系存儲為一組權重。一旦訓練了自動編碼器,它就可以用于預測或重新生成輸入過程參數(shù)。如果和當過程參數(shù)的預測值或再生值與測量值、歷史值不匹配時,標準化誤差被用作“異?!被虍惓5亩攘?。
在這種類型的正常行為模型可以產品化之前,需要根據(jù)系統(tǒng)中實際停機和事件的歷史記錄對其進行回測。如果選定的工藝參數(shù)很好地代表了系統(tǒng)的行為,那么在任何大修之前,一些或所有參數(shù)應開始趨向于異常范圍。正常行為模型應該通過提高異常水平來預測這一點。如果異常水平在停機前持續(xù)提高足夠多,則可用于創(chuàng)建未來停機的預警系統(tǒng)。
在實踐中,可以使用超參數(shù)優(yōu)化自動訓練數(shù)十或數(shù)百個正常行為模型。創(chuàng)建一個目標函數(shù)來測量預測的準確性和預警的長度。這個目標函數(shù)使得可以通過編程方式對所有模型變量進行評估和排序,并將最好的模型變量部署到生產中。可以添加額外的調整層,以基于異常級別和用戶的偏好來選擇用于發(fā)出警報的正確動態(tài)閾值。
與傳統(tǒng)建模相比,正常行為模型具有以下優(yōu)勢:
領域不限。只要以合理的頻率和精度測量/記錄過程變量,就可以使用該方法。
無監(jiān)督學習。前期工作僅限于變量選擇和確定標稱運行條件,通??捎蒘ME執(zhí)行。
使用基于自組織密度的聚類在自然語言記錄中查找模式。
自然語言記錄在工業(yè)環(huán)境中非常常見,它是產品測試、應用程序/安全日志、設備維護、物流、運輸?shù)纫幌盗辛鞒痰幕A。實際上,企業(yè)中的大多數(shù)記錄都是半結構化記錄,有一列或多列結構化數(shù)據(jù)(數(shù)字、日期、類別)和一列或多列自然語言文本,通常是為人類消費而創(chuàng)建的。在企業(yè)中,對半結構化記錄的需求幾乎是迫切的。在理想的世界中,收集到的關于流程的所有數(shù)據(jù)都可以是數(shù)字、日期和多選分類元素。然而,在實踐中,自然語言被引入記錄有多種原因:
并非所有的過程模式在設計時都是已知的,從而導致“其他”或“一網(wǎng)打盡”的類別。
指令或程序最好用自然語言表示,并隨著時間的推移不斷改進。
故障排除、診斷、調查等通常會生成以前未知的知識,使自然語言成為必要。
企業(yè)中的運營記錄通常是功能性的/簡明扼要的,包含打字和口語,并且通常包含縮略語和行話(例如ty wrap=Tyvek wrap,ee=employee)。這使得標準搜索和自然語言建模技術有些無效。此外,使用自然語言的方法可能有很多種,因此一個全面的規(guī)范化方案是站不住腳的。例如,上述事件可以按其嚴重程度(即輕傷)進行分類,也可以按受傷點(即手部受傷)進行分類。這兩個類別并不相互排斥,需要將其視為單獨的分類方案。如果沒有中小企業(yè)的大力支持,大多數(shù)自然語言記錄很少被分析,而且仍然沒有被利用。
在自然語言記錄中找到有用模式的一種實用方法是ad-hoc聚類。為了檢索信息,中小企業(yè)首先對其記錄使用常見的搜索技術。然而,閱讀成百上千的結果往往是乏味的,簡單地閱讀前“n”個結果會給遺漏的信息留下空間。為了避免這些陷阱,AI對搜索結果應用基于密度的聚類。當基于密度的方法(如DBSCAN或HDBSCAN)用于記錄的句子嵌入時,它們傾向于聚類語義相似的語言,而不會對拼寫、變位、錯別字和口語高度敏感。SME可以很容易地讀取集群中的幾個代表性記錄,以完全理解它。此外,對前“n”個集群的分析通常會暴露搜索結果中的所有主要信息模式。這些聚類現(xiàn)在也可以成為分類方案的初始候選,該方案可以逐步圍繞數(shù)據(jù)創(chuàng)建分類結構。這種技術在長尾搜索問題中不斷顯示出很高的價值,因為SME的意圖不能事先準確和完全知道,但可以隨著時間的推移進行定義和應用。
使用發(fā)現(xiàn)循環(huán)從文檔中檢索信息或知識
為了推動關鍵和時間敏感的決策,每個行業(yè)、政府機構和軍事部門的分析師都會遇到大量必須處理的內容。高管們依靠分析師準確解讀報告、新聞、咨詢和調查,為自信、深思熟慮的決策提供決策支持。通過探索性閱讀尋找正確的內容是一種認知上的負擔,并且會產生決策疲勞。此外,分析師通常在探索深奧的概念,這些概念很難用標準搜索工具所需的關鍵詞和邏輯規(guī)則清晰表達。分析人士普遍認為,“他們看到了就知道了?!?/p>
在考慮上述新聞摘錄中的敘事文本示例時:
第二個例子實際上沒有使用“爆發(fā)”一詞,但中小企業(yè)可能會很快將其評估為爆發(fā)的主要指標。為了解決這些深奧的知識獲取場景,SME首先使用一個或多個代表他們想要找到的想法的關鍵詞來搜索他們的文檔。然后,Discovery Loop AI從結果中選擇25-50個最具代表性的句子,并使用簡單的點擊手勢,使SME能夠將結果分成一個或多個有意義的類別。或者,SME還可以指示句子中的子字符串,以便逐字提取。
AI訓練CNN分類器學習SME指定的類別。任何未加括號的句子都會自動分配到“不有趣”的類別。這樣訓練的模型對原始搜索結果中的所有句子進行推理?;谕茢嗟念悇e預測及其相對預測置信度,AI呈現(xiàn)至少兩組句子供SME審查和/或糾正——基于分配給初始組25-50個句子的類別標簽,“最像標簽x”和“最不像標簽x”。由于人工智能只訓練25-50個句子的模型,并對搜索結果進行推理,因此循環(huán)通常只需幾分鐘。同樣,每個復習小組只有25-50句話,SME只需要復習幾分鐘。這種快速迭代被稱為發(fā)現(xiàn)循環(huán),使SME能夠快速發(fā)現(xiàn)信息,而無需關注關鍵詞,而只需閱讀并做出關鍵決策。隨著SME管理更多帶標簽的句子,AI重新訓練分類或提取模型,以提高準確性,并通過使用從帶標簽句子中提取的關鍵字執(zhí)行查詢擴展來增加文檔集的覆蓋率。在任何時候,可以對文檔集中的所有句子運行該模型,以獲得與SME定義的深奧概念相匹配的句子的綜合子集,然后可以在分析師報告中引用或引用這些句子作為證據(jù)。
基于ad-hoc密度的聚類和Discovery Loop與經(jīng)典監(jiān)督分類方法相比具有以下優(yōu)勢:
減少傳統(tǒng)方法前期所需的繁瑣、全面的標簽負擔
使中小企業(yè)能夠在發(fā)現(xiàn)新信息時逐步開發(fā)類別
使SME能夠僅對有用的數(shù)據(jù)子集進行建模
所有技術的一個共同特點是使用AI增強中小企業(yè)的知識和直覺,使他們能夠專注于高價值決策。通過避開學術界流行的經(jīng)典監(jiān)督建模方法,這些技術通過提供SME指尖上的即時智能,專注于快速實用。
反觀國內也有許多企業(yè)在人工智能領域深耕,沃豐科技就是一家在人工智能領域頗有建樹的企業(yè)。
沃豐科技是中國人工智能與營銷服務解決方案提供商,依托人工智能、大數(shù)據(jù)、云計算等核心技術,打造了一體化客戶全生命周期解決方案。沃豐科技擁有Udesk、GaussMind、ServiceGo、微豐等完整的產品矩陣,將人工智能技術應用到企業(yè)的營銷獲客、銷售管理、客戶服務及企業(yè)內部共享服務等各個場景,為消費品、制造業(yè)、生命科學、汽車、央國企、數(shù)字政府、金融等多個行業(yè)提供定制化解決方案,全面助力企業(yè)實現(xiàn)數(shù)字化轉型,得到眾多世界500強、中國500強客戶的信賴。
文章為沃豐科技原創(chuàng),轉載需注明來源:http://m.gototw.com.cn/ucm/update/27090
