作者:Suad Jusuf
Senior Manager
數(shù)據(jù)的完整性及其規(guī)范
數(shù)據(jù)可以指單獨(dú)的事實(shí),或者統(tǒng)計(jì)后的數(shù)據(jù),還可以是各種信息的匯總,通常以數(shù)字表示。數(shù)據(jù)管理的重要性始于計(jì)算機(jī)科學(xué)本身的誕生。數(shù)據(jù)處理最初的重點(diǎn)是轉(zhuǎn)換,存儲(chǔ),然后傳輸。然而,近年來(lái),隨著手機(jī)、智能傳感器、聯(lián)網(wǎng)汽車和我們周圍許多其他數(shù)字設(shè)備的興起,出現(xiàn)了前所未有的信息大爆炸。
不斷增長(zhǎng)的海量數(shù)據(jù),需要人們采取合適的方式來(lái)管理它,通過(guò)減少數(shù)據(jù)冗余,保證準(zhǔn)確和及時(shí)的獲取,來(lái)確保數(shù)據(jù)的質(zhì)量。為分析而訪問(wèn)和存儲(chǔ)大量信息,人們已經(jīng)有很多年的經(jīng)驗(yàn)了。但大數(shù)據(jù)的概念在21世紀(jì)初獲得了新的發(fā)展動(dòng)力,它基于三個(gè)要素:數(shù)量、速度和多樣性。對(duì)大數(shù)據(jù)進(jìn)行分析以獲得更好的洞察力來(lái)指導(dǎo)決策,是大數(shù)據(jù)的真正意義。這意味著收集的數(shù)據(jù)只有在最終用于解決問(wèn)題并進(jìn)而實(shí)現(xiàn)新的收入流和財(cái)務(wù)增長(zhǎng)時(shí)才具有意義。這就是“數(shù)據(jù)科學(xué)”領(lǐng)域發(fā)揮關(guān)鍵作用的地方,因?yàn)樗捎矛F(xiàn)代工具和技術(shù)來(lái)發(fā)現(xiàn)數(shù)據(jù)背后隱藏的有價(jià)值的信息,并據(jù)此做出成功的商業(yè)決策。
什么是數(shù)據(jù)科學(xué)
數(shù)據(jù)科學(xué)是一個(gè)術(shù)語(yǔ),指的是使用各種科學(xué)手段、算法和步驟從不斷增長(zhǎng)的海量數(shù)據(jù)中提取背后含義的綜合方法。使用軟件科學(xué)識(shí)別出原始數(shù)據(jù)背后的規(guī)律和含義。這些有價(jià)值的見(jiàn)解有助于支持業(yè)務(wù)決策,分析解決業(yè)務(wù)困境,并將其轉(zhuǎn)化為可行的解決方案。
企業(yè)如何依賴數(shù)據(jù)科學(xué)?
傳統(tǒng)的商業(yè)數(shù)據(jù)分析(BI)工具不是為處理大量非結(jié)構(gòu)化數(shù)據(jù)而構(gòu)建的。數(shù)據(jù)科學(xué)利用更先進(jìn)的工具來(lái)幫助分析、分類和篩選來(lái)自多個(gè)相關(guān)領(lǐng)域的大量數(shù)據(jù),可在處理非結(jié)構(gòu)化數(shù)據(jù)方面發(fā)揮重要作用。例如,在營(yíng)銷領(lǐng)域,基本的人口統(tǒng)計(jì)因素,如客戶年齡、性別、地點(diǎn)和購(gòu)買行為,有助于制定具有針對(duì)性的活動(dòng)。這些活動(dòng),因?yàn)樗鼈兺ㄟ^(guò)客戶的瀏覽和購(gòu)買歷史來(lái)評(píng)估客戶對(duì)商品的傾向,因此更能達(dá)到精準(zhǔn)營(yíng)銷的目的。同樣,在銀行業(yè)務(wù)中,監(jiān)控異常的客戶交易可以幫助識(shí)別金融欺詐行為。在醫(yī)療保健行業(yè),仔細(xì)檢查和評(píng)估患者的病歷可以揭示患病的可能性等等。
通過(guò)預(yù)測(cè)性維護(hù),機(jī)器中的智能傳感器收集數(shù)據(jù),幫助工廠減少停機(jī)時(shí)間及相關(guān)的收入損失。預(yù)測(cè)和提前處理潛在的可能造成停產(chǎn)的問(wèn)題,工廠就可以一直保持最高效率運(yùn)行。
數(shù)據(jù)挖掘和KDD
“數(shù)據(jù)挖掘”通常與KDD(Knowledge Discovery in Database,數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn))互換使用。如今,幾乎每個(gè)行業(yè)都越來(lái)越受數(shù)據(jù)所驅(qū)動(dòng)。但是,只有當(dāng)你分析數(shù)據(jù)并找出它背后的價(jià)值時(shí),數(shù)據(jù)才有意義。
大多數(shù)行業(yè)積累了海量數(shù)據(jù),但在缺乏展示數(shù)據(jù)趨勢(shì)的圖形、圖表和相關(guān)分析機(jī)制的情況下,純數(shù)據(jù)本身沒(méi)有多大意義。從現(xiàn)在數(shù)據(jù)積累的速度和規(guī)模上看,使用傳統(tǒng)數(shù)據(jù)管理機(jī)制很難應(yīng)對(duì)這樣的挑戰(zhàn)。因此,從經(jīng)濟(jì)和科學(xué)的角度來(lái)看,利用數(shù)據(jù)科學(xué)提升我們的分析能力,以便我們能夠更好地處理我們的大數(shù)據(jù),變得非常有必要。
下圖顯示了管理數(shù)據(jù)的各種工具之間的關(guān)系。
模式識(shí)別
模式識(shí)別通過(guò)識(shí)別數(shù)據(jù)模式來(lái)研究數(shù)據(jù)內(nèi)涵。根據(jù)數(shù)據(jù)的類型和配置,可以使用不同的模式識(shí)別方法。模式按照描述性模式識(shí)別進(jìn)行分類。對(duì)目標(biāo)進(jìn)行特征識(shí)別,并將這些特征與已知模式進(jìn)行比較以判斷它們是否匹配,或者存在差異。
統(tǒng)計(jì)學(xué)
在解決復(fù)雜且需要方法論的問(wèn)題方面,統(tǒng)計(jì)學(xué)發(fā)揮著重要作用。這在有很多不確定性因素背景下需要做出高風(fēng)險(xiǎn)決定時(shí)尤其如此。統(tǒng)計(jì)學(xué)可以為分析師提供有把握的答案。
分析
分析是指檢查數(shù)據(jù),解決問(wèn)題、獲得洞察力并識(shí)別趨勢(shì)的過(guò)程和行為。這是通過(guò)使用各種工具、技術(shù)和體系來(lái)完成的,根據(jù)所執(zhí)行的分析類型而有所不同,主要有以下四種類型:
機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,它依賴模型來(lái)執(zhí)行自主任務(wù)。它依賴統(tǒng)計(jì)學(xué)和算法,根據(jù)歷史數(shù)據(jù)幫助用戶做出預(yù)測(cè)或決策。數(shù)據(jù)科學(xué)家使用機(jī)器學(xué)習(xí)和人工智能等技術(shù)來(lái)管理公司的數(shù)據(jù)。這使公司能夠?qū)磳l(fā)生的事情進(jìn)行精確分析,從而對(duì)企業(yè)的未來(lái)產(chǎn)生積極的影響。
數(shù)據(jù)科學(xué)流程
CRISP-DM代表“數(shù)據(jù)挖掘的跨行業(yè)標(biāo)準(zhǔn)流程”,提供一個(gè)總覽模型,描述數(shù)據(jù)科學(xué)的生命周期,幫助規(guī)劃、組織和實(shí)施數(shù)據(jù)科學(xué)項(xiàng)目。它由以下步驟組成:
當(dāng)辯證性思維遇到機(jī)器學(xué)習(xí)算法時(shí),數(shù)據(jù)科學(xué)可以幫助獲得對(duì)業(yè)務(wù)更佳的見(jiàn)解,提高工作效率,并提供業(yè)務(wù)決策的預(yù)判。最終目標(biāo)是使公司能夠從數(shù)據(jù)科學(xué)中受益,做出積極決策,以提供更多創(chuàng)新的產(chǎn)品和服務(wù)。