什麼是資料科學?

資料科學係指為了擷取對企業有意義之洞察而進行資料研究。這是一種多學科方法,結合了來自數學、統計學、人工智慧和電腦工程等領域的原理和做法,藉此針對大量資料進行分析。此分析有助於資料科學家探索「發生什麼事」、「為何發生」、「將會發生什麼事」以及「因應措施」等。

資料科學為什麼重要?

資料科學整合高效能工具、方法及技術,透過資料獲取有意義之資訊,從而發揮非常重要之作用。現代組織被龐大的資料所淹沒;可以自動收集和儲存資訊的裝置大量激增。在電子商務、醫藥、財務以及人類生命的各個其他方面等領域,線上系統以及付款入口網站擷取的資料更多。我們擁有大量文字、音訊、影片和影像資料可供使用。 

然而,若不能對原始資料採取有效的動作,則原始資料本身不會產生價值。資料科學家能夠將原始資料表轉換成有意義的推薦項目。他們可以發現並解決企業甚至不清楚已存在的問題。組織可以利用這些推薦項目提高客戶滿意度、最佳化供應鏈,或是推出新產品。

資料科學的歷史

資料科學並非新事物,但是其意義和內涵已經隨著時間而改變。這個名詞首次出現在 60 年代,係統計學的另一種名稱。在 90 年代晚期,電腦科學專業人士將這個名詞正式化。依資料科學之擬議定義,可以將其視為具有三個方面的獨立領域:資料設計、收集和分析。這個名詞用於在學術界以外,則是又經過十年之後的事情。 

資料科學的未來

人工智慧和機器學習的創新,使得資料處理的速度更快,而且更具效率。在行業需求之驅動下,資料科學領域內形成了一個由學科、學位和工作職位組成的生態系統。行業對於跨職能技能和專業知識的要求,使得資料科學展現出未來幾十年強勁的預期成長。

資料科學的用途是什麼?

資料科學是用於以四種主要方式研究資料:

1.描述性分析

描述性分析會檢查資料以深入了解資料數據環境中發生過或正在發生什麼事情。其特點為資料視覺化,例如圓餅圖、長條圖、折線圖、表格或是產生的敘述。 例如,航班預訂服務可能會記錄每天預訂的機票數量等資料。描述性分析將揭示此項服務的預訂高峰、預訂衰退和高績效月份。

2.診斷性分析

診斷性分析是藉由深入或詳細的資料檢查,以瞭解發生某事的原因。其特點為例如深入研究、資料探索、資料採礦和關聯性等技術。可以針對給定的資料集執行多筆資料操作和轉換,以發掘每個技術當中的獨特模式。例如,航班服務可能會深入研究業績特別好的月份,藉此更準確地瞭解預訂高峰。如此可能進而發現許多客戶造訪某個特定城市,並且參加每月舉辦的體育賽事。

3.預測性分析

預測性分析會使用歷史資料對未來可能出現的資料模式做出準確的預測。它的特點是例如機器學習、預測、模式匹配以及預測性建模等技術。在每項技術當中,會針對資料中的逆向工程因果關聯訓練電腦。例如,航班服務團隊可能會在每年年初使用資料科學來預測來年的航班預訂模式。電腦程式或演算法可能會查看過去的資料並預測 5 月某些目的地的預訂高峰。在預測客戶未來的旅行需求之後,公司可以從 2 月份開始在這些城市投放鎖定目標的廣告。

4.規範性分析

規範性分析將預測性資料提升至下一個層級。它不僅會預測可能發生的事情,還可以針對該結果建議最佳的回應方式。它可以分析不同選擇的潛在影響並建議最佳行動方案。它使用來自機器學習的圖形分析、模擬、複雜事件處理、神經網路和推薦引擎。         
回到航班預訂的例子,規範性分析可以查看過往的行銷活動,充分利用即將到來的預訂高峰的優勢。資料科學家可以預測在不同行銷管道上針對不同行銷支出水準所獲得的預訂結果。這些資料預測將使得航班預訂公司對其行銷決策更具信心。

資料科學能為企業帶來哪些好處?

資料科學正在徹底改變公司的經營方式。許多企業 (無論其規模如何) 需要強大的資料科學策略來帶動成長並保持競爭優勢。一些主要優勢包括:

探究未知的轉型模式

組織能夠利用資料科學發現有可能促成組織轉型的新模式和關係。它能夠揭露資源管理的低成本變化,進而對於利潤率產生最大影響。舉例來說,電子商務公司利用資料科學發現有過多的客戶查詢是在下班時間後產生。調查結果顯示,如果顧客能夠收到立即回覆,而不是等到下個工作日才獲得答案,他們完成購買的可能性會更大。透過實施全年無休的客戶服務,該企業達到 30% 的收益成長。

新產品和解決方案的創新

資料科學揭露原本有可能被忽視的差距和問題。更深入地瞭解採購決策、客戶反饋意見和業務流程可以推動內部營運和外部解決方案的創新。例如,線上付款解決方案可使用資料科學整理和分析客戶在社群媒體上對公司的評論。分析結果顯示顧客在購買高峰期間忘記密碼,並對目前的密碼擷取系統不太滿意。公司可以創新更好的解決方案,並且明顯提高客戶滿意度。

即時優化

對於企業 (尤其是大型企業) 而言,即時回應不斷變化的狀況是極具挑戰性的事情。這可能會導致商業活動的重大損失或中斷。資料科學可以幫助公司預測變化並且針對不同情況做出最佳反應。例如,一間以卡車為主的運輸公司利用資料科學來減少卡車發生故障時的停工時間。他們找出導致卡車更快發生故障的路線和班次模式並且調整卡車時間表。他們還建立了需要經常更換的常用備件庫存,以便加快修理卡車的速度。  

資料科學的流程是什麼?

商業問題通常會啟動資料科學過程。資料科學家將會與企業利害關係人合作以瞭解企業需要。一旦界定出問題所在,資料科學家便可使用 OSEMN 資料科學流程將其解決:

O – 獲得資料

資料可以是預先存在、新取得或是可從網際網路下載的資料存放庫。資料科學家可以從內部或外部資料庫、公司 CRM 軟體、Web 伺服器記錄、社群媒體擷取資料,或是透過可信任的第三方來源購買。

S – 清除資料

資料清除 (或資料清理) 是根據預定格式對資料進行標準化的過程。其中包括處理遺失的資料、修復資料錯誤和刪除任何資料異常值。資料清除的一些例子包括: 

  • 將所有日期值變更為通用標準格式。  
  • 修正拼寫錯誤或多出的空格。  
  • 修正數學錯誤或是移除大數中的逗號。

E – 探索資料

資料探索是用於規劃進一步資料建模策略的初步資料分析。資料科學家使用描述性統計學與資料視覺化工具,對於資料擁有初步認識。接下來他們會探索資料以找出可以研究或採取行動的關注模式。      

M – 模型資料

軟體和機器學習演算法是用於獲得更深入的洞察、預測結果並制定最佳行動方案。機器學習技術 (例如關聯、分類與叢集) 會套用至訓練資料集。模型可能會針對預定的測試資料進行測試,以評估結果的準確性。可以多次針對資料模型進行微調以改善結果。 

N – 解譯結果

資料科學家會與分析師和企業合作,將資料洞察轉換成行動。他們會製作圖表、圖形和曲線圖來表示趨勢和預測。資料彙總可幫助利害關係人有效地理解和實施結果。

資料科學的技巧是什麼?

資料科學專業人員使用運算系統以追蹤資料科學流程。 資料科學家會使用的頂尖技術為:

分類

分類是將資料分類成特定的群組或類別。會訓練電腦識別與排序資料。已知資料集會用於在電腦中建置決策演算法,以便快速地處理與分類資料。例如:  

  • 將產品按照受歡迎或不受歡迎進行排序  
  • 將保險申請依照高風險或低風險進行排序  
  • 將社群媒體評論排序為正面、負面或是中立。

資料科學專業人員使用運算系統以追蹤資料科學流程。 

迴歸

迴歸是找到兩個看似無關的資料點之間關係的一種方法。連接通常會圍繞數學公式進行建模,並表示為圖形或曲線。如果某個資料的值未知,則迴歸會用於預測其他資料點。例如:  

  • 空氣傳播疾病的傳播速度。 
  •  客戶滿意度與員工人數之間的關係。  
  • 消防站數量以及在特定位置因火災而受傷人數之間的關係。 

叢集

叢集是將密切相關的資料組合在一起以尋找模式和異常情況的方法。叢集與排序不同,因為前者無法將資料準確分類為固定類別。因此,資料會被分組成最可能的關係。透過叢集可以發現新的模式和關係。例如:  
  • 透過將具有相似購買行為的顧客加以分組,改善客戶服務。  
  • 透過網路流量分組,識別每日使用模式,並且更快發現網路攻擊。  
  • 對文章進行叢集化處理,分類為多個不同的新聞類別,並藉由此資訊找出不實的新聞內容。

資料科學技術背後的基本原理

儘管細節有所不同,但這些技術背後的基本原理是:
  • 教導機器如何根據已知的資料集排序資料。例如,範例關鍵字會連同其排序值一併提供給電腦。「快樂」為正,而「仇恨」為負。
  • 將未知資料提供給機器,讓裝置個別對資料集進行排序。
  •  允許出現結果不準確的情況,並處理結果的機率因素。  

資料科學有哪些不同的技術?

資料科學從業人員會使用複雜的技術,例如:

  1. 人工智慧:機器學習模型和相關軟體是用於預測性和規範性分析。
  2. 雲端運算:雲端技術為資料科學家提供進階資料分析所需的靈活性與處理能力。
  3. 物聯網:IoT 指的是可以自動連線至網際網路的各種不同裝置。這些裝置會收集資料以進行資料科學措施。它們會產生可用於資料採礦和資料擷取的大量資料。
  4. 量子運算:量子電腦可以高速執行複雜的計算。熟練的資料科學家會利用它們來建置複雜的定量演算法。

資料科學是在其他資料相關角色與領域中包含所有一切的名詞。讓我們看看其中某些例子:

資料科學與資料分析之間有什麼差別?

雖然這些名詞可以互換使用,但資料分析是資料科學的一個子集。資料科學是從收集到建模與洞察等所有資料處理方面的概括性術語。在另一方面,資料分析主要涉及統計學、數學和統計分析等範圍。它只關注資料分析,而資料科學則與組織資料最重要的部分有關。在多數的工作場所中,資料科學家與資料分析師會攜手合作以期達成共同的商業目標。資料分析師可能會花費更多時間在例行分析與提供定期報告上。資料科學家可以設計儲存、操縱與分析資料的方式。簡而言之,資料分析師透過現有資料取得理解,而資料科學家則是創造新的方法和工具來處理資料,以供分析師使用。

資料科學與商業分析之間有什麼差別?

雖然資料科學和商業分析之間存在有重疊的情況,但是其關鍵差異在於每個領域對於技術的運用情況。相較於商業分析師,資料科學家的工作與資料技術之關係更加密切。商業分析師之工作可以將商業與 IT 連結起來。他們界定商業案例、透過利害關係人收集資訊,或是驗證解決方案。在另一方面,資料科學家利用高效能之技術處理商業資料。他們可以編寫程式、套用機器學習技術以建立模型,並且開發新的演算法。資料科學家不僅可以瞭解問題之所在,還可以建置工具以提供解決問題的辦法。商業分析師和資料科學家在同一個團隊工作的情況並不少見。商業分析師採納資料科學家的見解,藉此形成適用於更廣泛之商業範圍的解決方案。

資料科學與資料工程之間有什麼差別?

資料工程師會建置與維護能夠讓資料科學家存取與解譯資料的系統。與資料科學家相比,資料工程師與基礎技術的配合更加密切。一般而言,角色需要建立資料模型、建置資料管道,以及監督擷取、轉換、載入 (ETL)。根據組織設置與規模的不同,資料工程師也可以管理相關的基礎設施,例如大數據儲存體、串流以及處理平台 (例如 Amazon S3)。資料科學家可使用資料工程師已經處理過的資料來建置與訓練預測性模型。資料科學家接下來可以將結果交給分析師進行進一步決策。

資料科學與機器學習之間有什麼差別?

機器學習訓練機器分析並且透過人類行為模式相關資料進行學習的一種科學。它是資料科學項目中用於透過資料獲得自動化洞察力的方法之一。機器學習工程師專門從事於與機器學習方法特有的運算、演算法以及編碼技能。資料科學家可以利用機器學習方法作為手段或是與機器學習工程師密切合作以處理資料。

資料科學與統計學之間有什麼差別? 

統計學是基於數學的領域,目的旨在收集與解釋定量資料。相比之下,資料科學則是屬於多學科領域,會使用科學方法、流程和系統透過各種不同形式的資料提取知識。資料科學家會使用來自許多學科 (包括統計學) 的方法。然而他們的過程以及研究問題的領域則各有不同。  

資料科學有哪些不同的工具?

AWS 擁有一系列工具可為全球的資料科學家提供支援:

資料儲存

在資料倉儲方面,Amazon Redshift 可針對結構化或是非結構化資料執行複雜的查詢。分析師與資料科學家可以利用 AWS Glue 管理與搜尋資料。AWS Glue 自動建立資料湖中所有資料的統一目錄,並且附加中繼資料,讓資料更易於發現。

機器學習

Amazon SageMaker 是一項在 Amazon Elastic Compute Cloud (EC2) 上執行的全受管機器學習服務。它能夠讓使用者組織資料、建置、訓練與部署機器學習模型,以及擴展營運。

分析

  • Amazon Athena 是一種互動式查詢服務,可在 Amazon S3Glacier 中輕鬆分析資料。該服務速度快,無伺服器,並且使用標準 SQL 查詢進行運作。
  • Amazon Elastic MapReduce (EMR) 使用例如 Spark 和 Hadoop 之類的伺服器處理大數據。
  • Amazon Kinesis 允許串流資料的即時彙總和處理。它使用來自 IoT 裝置的網站點擊流、應用程式日誌以及遙測資料。 
  • Amazon OpenSearch 允許對 PB 級資料進行搜尋、分析和視覺化。

資料科學家會做哪些事情?

資料科學家可以將一系列不同的方法、工具和技術整合到資料科學流程。根據問題,他們會挑出最佳組合,以便獲得更快以及更準確的結果。

資料科學家的角色與日常工作會因為組織的規模與需求而有所不同。儘管科學家們一般會遵循資料科學流程,但是細節內容可能有所不同。在較大型的資料科學團隊中,資料科學家可以和其他分析師、工程師、機器學習專家以及統計學者合作,確保端對端地遵循資料科學流程並經達成業務目標。 

然而,在規模較小的團隊中,資料科學家可能必須要身兼數職。根據經驗、技能和教育背景的不同,他們可能扮演多個角色或重疊角色。在此情形下,他們日常的職責可能包括工程、分析和機器學習以及核心資料科學方法。 

資料科學家所面臨的挑戰為何?

多個資料來源

不同應用程式與工具類型所產生的資料也有各種不同的形式。資料科學家必須整理與準備資料以便使其保持一致。這可能是既乏味又耗時的工作。

瞭解企業問題

資料科學家必須與多位利害關係人與業務經理合作,以界定待解決的問題。這個工作可能極具挑戰 — 特別是在擁有多個團隊且需求不同的大型公司。

消弭偏差

機器學習工具並不完全準確,因此可能存在一些不確定性或偏差。偏差是模型在不同群組 (例如年齡或收入層) 之間的訓練資料或預測行為的不平衡。例如,如果工具主要是根據來自中年人的資料進行訓練,則在進行涉及年輕人和老年人的預測時可能不太準確。機器學習領域提供一種機會,讓他們可在資料和模型中偵測偏差和測量偏差來解決這些偏差。

資料科學後續步驟

查看其他產品相關資源
進一步了解有關資料湖和分析 
註冊免費帳戶

立即存取 AWS 免費方案。 

註冊 
開始在主控台進行建置

開始在 AWS 管理主控台使用 AWS 進行建置。

登入