9000 字乾貨,一文掌握數據分析知識體系!

導讀

什麼是數據分析?需要掌握哪些技能?如何進行數據分析?本文全面梳理了數據分析知識體系,從數據分析的定義講起,詳細介紹了分析思維模型和經典分析模型及指標體系。

一  數據分析定義

數據分析是指有針對性的收集、加工、整理數據,並採用統計、挖掘技術分析和解釋數據。數據分析是爲了提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。

1  數據定義

數據是客觀事實, 對於客觀事物發生,發展的數字化記錄。隨着科學技術的發展,數據的概念內涵越來越廣泛包括數值,文本,聲音,圖像,視頻。

數據可以分爲定性數據和定量數據。

定量數據可以繼續劃分:定序數據、定距數據與定比數據。

2  數據分析大事記

計算機時代崛起

計算機的發展和計算技術的發展極大地增強了數據分析的過程。1880 年,在使用計算機之前,美國人口普查局花了 7 年的時間來處理收集到的信息並完成最終報告。使用此設備,在 18 個月內完成了 1890 年的人口普查。

關係數據庫誕生

關係數據庫由埃德加 · 科德(Edgar F. Codd)在 1970 年代發明,並在 1980 年代非常流行。關係數據庫(RDBM)允許用戶編寫 Sequel(SQL)並從其數據庫中檢索數據。關係數據庫和 SQL 提供了能夠按需分析數據的優勢,並且仍在廣泛使用。它們易於使用,對於維護準確的記錄非常有用。

數據倉庫誕生

在 1980 年代後期,收集數據的數量繼續顯着增長,部分原因是硬盤驅動器的成本較低。在此期間,開發了數據倉庫的體系結構,以幫助將來自操作系統的數據轉換爲決策支持系統。數據倉庫通常是雲的一部分,或者是組織的大型機服務器的一部分。與關係數據庫不同,數據倉庫通常經過優化,可快速響應查詢。

商業智能 (BI) 崛起

20 世紀 80 年代 - 90 年代,數十家 BI 廠商進入市場。數據倉庫技術的發展大大推動了商業智能的發展,傳統存儲在各個地方的業務數據開始集中在一起。應運而生的技術還包括 ETL(數據抽取、轉換、加載)和 OLAP(聯機分析處理)。

數據挖掘崛起

數據挖掘始於 1990 年代,是在當時多個學科發展的基礎上發展起來的。隨着數據庫技術的發展應用,數據的積累不斷膨脹,導致簡單的查詢和統計已經無法滿足企業的商業需求,急需一些革命性的技術去挖掘數據背後的信息。

大數據來臨

2000 年到 2010 年是大數據興起和備受關注的時期,谷歌的 “三駕馬車”:谷歌文件系統、MapReduce 和 BigTable。亞馬遜也發表了一篇關於 Dynamo 系統的論文。這幾篇論文奠定了大數據時代的基礎。隨着大數據的到來,海量的數據以及新的技術發展,幫助公司將數據轉化爲洞察力。

數據科學家

2012 年 9 月, Tom Davenport 和 DJ Patil 在《哈佛商業評論》上發表了 “數據科學家:21 世紀最性感的工作” 。

增強分析

2017 年,Rita Sallman,Cindi Howson 和 Carlie Idonies 在 Gartner 的研究論文中引入了增強分析的概念,並將其描述爲一種新的數據分析方法,可使用機器學習和自然語言生成(NLG)自動化見解。增強型數據分析大大提升了數據分析效率,降低數據分析的門檻,人人都可以像數據科學家一樣,對數據進行多維度的自動鑽取,自動加載各種模型進行深度分析。

3  數據分析 VS 數據科學 VS 商業智能

商業智能(Business intelligence )

泛指用於業務分析的技術和工具,通過獲取、處理原始數據,將其轉化爲有價值的信息指導商業行動。維基百科定義爲一個組織將所有資源轉化爲認知的能力。

數據科學(data science)

是一個多學科領域,專注於從大量原始和結構化數據中找到切實可行的見解。該領域主要注重發掘我們沒有意識到我們還不清楚的事情的答案。它結合了諸多領域中的理論和技術,包括應用數學、統計、模式識別、機器學習、數據可視化、數據倉庫以及高性能計算。數據科學通過運用各種相關的數據來幫助非專業人士理解問題。

三者關係

4  數據分析師 vs 數據科學家

雖然數據分析師和數據科學家都與數據打交道,但主要的區別在於他們如何處理數據。數據分析師檢查大型數據集,以確定趨勢、開發圖表和創建可視化表示,以幫助企業做出更多的戰略決策。另一方面,數據科學家使用原型、算法、預測模型和自定義分析設計和構建新的數據建模和生產流程。

數據科學家、數據工程師和軟件工程師技能圖譜:

二  爲什麼要分析

分析的本質是讓業務更加清晰,讓決策更加高效。在市場經濟的條件下,企業面對激烈的競爭,差異化的市場,多變的環境,常常會面臨各種難題。數據分析是用來解決企業的難題,識別機會,規避風險,問題診斷。

總結下來,數據分析可以幫助我們:

三  如何分析?

分析的 6 個步驟:

1  明確分析目的

業務理解

從事數據分析工作的前提就是懂業務,即熟悉行業知識、公司業務及流程,有自己的業務見解。如果脫離行業認知和公司業務背景,分析的結果沒有太大的使用價值。

如何做到懂業務?首先我們要明白我們業務的商業模式是怎麼樣的?即我們通過什麼樣的方式發生關係並最終產生什麼樣的商業價值。其次我們要了解我們商業模式的核心組成要素,例如我們的客戶細分、收入來源、關鍵業務、核心的資源、成本的結構等等。除此之外我們要對核心的環境因素有所瞭解,例如宏觀經濟、市場影響、行業趨勢等等。

明確目的

數據分析第一步,不是分析數據而是把業務的問題或者目標定義清晰。通過這次數據分析想要解決一個什麼樣的問題,達成一個業務目標是什麼?

2  確定分析思路和框架

在明確分析的目的之後,我們需要梳理分析思路,並確定分析框架,即從哪些角度進行分析,採用哪些分析指標。在梳理分析思路的時候,將常見的思維模型應用與分析,能夠幫我們更加清晰的理解背後的邏輯線索,做到” 不重不漏 “(MECE)。常見的思維模型有:結構化思維模型、時間模型、邏輯演繹模型、重要性思維模型。

當然在今天,除了思維模型,其實我們已經沉澱了很多經典的分析模型,這些分析模型歷經隨便的沉澱和檢驗。如果你熟悉這些分析框架你的思考會更加快速,有效。你不需要在另起爐竈,就能達到事半功倍。例如:SWOT 分析模型、STP 分析模型、RATER 指數模型。

掌握分析思維模型

思維模型就是我們對客觀世界的一種主觀抽象描述,通過思維模型來分析問題,從而更爲準確地找到解決問題的方法。查理 · 芒格說過:“思維模型是你大腦中做決策的工具箱。你的工具箱越多,你就越能做出最正確的決策。”

1)結構化模型

以事物的結構爲思考對象,來引導思維、表達和解決問題的一種思考方法。例如麥肯錫的金字塔原理,5W2H 七要素分析法。

a)5W2H 分析法

又叫七問分析法,是二戰中美國陸軍兵器修理部首創。簡單、方便,易於理解、使用,富有啓發意義,廣泛用於企業管理和技術活動,對於決策和執行性的活動措施也非常有幫助,也有助於彌補考慮問題的疏漏。

b)結構化思維

是指一個人在面對工作任務或者難題時能從多個側面進行思考,深刻分析導致 問題出現的原因,系統制定行動方案,並採取恰當的手段使工作得以高效率開展,取得高績效。

c)MECE 原則

MECE,是 Mutually Exclusive Collectively Exhaustive,中文意思是 “相互獨立,完全窮盡”。也就是對於一個重大的議題,能夠做到不重疊、不遺漏的分類,而且能夠藉此有效把握問題的核心,並解決問題的方法。

2)時間模型

按照事物發展的時間線索,來進行分析。例如用戶行爲 5 階段模型:需求的產生 -> 信息收集 -> 方案比較 -> 購買決策 -> 購買行爲。

3)邏輯演繹模型

演繹模型分爲:

a)麥肯錫七步分析法

麥肯錫七步分析法又稱 “七步分析法” 是麥肯錫公司根據他們做過的大量案例,總結出的一套對商業機遇的分析方法。它是一種在實際運用中,對新創公司及成熟公司都很重要的思維、工作方法。

b)邏輯樹分析法

邏輯樹是將問題的所有子問題分層羅列,從最高層開始,並逐步向下擴展。

4)重要性思維

企業資源是有限的,需要把資源用在刀刃上。消費者的關注點有優先級,做好消費者關注的才能打動消費者。例如,四象限分析法提倡人們應有重點地把主要的精力和時間集中地放在處理那些重要但不緊急的工作上,這樣可以做到未雨綢繆,防患於未然。

5)經典思維模型

掌握經典分析模型

分析模型是對客觀事物或現象的一種描述。爲了分析其相互作用機制,揭示內部規律,可根據理論推導,或對觀測數據的分析,或依據實踐經驗,設計一種模型來代表所研究的對象。經典的分析模型一般都是以營銷、管理等爲理論基礎的。

1)戰略與組織

2)營銷服務

3)人力資源

4)質量及生產管理

5)財務管理工具

6)項目與物流

7)常見的分析模型

a)SWOT 分析模型

用來確定企業自身的競爭優勢、競爭劣勢、機會和威脅,從而將公司的戰略與公司內部資源、外部環境 有機地結合起來的一種科學的分析方法。

b)STP 分析

客戶細分(Segmentation)、目標客戶選擇 (Targeting)、目標客戶定位 (Positioning)。

c)經典的客戶滿意度模型

RATER 指數模型、KANO 模型。例如:RATER 指數是全美最權威的客戶服務研究機構美國論壇公司投入數百名調查研究人員用近十年的時間對全美零售業、信用卡、銀行、製造、保險、服務維修等十四個行業的近萬名客戶服務人員和這些行業的客戶進行了細緻深入的調查研究,發現一個可以有效衡量客戶服務質量的 RATER 指數。

d)PEST 分析模型

是指宏觀環境的分析模型,宏觀環境又稱一般環境,是指一切影響行業和企業的宏觀因素。對宏觀環境因素作分析,不同行業和企業根據自身特點和經營需要,分析的具體內容會有差異,但一般都應對政治 (Political)、經濟(Economic)、社會(Social) 和技術 (Technological) 這四大類影響企業的主要外部環境因素進行分析。簡單而言,稱之爲 PEST 分析法。

e)波特五力分析模型

是邁克爾 · 波特 (Michael Porter) 於 80 年代初提出,對企業戰略制定產生全球性的深遠影響。用於競爭戰略的分析,可以有效的分析客戶的競爭環境。五力分別是:供應商的議價能力、購買者的議價能力、潛在競爭者進入的能力、替代品的替代能力、行業內競爭者現在的競爭能力。五種力量的不同組合變化 最終影響行業利潤潛力變化。

f)經典營銷管理模型 4P、4C、4S、4R、4V、4I

以滿足市場需求爲目標的 4P 理論,以追求顧客滿意爲目標的 4C 理論,以建立顧客忠誠爲目標的 4R 理論等。

g)用戶行爲理論

h)AARRR 模型

AARRR 是 Acquisition、Activation、Retention、Revenue、Refer 這五個單詞的縮寫,分別對應用戶生命週期中的 5 個重要環節:獲取用戶、提高用戶活躍度、提高用戶留存率、獲取收入、自傳播。AARRR 模型因其掠奪式的增長方式也被稱爲海盜模型,同時它也是一個典型的漏斗模型可以用來評估連續的業務流程節點轉化率。通過該模型可以有針對性的對出現問題的重要節點進行優化,達到提升 ROI 的目的。

指標體系設計

指標體系的設計是一個業務數據化的過程。好的指標設計能夠抽象目標具體化,具有直接實踐意義。

1)什麼是指標

通常我們講述的指標是指將業務單元精分後量化的度量值,譬如:DAU、訂單數、金額等。當然,原子指標還會基於維度、修飾詞、統計口徑而構建出派生指標。指標的核心意義是它使得業務目標可描述、可度量、可拆解。

2)什麼是好指標

好的數據指標是比較性的,可以是一個比率。因爲比率的可操作性強、天生比較性指標、適用於比較各種因素間的相生和相剋。例如:“本週轉化率比上週高 0.5 個百分點”顯然比 “轉化率爲 2%” 更有意義。會計和金融分析師僅需迅速查看幾個比率就能對一個公司的基本狀況做出判斷。例如:市盈率、毛利率、利潤率,等等。

好的數據指標是簡單易懂的。如果人們不能容易記住或討論某個指標,那麼通過改變它來改變公司的作爲將會十分困難。

好的數據指標可以衡量當前業務的真實情況。

好的數據指標會改變行爲。這是最重要的評判標準。

3)什麼是指標體系

將數據指標系統性的組織起來,可以按照業務模型。指標體系會對按照指標不同的屬性分類及分層。

指標不成體系會怎樣?

4)常見指標體系構建過程

指標設計規範

隨着數據量的增大,數據指標也會越來越多,即使是同樣的命名,但定義口徑卻不一致。這對於各部門理解難度大,同時也造成了重複計算存儲的資源浪費。阿里 OneData 指標規範,以維度建模作爲理論基礎,構建總線矩陣,定義業務域、數據域、業務過程、度量 / 原子指標、維度、維度屬性、修飾詞、修飾類型、時間週期、派生指標等,幫助我們形成統一數據標準。

第一關鍵指標原則

第一關鍵指標(OMTM:One Metric That Matters)原則就是在當前階段高於一切,你需要集中全部注意力的數字。

使用第一關鍵指標的理由:

選擇第一關鍵指標的同時它還會解釋下一個關注點。

常見指標名詞

你所在商業領域決定了你應關注的指標。常見商業模式分類有電商類、內容類、社區類、軟件工具類、遊戲類。

1)電商類

電商類的指標常見分類:

常見的指標定義如下:

2)遊戲類

遊戲類產品考慮的指標很多,根據最想要知道的指標大致可以分爲四大類:用戶、付費、推廣和遊戲。

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/hnkEIdEnwaiGEYl7LJQeUw