打開網(wǎng)易新聞 查看精彩圖片

什么是數(shù)據(jù)分析?

如果給你淘寶一整年的購物數(shù)據(jù),這些數(shù)據(jù)能賣多少錢。這些數(shù)據(jù)在電商巨頭手里可能價(jià)值不下于十億。

他們能通過這些來優(yōu)化自己的推薦算法。通過每個(gè)用戶的購物數(shù)據(jù)來對(duì)用戶建立用戶畫像,打上“年齡段20-25”、二次元、或者程序員。

你自己攢了一臺(tái)電腦,但是沒配鍵盤,淘寶就給你推cherry的鍵盤。

你近期買了一個(gè)貓砂盆,判斷你已化身貓奴,于是瘋狂給你首頁推貓糧

與你打著同樣二次元標(biāo)簽的用戶最近喜歡上了鬼滅之刃,于是手辦推送也給你安排上了。

這一切哪怕只能淘寶帶來了10%成交額的上升,利潤都不止十億。

數(shù)據(jù)分析的常規(guī)過程

數(shù)據(jù)為業(yè)務(wù)服務(wù)。

這是做數(shù)據(jù)分析的核心要點(diǎn)。

常規(guī)的業(yè)務(wù)分析有以下歷程:

  1. 確定目的
  2. 獲取數(shù)據(jù)
  3. 清洗數(shù)據(jù)
  4. 數(shù)據(jù)分析
  5. 數(shù)據(jù)可視化
  6. 得出結(jié)論

為什么用 Python 來做數(shù)據(jù)分析

在 Python誕生的初期,它一度被看作一種不嚴(yán)謹(jǐn)?shù)哪_本語言,被用來處理一些瑣碎的工作。不過經(jīng)過長期的發(fā)展,Python 衍生出了許多活躍的社區(qū)。使用 Python 開發(fā)的項(xiàng)目越來越多,Python 已經(jīng)成為了數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、學(xué)術(shù)界和互聯(lián)網(wǎng)開發(fā)最重要的語言的之一。近兩年更是被 IEEE 評(píng)選為最受歡迎的語言。

正是因?yàn)?Python 通用性,使得我們單單使用 Python 便能完成數(shù)據(jù)分析的整個(gè)過程。從數(shù)據(jù)的獲取到數(shù)據(jù)的數(shù)學(xué)計(jì)算再到分析結(jié)果的展示都可以用 Python 獨(dú)立高效地完成。避免了同時(shí)使用多個(gè)工具的繁雜工作。并且 Python 的易用性使得我們可以專注于基于業(yè)務(wù)場景的數(shù)據(jù)分析,不用考慮過多的語法細(xì)節(jié)。

如 Pandas 等運(yùn)算庫都使用cython優(yōu)化過,使得 Python 下對(duì)于大量數(shù)據(jù)的處理速度已經(jīng)不亞于靜態(tài)語言。pyecharts等的優(yōu)秀圖表展示庫使得我們能展示更漂亮的圖表,生成一個(gè)可交互的網(wǎng)頁。爬蟲方面的天然優(yōu)勢(shì)使得我們獲取網(wǎng)絡(luò)上的數(shù)據(jù)變得更加簡單。

可以說 Python 已經(jīng)是數(shù)據(jù)分析的不二之選。