国产在线自在拍91精品黑人,欧美99视频,日本高清免费不卡在线

發布日期：2018-02-18 來源：新格網作者：新格網瀏覽次數：329 【去百度看看】

核心提示：百萬粉絲大V的關注者都是什么樣的？

一、前言

作為簡書上第一篇文章，先介紹下小背景，即為什么爬知乎第一大V張公子的138w+關注者信息？

其實之前也寫過不少小爬蟲，按照網上各種教程實例去練手，“不可避免”的爬過妹子圖、爬過豆瓣Top250 電影等等；也基于自身的想法，在浙大 120 周年校慶前，聽聞北美帝國大廈首次給大陸學校亮燈，于是爬取2016- 2017 年官網上每日的亮燈圖并用python的PIL庫做了幾個小logo，算是一名吃瓜群眾自發的慶賀行為。

北美帝國大廈亮燈圖：ZJU120

也因為喜歡魯迅的作品，爬過在線魯迅全集的全部文章標題和鏈接；另外聽說太祖的某卷書是****，于是順帶也爬了遍毛選；還幫老同學在某票據網站下線前爬了大部分機構、人員信息，說是蠻值錢，然而也還在留著落灰......

微博簽到數據點亮中國

再是知道百度Echarts開源的可視化網站里面的圖很酷炫，比如使我著迷的：微博簽到數據點亮中國，http://echarts.baidu.com/demo.html#scatter-weibo 于是想著可以爬取微博大明星、小鮮肉的粉絲的居住地，然后搞搞怎么畫出全國乃至全球分布情況。但發現幾年前微博就限制只能查看 200 左右粉絲數（具體忘了），蠻掃興的，于是將目光轉向了知乎......

而既然要爬，那就爬關注人數最多的張公子吧，數據量也大，這方面是之前小項目所不及的，此前也看過不少爬知乎數據與分析的文章，因此也想練練手，看看大量訪問與獲取數據時會不會遇到什么封IP的反爬措施，以及數據可視化能搞成什么樣。

不過此文在爬蟲部分不做過多展開，看情況后續再另寫一文。

思路如下：抓包獲取張佳瑋主頁關注者api，然后改變網址中offset參數為 20 的倍數，一直翻頁直到獲取138w+關注者信息，其中返回的json數據主要有：關注者的昵稱、主頁id（即url_token）、性別、簽名、被關注人數等，也就是說需要訪問所有主頁id，才能獲取更多信息（個人主頁api：以黃繼新為例）：居住地、所在行業、職業經歷、教育經歷、獲贊數、感謝數、收藏數等等。鑒于還不怎么會多進程爬取，如果把所有id再爬一遍會非常耗時間，于是篩選被關注數100+的id，發現只剩了4.1w+，之后較完整提取了這部分的信息，后續可視化也多基于此。

爬取信息一覽

關鍵詞： 大數據分析知乎大V 數據可視化

長春短信群發吉林省紅視窗中國長春市玉米長春網站建設網站振華設備設計吉林廣州撲克敘利亞聯合聲明長春上門維修電腦消費者權益內蒙古新聞中心突擊步槍滿洲里塞內加爾中非合作論壇記者會美國白宮中國政府化學武器中國電影中消協海外網消費者強臺風重慶市敘政府長春上門修電腦中國智能建筑節長春北大青鳥網站建設產業園長春電腦上門維修北京市長春上門做系統國家元首黨委書記北斗導航中國芯售前咨詢技巧龍頭企業俄羅斯小雨指示塞申斯白宮侯建國,質量,中國特色社會主義美國圓桌臺風中國軍網發言人美國人特朗普化武運載火箭檢察官日本特朗普,貿易戰,美國位置服務大阪毒品英國皇家海軍人民政府今日頭條步槍發布會一帶一路長春國貿非洲中國移動中非小學生中國市場經濟美國海軍陸戰隊制造政治撫養費彈道導彈觀察者網廣東省郭曉東 PHP 參議院 f-35 AJAX 尼克松國家安全微博黨委

下一篇：如何設計出正確的搜索模式？
上一篇：從YouTube改版看“移動優先”附移動優先網站設計案例賞析

[ 資訊搜索 ] [ 加入收藏 ] [ 告訴好友 ] [ 打印本文 ] [ 違規舉報 ] [ 關閉窗口 ]

同類資訊

企業800網 · 提供技術支持

• 個推“宅一族”觀察：誰說“宅”著就是無所事事	• 長安汽車擬與騰訊大地通途設立合資公司從事大數
• 從用戶到商家，大數據“殺熟”下誰能幸免？	• 女性脫單壓力最大城市排名單身女性生活一樣精彩
• 2018春節孝心開支排行榜出爐浙江第一人均孝敬長	• 孫悟空無姓無名時閻王生死簿是怎么寫的？

久久久久在线观看_又色又爽又黄的免费视频播放_一区中文字幕_日韩电影在线播放

怎樣成為知乎大V？爬取張佳瑋138w+關注者：數據可視化