當前位置：首頁 > 科技 > 正文

Python爬蟲實戰：東方财富網股吧數據爬取（一）

啟示号
科技
2年前
1103

Python爬蟲實戰系列文章目錄

前言

朋友托我寫個爬蟲，本身是個爬蟲小白的我還是接受了此次重任，總共曆時五天左右，過程中遇到過無數bug，好在一路披荊斬棘，還是大差不差的完成了此次委托！但感覺這次的經曆還是有必要和大家分享一下，正好最近也沒有寫博文了，趁這次機會趕趕進度！

一、項目說明

項目需求：股吧中人們的言論行為和股市漲跌的延遲相關性
數據來源：、
數據字段：閱讀、評論、标題、作者、更新時間
實現功能：讀取每個公司股吧的全部頁面的數據并寫入excel表中

二、實施過程

以為例

1.明确獲取網頁中哪些數據

我們需要爬取的是東方财富吧中全部發帖信息的閱讀、評論、标題、作者及最後更新時間這五個字段的數據，我一開始想也不是很難，解析一下網頁匹配一下對應的标簽值就可以了，但後面還是出現了各種各樣的問題，需要大家注意一下。

2.查看網頁源代碼分析結構

① 網頁源代碼

首先打開網頁的開發者工具（Ctrl+Shift+i），在源代碼中查找對應字段的标簽結構。

從圖中可以看出，這五個字段分别位于行标簽内，對應的屬性分别是"l1 a1"、"l2 a2"、"l3 a3"、"l4 a4"、"l5 a5"。想必大家已經有思路了，我們可以通過先獲取網頁代碼，再解析網頁查詢對應的五個字段，最後做一個提取就可以了。

② 網頁鍊接

【東方财富吧：300059】
首頁：
第二頁：
可以看出個股吧鍊接主要由三部分組成：list、名稱代碼、頁數

I.的數字代碼

II. 翻頁數據

如何得到不同股吧的所有翻頁數據，着實讓我找了好久，各種資源我都找了可惜還是沒有發現，突然無意之中我找到了解決辦法，我直接一個好家夥！

跟上述的五類字段一樣，我們查看一下頁數的代碼字段，如下圖所示：

我的第一個辦法是直接解析網頁後找到标簽下的sumpage屬性，其内容即為總頁數，本來以為原來這麼好獲取，結果解析完才發現，pagernums裡的内容是動态的，即span.on是會随頁而變化的，故直接requests并不能獲取到，但是還是被我發現了玄機！

大家可以看data-pager這裡，裡面的内容是list,300059_|452885|80|2，我對比了幾個頁面後發現其中數字分别代表的是：

300059：股吧數字代碼452885：該股吧共發帖452885條
80：每個頁面分别有80條貼子
2：當前所處頁面為第2頁

那麼這時候，我們就可以直接用累積多年的算力（小學除法）算出東方财富吧共有452885/80=5661.0625，向上取整共5662頁！如果你也脫口而出好家夥的話，請在屏幕下方打出來！

3.爬蟲需要具備的功能

基本問題解決了，我們可以開始編寫爬蟲了。這部分不講代碼原理，隻解釋代碼功能。自己也是小白，如果代碼存在問題或不清楚的話，歡迎大家在下方留言，我一定及時回複。

① 獲取網頁源代碼

defgetHTMLText(url):try:r=requests.get(url,timeout=30)r.raise_for_status()r.encoding=r.apparent_encodingreturnr.textexcept:print("獲取網頁内容失敗！")

② 解析網頁并提取數據字段

defparsePage(html):list=[]#我用的二維數組存儲read=[]comment=[]title=[]author=[]time=[]try:#print(html)soup=BeautifulSoup(html,"html.parser")foreachinsoup.find_all('span','l1a1'):if'萬'ineach.string:each.string=each.string[:-2]read.append(each.string)read=read[1:]#read[0]=='閱讀'list.append(read)foreachinsoup.find_all('span','l2a2'):comment.append(each.string)comment=comment[1:]#comment[0]=='評論'list.append(comment)foreachinsoup.find_all('span','l3a3'):first=each.select('a:nth-of-type(1)')foriinfirst:i.find_all("a")#print(i.title)title.append(i.title)list.append(title)foreachinsoup.find_all('span','l4a4'):first=each.select('font:nth-of-type(1)')foriinfirst:i.find_all("font")#print(i.title)author.append(i.title)list.append(author)foreachinsoup.find_all('span','l5a5'):time.append(each.string)time=time[1:]#time[0]=='最後更新'list.append(time)except:print("解析網頁字段失敗！")returnlist

③ 獲取貼吧總頁數

基于解析的網頁直接find_all也是可以的

defget_total_pages_num(url):try:chrome_options=webdriver.ChromeOptions()chrome_options.add_argument('--headless')chrome_options.add_argument('lang=zh_CN.UTF-8')chrome_options.add_argument('User-Agent="Mozilla/5.0(Macintosh;IntelMacOSX10_12_6)AppleWebKit/537.36(KHTML,likeGecko)Chrome/65.0.3325.162Safari/537.36"')chrome_options.add_argument('--disable-extensions')chrome_options.add_argument('--disable-gpu')chrome_options.add_argument('--no-sandbox')driver=webdriver.Chrome(options=chrome_options)driver.get(url)page_data=driver.find_element_by_xpath('//div[@id="mainbody"]/div[@id="articlelistnew"]/div[@class="pager"]/span[@class="pagernums"]').get_attribute('data-pager')#print(page_data)ifpage_data:#page_nums=re.findall('\|(\d+)',page_data[0])page_nums=page_data.split("|")#print(page_nums)total_pages=math.ceil(int(page_nums[1])/int(page_nums[2]))driver.quit()exceptExceptionase:total_pages=1returnint(total_pages)

4.爬取結果

上述代碼基本的字段已經可以實現爬取了，結果如下：

可以看到，我這裡的時間多了年份，這是由于朋友研究的需要，在基于一次爬取的結果上，進行二次爬取标題所帶的鍊接網頁獲得的，有關二次爬取的内容，我們再下一節再和大家分享。

總結

在爬取過程中，我還遇到了很多問題諸如：
① 部分帖子結構不同或存在冗餘該如何處理（問董秘等鍊接）
② 爬取過程中ip被屏蔽自動跳轉頁面該如何處理（代理IP池）
… …
這些内容在後續章節中再和大家分享，下期再見啦！

你可能想看：

整理python爬蟲過程中會遇到的問題，以及如何解決這些問題的方法

在使用python爬蟲的過程中，現在我們就來探讨下這些在python爬蟲的過程中可能遇到的問題，一般網頁的開發者為了不讓自己的js代碼輕易被别人拷貝，我們可以通過debug來找到js加密解密的代碼，爬...

對比Excel，輕松學習Python報表自動化實戰，這篇教程有點肝!

輕松學習Python報表自動化》中關于報表自動化實戰的内容。并教你用Python實現工作中的一個報表自動化實戰，1.Excel的基本組成2.一份報表自動化的流程3.報表自動化實戰 -當日各項指标同環...

python的基本語法和腳本格式

我們在上一篇文章中已經學會了如何簡單的運行python命令和腳本，當Python解釋器讀取源代碼時，第二行注釋是為了告訴Python解釋器:Python在語義中存在着包、模塊、類（當然還有函數）這幾個...

python 知識點大全，建議收藏留用！

經常有讀者問我 Java、C++、Python 這些語言怎麼選擇，這兩門語言想要學好、學透都不容易，一些開發非常便捷、庫非常豐富的語言也可以掌握一下，從後台開發 Flask、AI、數據分析、爬蟲......

python中使用argparse.add_argument_group() 對命令行參數進行概念性分組

parser.add_argument('name':parser.add_argument('--bar_that')，parser.add_argument('--foo_that')。parse...

又找到幾個東方财富好用的公式，好強大

OPEN)-MIN(CLOSE;REF(C;REF(V;REF(OPEN;=OPEN>:N)>:OUT;HIGH=MAX(OPEN;CLOSE))&,1)-REF(OPEN;1))/RE...

【東方學霸】行業研究方法實操手冊<第一講>帶你實戰行業研究

帶你實戰行業研究" title="【東方學霸】行業研究方法實操手冊帶你實戰行業研究" />，和你一起實戰行業分析。海量案例，339頁PPT詳實的案例，先把學霸所有的課件都學習學習。必備課程教材的精華都...

Photoshop 2022下載

并提供軟件資源百度網盤下載，您可以輕松編輯、創建、整理和分享您的照片。您可以輕松編輯、創建、整理和共享照片，您還可以使用智能标簽、面部識别等功能快速找到您的照片和視頻，您的目錄結構會自動備份以便于恢複...

Photoshop調出漂亮外景美女夢幻藍色調

教程主要使用Photoshop調出漂亮外景美女夢幻藍色調，其實處理照片時，我們首先需要的是對照片進行風格的設定，這些都是給自己确定自己想要處理成什麼效果。接下來的就是對照片素材進行分析，查看照片素材是...

如何用photoshop制作水面倒影

學習如何用photoshop制作逼真的水面倒影，主要用到了置換濾鏡和圖層蒙版等。首先打開要制作倒影的素材-城堡。把2個圖層的白色部分都删除，底部新建圖層2，之後選擇圖層1，添加蒙版黑白直線漸變。選擇圖...

據稱蘋果iPhone 11和iPhone 11 Max模具表面照片洩露

并允許蘋果提供一個後置人臉ID和更多的增強現實(AR)功能。iPhone XR的續集預計将搭載一個未知尺寸的LCD(液态視網膜)顯示屏。我們應該會看到2019年的iphone與2018年的屏幕尺寸相同...

Photoshop軟件安裝，win系統一鍵安裝介紹，主機配置推薦

有的色彩管理也删除系統色彩不準，adobe已經不支持win7連接服務器。推薦一款在win10+ps2022裡面能勝任工作的配置，并不是推薦多麼好得配置）一、要不要用最新版的Photoshop我覺得是沒...

Photoshop摳圖：隻用一招，快速摳羽毛、玻璃、火焰等黑色背景圖片

我們會看到很多黑色背景的圖片，比如玻璃杯.羽毛和火焰等，這種素材的摳圖方法很多。今天翼狐網小編要做的就是使用一種方法就能統統搞定了，我們用此法摳羽毛來舉例。點擊通道”鍵點擊紅色通道，如下圖出現選區，填...

如何用photoshop批量處理圖片大小

打開一張你要處理的圖片，另存完後關掉圖片。文件－自動－批處理在彈出的對話框中要選填的選項有，選擇你要處理的圖片所在的文件夾覆蓋動作……包含子文件夾……禁止顔色配置警告這三個都勾選上目的，這個動作隻能讓...

一壺淡茶，仍品恬淡生香，經年一笑，我們需要做的：是取一份随意，前行

一壺淡茶，人品恬淡生香，解人生驚與喜，淺淺一醉，再尋一處風景：沉澱出一份淡定，茶香四溢，有緣的你取一份随意前行共品，還有念念難忘的桂花香。有緣的你澱一份淡泊從容之心，淺醉于人情冷暖風景外，又或尋一個心...

用愛心換取一片真誠

我會把孩子直接接到家裡照顧，那就是他在無人照顧的情況曾經在一個夏天把短褲的帶子長到了肉裡。學校的雜費款我給拿上、、、、得知沒穿過新衣服，就能夠在學生的心裡點燃起信心和勇氣。劉老師堅信馬利翁能用真情使石...

計算機犯罪研究系列（一）網絡爬蟲技術的刑事風險

爬蟲的數據收集過程雖然與個人的上網行為類似但又有不同;利用爬蟲技術獲取數據的行為可能涉嫌非法獲取計算機信息系統數據罪”利用爬蟲技術獲得的該部分數據行為則不存在違法犯罪的刑事風險。的數據時則存在涉嫌構成...

陰宅斷财富:A、長房财富具體定位1.正東...

A、長房财富具體定位，東北及南方。東北河流。北方有秀麗山崗，西方有河流，3.穴位東北有堰塘。南方有曲彎形的河流:A、二房财富具體定位，1.北方有秀山，南有河川，西有河流，東方高、南有河流。北有遠來高崗...

合同詐騙罪的非法占有目的不能産生于行為人取得對方财物之後

即行為人在簽訂虛假合同之前就已經具有非法占有對方錢财的故意，而不是行為人非法占有心理與收取财物事實之間的關系，合同詐騙罪之'非法占有目的'的産生時間隻能存在于合同簽訂之前或合同簽訂之後的對方當事人交付...

“天庭”、“耳朵”這樣“橫行”的幾類人，聚八方财，得三代富

橫财運“的象征”其财運會越多，四方财旺，方正神舒。終須穩固，耳朵”聚八方财”天庭橫行，天庭。指的是前額“前額飽滿、開闊，無疤痕，容光煥發。學習能力強，做事持之以恒，極旺，終能成就一番大事，耳垂”的象征...

SEER數據庫系列|SEER數據庫基本介紹

美國國家癌症研究所（National Cancer Institute）的SEER數據庫收集了大約30％的美國人口的癌症診斷。從簡單地按人群中器官部位枚舉癌症的發展到包括通過組織病理學和分子亞型（由驅...

你的數據到底有多重要？這些驚豔的數據可視化案例告訴你 | TED演講

在本文中他分享了數據背後所蘊含的令人意想不到的重量，今天我想跟大家聊聊兩件非常振奮人心的内容，但對蘋果公司我不想說太多。沒有事物可以像電腦那樣改變我們的生活，但我其實也不想聊電腦的事兒。我想聊聊電腦上...

“See the joke”的意思可不是“ 看笑話”！理解錯就尴尬了

有些看似很簡單的英語句子，可能會導緻偏差甚至鬧出笑話”幾個不能直譯的英語句子吧：的意思是”You should speak to him like that.You're going too far....

Three.js框架，菜鳥上路

1．three.js是編寫的WebGL第三方庫。簡單學習視頻;支持、webGl的浏覽器：Three.js核心庫：渲染器對象;場景渲染輸出的目标;6. 有關貼圖的例子:7.stats.js是一個Java...

英語冠詞a,an,the用法大總結！

冠詞（Article）是一種虛詞，零冠詞指的是不用冠詞的情況。隻能放在名詞前幫助說明名詞所指的人或事物，1、不定冠詞（例如英語中的a/an）用來表示這個冠詞後面的名詞是指某一類特定事物中的一個，2、定...

Pain in the ass可不是“屁股痛”，理解錯就尴尬了

是一個特别常用的表達，這個表達的真實含義跟屁股真的沒有關系哦，我們就可以使用這個表達，我知道該更新駕照了，這個新型冠狀病毒真是令人讨厭，在美劇《生活大爆炸》裡面：Penny評價Sheldon時:就用到...

R語言ggplot2畫圖-Pathway富集分析氣泡圖

# 設置工作路徑到數據存放的文件夾下,header=T,pbubble = pp + geom_point(aes(size=R0vsR3，high="red") + labs(color=expre...

python

上一篇
玄空飛星卯山酉向九運挨星下卦以及替卦圖

下一篇
精妙話語：舍得名利，甘願平凡；看淡得失，無憂無慮

Python爬蟲實戰：東方财富網股吧數據爬取（一）

Python爬蟲實戰系列文章目錄

目錄

前言

一、項目說明

二、實施過程

1.明确獲取網頁中哪些數據

2.查看網頁源代碼分析結構

① 網頁源代碼

② 網頁鍊接

3.爬蟲需要具備的功能

4.爬取結果

總結

有話要說...取消回複

最新文章

精辟！聰明的人從不說這4句話，六十歲後千萬别再說了！

實體門店私域引流的10種玩法攻略

幽默笑話：小故事幾則

原來一個好故事都被這個公式拿捏住了

我國蘋果品種及砧木特性大彙總，看這一篇就夠用了！

每日鑒賞|山西太原晉祠楹聯賞讀（一）

經典打法之微笑心法

“豫西中醫界之泰鬥喬保均”治療疑難病60年經驗賞析

熱門文章

每日一誦傷寒論第241條

老張老李侃門球之140篇

診餘雜記（師傳經驗）

為什麼五點鐘要起床答案讓人吃驚！（現在知道還不晚）

這個穴位可以治療多種胃痛腹痛，還可以減肥

治療坐骨神經痛藥酒５方

美麗中國-2870：中國最大的内陸河，塔裡木河

二十四山開門放水作竈真訣開門放水作竈直訣——子山