當前位置：首頁 > 科技 > 正文

抓取百度指數引發的圖像數字識别

啟示号
科技
1年前
161

作者介紹：

葉成，數據分析師，就職于易居中國，熱愛數據分析和挖掘工作，擅長使用倒騰數據。

前言

學習爬蟲也有段時間了，閑着無趣，想找點項目練練手，于是乎通過順祥老師介紹，接到了一個關于百度指數的爬蟲需求。（百度指數可以反映一個詞在一段時間内的搜索熱度，不知道百度指數的同學們可以自行百度）。好的，話不多說，開始我們的項目。

百度指數頁面

百度指數_指數百度com_三倍做空納斯達克指數百度

輸入查詢的關鍵字

百度指數_指數百度com_三倍做空納斯達克指數百度

嗯？跳轉到了登陸界面！（趕緊拿出小本本記下，這裡需要登陸）。

登陸後的展現

三倍做空納斯達克指數百度_百度指數_指數百度com

心中竊喜，腦子裡滿是抓包分析，模拟請求，獲取指數，！！！然而事實并沒那麼簡單，根據爬蟲的套路，需要查看屬性（在上圖中右鍵檢查，找到文件）：

百度指數_指數百度com_三倍做空納斯達克指數百度

正常來說這裡的json文件中應該就有我們需要的文本内容，然而打開後發現它是一張圖片，而且還是一張拼圖，如下圖所示：

并且這個圖片鍊接包含了三個參數，如下圖所示（黃色标出）：

指數百度com_百度指數_三倍做空納斯達克指數百度

看得腦殼都大了，先不說怎麼分析加密參數，就算是破解了拿到圖片鍊接，也無法直接取出需要的數字，因為還需要進行圖像識别…沉思中…沒辦法，打算曲線救國，我們直接模拟鼠标移動，然後截取懸浮的黑框圖片，再進行圖像識别，得到百度指數。新的思路就是這樣，開搞。具體步驟如下：

browser= webdriver.Chrome('C:\\Program Files (x86)\\Google\\Chrome\\Application\\chromedriver.exe')
browser.get('http://index.baidu.com/?from=pinzhuan')
browser.find_element_by_id("schword").clear()
browser.find_element_by_id("schword").send_keys(keys)
browser.find_element_by_id("searchWords").click()
time.sleep(2)
e1 = browser.find_element_by_id("TANGRAM_12__userName")
e1.send_keys("百度賬号")
e2 = browser.find_element_by_id("TANGRAM_12__password")
e2.send_keys("密碼")
e3 = browser.find_element_by_id("TANGRAM_12__submit")
e3.click()

我們使用驅動谷歌浏覽器，定位到輸入框，清空并輸入關鍵詞，跳轉登陸頁面後在登陸百度指數。

browser.maximize_window()
xoyelement = browser.find_elements_by_css_selector("#trend rect")[2]
x_0=1

for i in range(30):
        ActionChains(browser).move_to_element_with_offset(xoyelement, x_0, 0).perform()
        time.sleep(2)
        display = browser.find_element_by_xpath("//*[@id='viewbox']").get_attribute("style")
        style = re.findall('display: (.*?); ',display)[0]
        print(style)        #browser.execute_script(js)
        cot=0
        while style == 'none':
            ActionChains(browser).move_to_element_with_offset(xoyelement, x_0+ random.uniform(0,3), 0).perform()
            display = browser.find_element_by_xpath("//*[@id='viewbox']").get_attribute("style")
            style = re.findall('display: (.*?); ',display)[0]
            browser.execute_script(js)
            time.sleep(1)
            if style == 'block':
                print('viewbox已找到')
                break 
            cot = cot +1
            if cot >200: 
                print('未找到viewbox')                
                break 
        time.sleep(1)
        browser.save_screenshot("E:/downloads/%s.png" %i)

這當中的核心是().(, x_0, 0).()。這個是用來确定鼠标的懸浮位置，我們先是通過css定位到，然後通過(, x_0, 0)，确定偏移的位置，我們這裡使x_0初始值為1，是因為發現為0時數值不出現。

指數百度com_百度指數_三倍做空納斯達克指數百度

下圖中顯示的是, 為了防止鼠标移動時沒有的情況，我們通過判斷樣式是否為隐藏來确定是否出現。

要确保出現後才能進行屏幕截圖。

imgelement = browser.find_element_by_xpath('//div[@id="viewbox"]')
locations = imgelement.location
sizes = imgelement.size
add_length = (len(keys) - 2) * sizes['width'] / 15scroll = browser.execute_script("return window.scrollY;")
top = locations['y'] - scroll
rangle = (int(locations['x'] + sizes['width'] / 4 + add_length), int(top + sizes['height'] / 2),
       int(locations['x'] + sizes['width'] * 2 / 3), int(top + sizes['height']))
img = Image.open("E:/downloads/%s.png"%i)
jpg = img.crop(rangle)
jpg.save('E:/downloads/crop%s.jpg' %i)

先定位到位置，然後我們構建了一個關鍵字長度的公式，以及的範圍的公式，這當中絕大部分參考百度，感謝百度！通過上面的布置，可以把百度指數的圖片給下載下來，接下來的工作就是從這些圖片中進行數字的識别。

三倍做空納斯達克指數百度_百度指數_指數百度com

index = []
for m in range(30):
    jpgzoom = Image.open("E:/downloads/crop%s.jpg" %m)
    (x, y) = jpgzoom.size
    x_s = 2*x
    y_s = 2*y
    out = jpgzoom.resize((x_s, y_s), Image.ANTIALIAS)
    out.save('E:/downloads/zoom%s.jpg' %m, quality=95)
    image = Image.open('E:/downloads/zoom%s.jpg' %m)
    code = pytesseract.image_to_string(image)
    if code:
        code=code.replace('.','').replace(',','')
        index.append(code)
    else:
        code=''
        index.append(code)

with open ('E:/downloads/index.txt','w') as f:
    for item in index:
        f.write(item + '\n')

這裡的主要思想是：先将圖片放大一倍從而提高識别率，然後用這個模塊進行識别，因為我們截取的數字在圖片中十分‘幹淨’，無需做什麼處理，很開心，隻需對識别結果中的 ’,’ 或者是 ’.’ 去除即可。

指數百度com_三倍做空納斯達克指數百度_百度指數

結語

OK，關于百度指數數據抓取的分享就到這裡，歡迎各位網友投稿和交流。如需完整代碼，可關注公衆号并回複“百度指數”。

你可能想看：

關于百度文字識别怎麼找到API_Key和Secret_Key

有些識别文字的軟件需要填寫這兩個key才能識别文字。下面是介紹如何找到這兩個key的方法：使用百度文字識别，必須先有一個百度賬号，然後進入百度智能雲平台，登錄賬号後，點擊立即使用按鈕。點擊左邊的應用列...

西門子磁共振/CT圖像數據導出執行步驟

圖像導出步驟：1、選擇需要導出的圖像:鼠标右鍵選擇需要導出的圖像鼠标右鍵→select series：設置好選項後點OK即執行導出圖像到目标文件夾，4 、進入到上一步驟路徑文件夾，5、點擊左側文件夾C...

常用辣椒辣度指數排名

辣椒的辣主要體現在辣椒素的含量上。其辣度比四川小米辣還要辣，适用于需要提升辣味的菜肴中，适合炒龍蝦、鹵菜、串串香、高檔火鍋炒料漂鍋等使用，色澤美豔、辣味高、皮厚、久煮不爛、香味濃郁實乃火鍋炒料上上之選...

“1÷0＝？”引發的深度思考

老師就告訴我們1÷0是沒有意義的運算（即在加減乘除運算法則中不存在1÷0的運算結果），利用簡單的乘除運算法則就可以證明它是不對的。數學中0不能做分母。在數學中定義1為數值的基本單元：0的數學意義隻存在...

腳拉腳模型引發的聯想！

1、為什麼外地的教師都做不出來本地的考題，開發區七中學生的數學平均分更是高達124分。許多外省市的教師都無法完整準确地解答，重要的一個原因在于我們的教研員、教師的業務能力強，但如果你知道這批學生在以前...

“有意義的”教育思想從何而來 ——由教育學界“尊奉”西方話語的現象引發的思考吳康甯

青年學人們似乎是若不頻頻引述西方學者的概念與觀點便不足以展開任何問題，在自己的論著結尾不開列一長串西方參考文獻目錄便不足以表明論著本身的思想深度與學術蘊涵，他們充其量隻是扮演了西方思想的消費者、西方學...

引流一哥：如何利用百度下拉框、百度網盤引流？

百度知道、百度貼吧引流，百度下拉框和百度網盤，百度網盤屬于百度雲的重點服務項目，是百度力推的雲儲藏服務，以分享網盤密碼的方式獲得粉絲的聯系方式“網盤引流方式真的特别多配合其他東西比較好用，百度下拉框引...

如何對指數基金進行估值？影響指數基金收益的三大因素

在久經曆史考驗、享譽世界的指數估值策略中，與格雷厄姆的盈利收益率法同樣出名的博格公式法。對各類影響股市長期回報的因素進行了分析和系統化的整理。總結出了決定股市長期收益的三大影響因素，那麼影響指數基金收...

自媒體熱點指數工具，做自媒體必知的幾個關鍵詞指數查詢工具！

一個非常重要的技能就是追熱點，百度風雲榜展示的實時的每天熱點和七日網民關注熱點，很多自媒體人都在上面尋找熱點，有些時候還會搭配百度指數來進行操作，那麼就說明關注自媒體的人比較多，而且微博在更新了規則變...

籌碼集中度指标（含選股）

=(COST(65)+COST(35))/2;AJ:(COST(65)-COST(15))/(COST(25))*100,IF(CAPITAL>CAPITAL*22/100));AJ:=(AJ1+AJ...

數字與健康 | 為了爸媽身體健康，請記住這些數字

數字覺醒理論就是根據對一個人的先天和後天的數字磁場來了解一個人的身體健康，現在對我們影響較大的就是我們經常使用的手機号碼（這屬于後天磁場，人的正常機體運轉、工作、生活等各項活動都是需要消耗陽氣的。陽氣...

數字磁場解析法 | 數字磁場與姓名學解析

每一個人從呱呱墜地時起都需要一個符号來代表自己，這些名字是由不同的漢字組合而成”每個漢字的具體的含義都是不同的，人的姓名按筆畫是可以轉化成數字的，華夏子孫從古至今的姓名格局大體上是四中，現代社會中姓名...

中國數字PCR領域最大融資出爐，新羿生物數字PCR産品已獲國家醫療器械上市許可

融資金額将用于新羿生物數字 PCR 平台的進一步發展，相關産品的臨床應用及商業化布局，同時推動分子診斷試劑盒等的研發。數字 PCR（dPCR）也是對核酸進行定量的一種技術，是對起始樣品的一種絕對定量。...

薛雲峰：分享給大家的01到99數字編碼(數字樁)

記憶方法記憶基礎快速記憶數字編碼數字樁，在我們學習記憶方法的過程中，數字編碼（有的人也稱之為數字樁）是一個非常重要的内容。它既可以當作我們記憶其他信息知識的載體，又是世界腦力錦标賽中必不可少的一個項目...

二次函數圖像與相似三角形綜合問題研究

從近幾年各省市中考數學命題特點來看,二次函數和相似三角形以動點的方式出現在壓軸題中比較多見,主要分為一般三角形和特殊三角形兩種.無論是這兩種的哪一種,其綜合程度都非常複雜,難度較高,對考生具有較高的綜...

【教學實錄】電路圖像分析與計算（一）

滑動變阻器的滑片P從b端滑到a端,電壓表示數U與電流表示數/的變化關系如圖乙所示,B.定值電阻R的阻值是6Ω,C.滑動變阻器的阻值範圍是0~18Ω,D.若定值電阻R出現接觸不良時,電流表示數為0,探究...

海外流失觀世音圖像的繪畫風格及其藝術價值

這在有關觀音圖象的繪制中也充分表現出來。閻立本、楊庭光、盧楞伽、孫位、王齊翰、周文矩、武宗元、李公麟等人所作觀音圖像，這批散佚觀世音圖象基本囊括了唐、五代、兩宋道釋人物畫盛行時不同時期的作品，從中可以...

地理圖像賞析94：不同區域的抖音帶貨主播人數分布

抖音帶貨主播主要集中在東部發達地區，東部發達地區抖音帶貨主播人數占全國總人數的60.54%；西部地區占比15.64%(圖3)。其中廣東、浙江、北京、上海這些經濟發達的地區占全國抖音帶貨主播總人數的42...

【攝影講評】相機設定對圖像清晰度的影響第1695講？

照片的清晰度和對鏡頭的調焦準确有關。就是在拍攝過程中相機相鏡頭相對于被攝場景或對象的位置沒有任何（哪怕是特别微小）的變化，俗稱相機鏡頭的抖動影響成像清晰度。其一是借助三腳架穩定相機拍攝（三腳架的作用是...

地理圖像賞析123：東亞夏季風時的季風水汽輸送帶主要類型

圖５是東亞夏季風時的季風水汽輸送帶主要類型圖。它是根據中國近５０年的東亞雨季水汽輸送路徑與重大暴雨個例概括出來的[１６￣１９]。在東亞夏季風盛行時期。

21年諾貝爾物理學獎得主，其量子化技術可能會引發一場物理變革

将一個簡單的一維彈簧系統變成了一個量子諧振子，薛定谔方法中的量子化涉及到。創造和湮滅算子可以增加或減少一個波函數狀态的能量水平。另一個問題是薛定谔的方法（稱為經典量子化）忽略了物理學的一個基本特征。經...

Cell Reseach：caspase11切割gasderminD引發“細胞焦亡” - 基因編輯專區 - 生物谷

這些炎性caspase的激活能夠促進細胞焦亡事件的發生，炎性caspase究竟是如何調節這些細胞事件至今仍然有待解決。該蛋白的切割能夠引發細胞焦亡事件的發生。他們發現這一突變體小鼠不能夠正常發生細胞焦...

引發孩子主動學習的動力，家長需要做到這幾點

今天的分享我會結合另一本書叫做《孩子如何學習》一起來分享；4、什麼才是适合孩子的學習方式，人在孩子階段是一個非常強大的學習機制，孩子需要在時間的發酵之下一步一步地構建自己的學習圖景，這是因為老二要努力...

為什麼在職場上圓滑的人總能受到提拔？這幾點引發深思

八面玲珑非常圓滑的人應該不是很受人喜歡。發現領導就是很喜歡那些圓滑的人，經常邀功領導也會相信。首先是圓滑的人都非常的有表現欲望。領導和員工相處的時間其實不多，認為在領導面前表現自己是在鑽營。也可以選擇...

任性太後鬥渣男，如何引發國際大戰？||都铎玫瑰二十五

使得英國國教實質上變成了以國王為至尊的迷你版天主教。将愛爾蘭和蘇格蘭納入有效統治，克倫威爾的政治改革計劃是英格蘭與威爾士合并的前奏。英國的法律和郡縣管理方法擴展到整個威爾士，英格蘭人将合并看作威爾士終...

“偷拍黑産鍊”遭央視曝光，無孔不入，隐私不再，引發社會恐慌

眼睛可能在房間裡任何地方？現在已不是以前那種某一個變态狂在酒店安裝攝像頭，甚至可以通過APP遠程實時窺探受害者的一舉一動，這意味着購買了這些ID和密碼的變态狂，原來他家裡的攝像頭被不法分子破解。原來這...

有了這7個百度網盤搜索工具，找資料方便多了！

但是自己卻沒有一個PPT模闆，于是小編就找來了一些可以搜盡全網資源網盤搜索神器。那些喜歡騙關注掃碼的，要登錄的，下載地址不安全的全部沒有。91bt.vip：聚合網址導航，什麼資源都可以找到。一鍵直達百...

百度指數

上一篇
觀音土的用途與價值觀音土能吃嗎土少量吃

下一篇
誅仙手遊幫派系統怎麼玩誅仙手遊幫派系統解析

抓取百度指數引發的圖像數字識别

有話要說...取消回複

最新文章

“豫西中醫界之泰鬥喬保均”治療疑難病60年經驗賞析

回憶、健忘和灑脫

弘一法師：“真的不忍心告訴你，這個世界隻是一個夢。你一輩子執

心理學，準的讓你驚叫

人生，成大器者有四識，知識、見識、膽識、遠識

俞和：被遺忘的書法家，以古為師，創新在手！

2024屆新高考II卷語文真題答案及解析

生前隻是小人物，死後震驚史學界

熱門文章

每日一誦傷寒論第241條

老張老李侃門球之140篇

這個穴位可以治療多種胃痛腹痛，還可以減肥

為什麼五點鐘要起床答案讓人吃驚！（現在知道還不晚）

治療坐骨神經痛藥酒５方

診餘雜記（師傳經驗）

美麗中國-2870：中國最大的内陸河，塔裡木河

二十四山開門放水作竈真訣開門放水作竈直訣——子山