當前位置：首頁 > 科技 > 正文

某網站小電影的爬取

啟示号
科技
2年前
141

我們以爬取最新電影為例：

image.png

思路：先獲取電影的URL，然後在根據URL來分析網頁，最後提取我們需要的信息。

image.png

我們檢查網頁源碼可以發現，我們所要提取的每一部電影的詳細URL在

下面的每一個下面的href屬性，隻要找到每一部電影的URL，我們離爬取電影詳情就更加靠近了。

獲取每一部電影的詳細URL

import requests
from lxml import etree
header = {"User-Agent" :
        "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36",
          "Referer" : "https://www.dytt8.net/"}
BASE_DOMAIN = 'https://www.dytt8.net/html/gndy/dyzz/list_23_1.html'
response = requests.get(BASE_DOMAIN, headers=header)
text = response.text
html = etree.HTML(text)
all_a = html.xpath("//div[@class='co_content8']//a")
for a in all_a:
    b = "https://www.dytt8.net"
    href = a.xpath("@href")[0]
    if href.startswith('/'):
        a_href = b + href
        # print(a_href)
        url = a_href
        print(url)

接下來就是最重要的了，對我們獲取到的電影詳細頁面進行解析，提取我們需要的信息。

首先獲取電影的發布時間和海報的鍊接：

response = requests.get(url, headers=header)
        text = response.content.decode('gbk')
        html = etree.HTML(text)
        movie = {}
        time = html.xpath("//div[@class='co_content8']/ul//text()")[0].strip()  # strip用來清除空格
        movie['time'] = time
        image = html.xpath("//div[@id='Zoom']//img/@src")[0]
        movie['image'] = image

接下來就是獲取電影的名字，産地，導演等信息：

Zooms = html.xpath("//text()")
        for index, info in enumerate(Zooms):
            if info.startswith("◎年　　代"):
                info = info.replace("◎年　　代", "").strip()
                movie['info'] = info
            elif info.startswith("◎主　　演"):
                actors = []
                for x in range(index + 1, len(Zooms)):
                    actor = Zooms[x].strip()
                    # print(actor)
                    if actor.startswith("◎"):
                        break
                    actors.append(actor)
                movie['actor'] = actors
                print(movie)

最後就是我們的運行結果了（示例）：

image.png

之後我們可以按照需求，将我們最終爬取到的詳細信息保存到或者是Mysql當中，這裡就不在演示怎麼保存了！好了，到這裡我們這個爬蟲小項目就算是完成了。

感興趣的朋友可以自己即嘗試一下，我們下期再見！

你可能想看：

練習手繪之壓箱底秘籍！拿走，不謝！（内有小電影）

一看又快一周未更偷懶成習發現也好久沒有自拍小視頻了，這再不自導自演下估計要無緣今年的金雞百花奧斯卡之島國最佳男主角了回首之前玩的幾個小視頻，感覺确實比較low因為之前也沒有什麼視頻編剪輯的機會，直接就...

舉例說明JMETER的用法-某網站壓力測試

注意jmeter在測試時會把生成的文件比如htm等直接放在bin目錄裡，即模拟多線程同時登錄和查詢。紅色部分為軟件設置說明沒有包括在報告中。每個連接均執行1次登錄及10次查詢操作。右鍵單擊循環控制器裡...

【看電影學中醫】中醫類電影錦集

影片以厚重的中醫文化底蘊和精彩的藝術形式，該片以厚重的中醫文化底蘊和精彩的藝術呈現征服了好萊塢的40多位評委“這本凝聚了李時珍三十年心血的偉大藥物學著作終于被刻版印出。葉天士出手治傷、治匪于膏肓、奇藥...

學習電影剪輯沒有素材？這8個音視頻網站夠你用了！

Mixkit同樣也是一個免費可商用的視頻素材網站，該網站視頻素材偏重于都市生活、辦公化場景:這也是一個免費的視頻素材網站，Pexels是一個免費無版權的圖庫以及視頻素材網站，可在該網站上搜索下載高清圖...

花卉攝影的創作程式

花卉攝影的創作程式牡丹花尤其是寫意、包含大寫意花鳥畫，幾乎從少年到老年、從手機到單反，無論人物、建築、風光、街拍、花花草草、鳥兒昆蟲，拍出具有較高審美性和藝術性的作品，能夠達到...

調理手顫、手麻、腳麻、面部神經麻痹，記住這幾個立竿見影的穴位

可治手顫（左右手臂内側），按揉足太陰脾經的公孫穴，若配以心包經的内關穴同時使用，手麻、胳膊麻、胳膊肘痛、食指痛。經絡技巧公衆号提示一旦心血管系統的功能出現障礙，所以腦供血不足手腳冰冷又和心髒血管有很大...

淺談攝影的看圖與讀圖

學習攝影的過程，也是提高攝影技藝和提升創作水平的重要方法，應該貫穿一個攝影人的全部攝影過程，藝術的表達方式也是不斷發展的，攝影創作的思路也應該與時俱進，現就攝影不同階段的看圖、讀圖：雖然這個階段對攝影...

和林徽因合影的“她”是誰？

【導讀】五台山佛光寺東大殿知名度甚高，且集唐代彩塑、壁畫、墨書題記等多種珍貴遺存于一殿”現存寺院塑像竟達14萬餘身，崔元和先生集多年心血而成的學術專著《五台山寺院造像稽考》（上、下）。為近年來五台山佛...

立杆見影的小方子

所涉及到各類藥方、驗方僅做信息分享，如有需要請在醫生的指導下辯證使用,公布一個治痱子立杆見影的小方子,每次胃痛時開水送服3分,再對症下湯藥治本：這是我屢試屢驗的祖傳秘方.今忍心将此公開：再放入煎好的川...

「學習網站推薦」悄悄提升自己必備：7個高質量免費的網站！

一起收藏這些高質量的免費學習網站學習起來吧，并提供讓學習者互相交流的讨論區和課程筆記區，用中文更加輕松、直接的探讨和分享學習内容。一個專注職業技能提升的在線學習平台。與多家教育培訓機構和行業的專家、講...

【廣東】胡錦華《電影“長津湖”觀後感》指導老師：鄧麗紅

電影《長津湖》觀後感，我看了一部愛國主義電影---《長津湖》，這部影片講的是1950年美軍想占領朝鮮。我們偉大的領袖毛主席知道這場戰役必将唇亡齒寒，也沒有任何先進的武裝設備的情況下還是決定出兵抗美援朝...

COVID-19将會徹底改變電影藝術

一種神秘的病毒在數天之内導緻了無數痛苦的死亡，死亡人數在1700萬到1億之間——這一事件的數據至今仍不準确——并從根本上改變了社會的進程。唯一能做的就是将患者與社會上的其他人隔離開來，他們不知道這場大...

100部老電影欣賞【經典視聽】

歲月的光影在記憶的年輪中老去，在一遍遍電影的回放中複活重生，電影就是孩子窺視世界的啟蒙之門，想到電影中的景象，沉到懷舊的夢境中去，它的導遊也會曆數家珍般提到這個電影、拍電影的過程，老電影的情感表達也許...

5分鐘講完一部電影：如何通過影視解說号賺錢？

可能你會想起毒舌電影、烏鴉電影……曾經野蠻增長過的抖音影視解說市場中，出現了很多年收入百萬到千萬級别的自媒體賬号，船員們正在準備進行自己第一批解說視頻的制作。其中包含了影視解說号在起号階段重點要做的心...

刷完25部007電影，科學家認為，邦德太不講個人衛生了！

詹姆斯邦德遇到的與旅行相關的健康威脅。花費了大約 3113 分鐘對 25 部 007 系列電影進行了系統分析法案發現——，全球跑的詹姆斯·邦德要是再不注意個人衛生，這個研究團隊具體發現了哪些健康風險”...

電影《羅馬假日》主題曲--《難以忘懷》吉姆·裡夫斯

《Am I That Easy To Forget（難以忘懷）》是電影《羅馬假日》的主題曲。故事講述了一位歐洲某公國的公主與一個美國記者之間在意大利羅馬一天之内發生的浪漫愛情故事。他甜美的男中音在溫暖...

流浪題材不應讓科幻淪為流浪——電影《流浪地球》面面觀

隻看美國科幻大片而不見相關中國作品的身影，中國人的藝術想象力超脫現實後就隻限于盜墓西遊和打怪嗎？《流浪地球》非常迎合時宜地為中國探測器二次登月成功做了側面注腳。中國人看了以後心裡挺美、挺得意——我們中...

視覺法與心理預演：你腦内的電影院

我們以類似的方式學習幾乎所有知道如何做的事情。大腦和身體如何達到所學習技能變得自動掌握的程度，一個人可以在他們的大腦中想像完成一個物理運動技能，他們通過想像自己在每天與第一組相同的時間長度的經驗中心理...

36萬人推薦！豆瓣9.0分：這部電影，道盡了人生八苦！

生動刻畫了人生不同階段面臨的困惑：帶我們再次溫習了每個人的成長旅途,8歲小男孩洋洋一家參加舅舅婚禮，媽媽照顧外婆期間心理崩潰”洋洋用氣球模仿舅媽懷孕的大肚子，或許這是楊德昌留給世人的思考吧。看見生命的...

讓·雷諾阿電影經典：大幻滅

在獄中表現出了的不同的态度和性格（曾寫過小說的雷諾阿在拍攝中非常善于刻畫人物性格），非常生活化的交流和聯歡讓我們感覺到他們似乎是一群玩過家家遊戲的孩子，三名軍官卻被重新調配到更高級的戰俘集中營中以防備...

百部精典電影随你選随你看！

0893:42バーは酩酊する女子＜三＞點擊以上片名:(即看精采電影)。

人民日報公布了24部兒童必看的電影，每一...

帶孩子認識世界，教會孩子堅強，讓孩子擁有直面困難的勇氣。很多家長抱怨孩子在家就玩手機、看電視，其實父母可以轉換一些思維，選擇和孩子共同做一些事情。可以陪孩子看看兒童電影，通過電影的情節教育孩子，新手爸...

《聞香識女人》影評_影評_電影頻道_鴻波網視

其實《聞香識女人》更是一部男人的電影，那還是因為影片男主人公的生活裡面缺少着太多的情感生活，有點專注着描繪那些有關于聞香識女人的情形了，那一曲探戈舞幾乎成為了這一部影片男主人公個性生活的一個活性注解。...

十部歐美經典電影經典語錄、經典台詞

有些鳥兒是注定不會被關在牢籠裡的。3.Hope is a good thing and maybe the best of things. And no good thing ever dies.希望...

電影分析《摔跤吧！爸爸》

的熱血養成史以及片中嚴厲苛刻的父親形象在國内觀衆中引發了熱議，卻将為印度赢得世界金牌的夢想寄托在有驚人摔跤天賦的女兒吉塔和巴比塔身上，慢慢在這個過程中理解了父親、找到了人生的意義與價值，就能夠猜到是以...

《二十四孝》微電影 08 拾葚異器

蔡順拾葚蔡順喪父。拾葚奉母。赤黑分筐。漢蔡順、少孤。事母孝。遭王莽亂。赤者自食。火遂越燒他室。人子于丁艱之際。抱而号哭。火越他宅。拾葚猶其餘事耳。他服事母親，那時候正逢着王莽的變亂，沒有飯吃了。...

《二十四孝》微電影 09 埋兒奉母

《二十四孝》微電影 09 埋兒奉母。郭巨埋兒。漢郭巨、字文舉。子尚幼。一日、子溺斃。妻惶泣。盍埋之。妻不敢違。遂掘坑三尺。始知子可再有。母不可複得之言。孰謂皇天無眼耶，他有個兒子還很幼小，郭巨的母親常...

url

上一篇
郭晶晶祖孫三代罕見同遊海洋館，公公打扮年輕，三個娃眼睛都像爸

下一篇
世界上最悲傷的雕像，用10萬把刀打造，每把背後都是一樁兇殺案

某網站小電影的爬取

有話要說...取消回複

最新文章

“豫西中醫界之泰鬥喬保均”治療疑難病60年經驗賞析

回憶、健忘和灑脫

弘一法師：“真的不忍心告訴你，這個世界隻是一個夢。你一輩子執

心理學，準的讓你驚叫

人生，成大器者有四識，知識、見識、膽識、遠識

俞和：被遺忘的書法家，以古為師，創新在手！

2024屆新高考II卷語文真題答案及解析

生前隻是小人物，死後震驚史學界

熱門文章

每日一誦傷寒論第241條

老張老李侃門球之140篇

診餘雜記（師傳經驗）

為什麼五點鐘要起床答案讓人吃驚！（現在知道還不晚）

這個穴位可以治療多種胃痛腹痛，還可以減肥

治療坐骨神經痛藥酒５方

美麗中國-2870：中國最大的内陸河，塔裡木河

二十四山開門放水作竈真訣開門放水作竈直訣——子山