當前位置：首頁 > 科技 > 正文

python爬蟲——站酷數據獲取

啟示号
科技
2年前
161

1.站酷數據獲取

其中需要注意，本文使用了IP代理，以及不同的作品類型，他們詳情頁url拼接方式不同

import random
import time
import datetime
import requests
import threading
from lxml import etree
import pymysql
class ZhankunSpider(object):
def __init__(self):
self.url = 'https://www.zcool.com.cn/p1/discover/first?p={}&ps=20'
self.mysql = pymysql.connect(host='localhost', database='tenders', port=3306, user='root',
password='123456')
self.cur = self.mysql.cursor()
self.blog = 1
def proxy_get(self):
procy = requests.get(
r'放入IP代理鍊接').json()['data'][0]
proxy = str(procy["ip"]) + ':' + str(procy["port"])
http = 'http://' + proxy
https = 'https://' + proxy
self.proxys = {'http': http,
'https': https}
print(self.proxys)
# result = requests.get('https://www.baidu.com/',verify=False)
result = requests.get('https://www.baidu.com/')
print(result.status_code)
if result.status_code != 200:
self.proxy_get()
time.sleep(0.2)
return
# self.expire_datetime = datetime.datetime.now() + datetime.timedelta(seconds=60)
def _check_expire(self):
self.expire_datetime = datetime.datetime.now() + datetime.timedelta(seconds=60)
if datetime.datetime.now() >= self.expire_datetime:
self.proxy_get()
# 發送請求
def get_html(self, url):
if self.blog <= 3:
try:
datas = {
'p': 'i',
'column': 5
}
headers = {'Cookie': '登陸後cookie',
'User-Agent':'',}
json_ids = requests.get(url=url, headers=headers, data=datas).json()
return json_ids
except Exception as e:
print(e)
self.blog += 1
self.get_html(url)
# 解析提取數據
def parse_html(self, url):
json_ids = self.get_html(url)
self._check_expire()
if json_ids:
time.sleep(1)
for dic in json_ids['datas']:
titles = dic['content']['title']  #題目
types = dic['content']['typeStr']
viewCountStrs = dic['content']['viewCountStr']   #浏覽量
subCateStrs = dic['content']['subCateStr']
cateStrs = dic['content']['cateStr']
url13 = 'https://www.zcool.com.cn/p1/product/'+dic['content']['idStr']
urll = dic['content']['pageUrl']
headers1 = {
'Cookie': '',
'User-Agent': '', }
# self._check_expire()
if 'work' in urll:
url2 = 'https://www.zcool.com.cn/p1/product/' + dic['content']['idStr']
try:
json_idss = requests.get(url=url2, headers=headers1, proxies=self.proxys, timeout=3).json()
except:
self.proxy_get()
json_idss = requests.get(url=url2, headers=headers1, proxies=self.proxys, timeout=3).json()
time.sleep(1)
for dici in json_idss['data']['productImages']:
datass = dici['url']
else:
url2 = 'https://www.zcool.com.cn/p1/article/' + dic['content']['idStr']
try:
json_idss = requests.get(url=url2, headers=headers1, proxies=self.proxys, timeout=3).json()
except:
self.proxy_get()
json_idss = requests.get(url=url2, headers=headers1, proxies=self.proxys, timeout=3).json()
time.sleep(1)
# datass = json_idss['data']['id']
for dici in json_idss['data']['creatorObj']['contentCards']:
datass = dici['cover1x']
timeStamp = dic['content']['timeTitleStr']
# timeArray = time.localtime(timeStamp)  # 轉化成對應的時間
# otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray)  # 字符串
# date = otherStyleTime
photo = dic['content']['cover1x']
data = {
'title': titles,
'urls': url13,
'address': timeStamp,
'configuration': types,
'grade': viewCountStrs,
'collections': subCateStrs,
'price': cateStrs,
'unit': photo,
'photoadress': datass
}
print(data)
self.save_mysql(data)
def save_mysql(self, data):
# str_sql = "insert into ftx values(0, '{}', '{}');".format(data['first_category'],data['second_category'])
str_sql = "insert into meituan values(0, '{}', '{}', '{}', '{}', '{}', '{}', '{}', '{}', '{}');".format(
data['title'],  data['urls'],data['address'], data['configuration'], data['grade'], data['collections'],
data['price'], data['unit'], data['photoadress'])
self.cur.execute(str_sql)
self.mysql.commit()
def __del__(self):
self.cur.close()
self.mysql.close()
# 入口函數
def run(self):
try:
for i in range(1,5):
url = self.url.format(i)
print(i)
# self.get_html(url)
                self.parse_html(url)
time.sleep(random.randint(2, 4))
# 每次抓取一頁要初始化一次self.blog
self.blog = 1
except Exception as e:
print('發生錯誤', e)
if __name__ == '__main__':
spider = ZhankunSpider()
spider.run()

2.結果展示

你可能想看：

整理python爬蟲過程中會遇到的問題，以及如何解決這些問題的方法

在使用python爬蟲的過程中，現在我們就來探讨下這些在python爬蟲的過程中可能遇到的問題，一般網頁的開發者為了不讓自己的js代碼輕易被别人拷貝，我們可以通過debug來找到js加密解密的代碼，爬...

python的基本語法和腳本格式

我們在上一篇文章中已經學會了如何簡單的運行python命令和腳本，當Python解釋器讀取源代碼時，第二行注釋是為了告訴Python解釋器:Python在語義中存在着包、模塊、類（當然還有函數）這幾個...

對比Excel，輕松學習Python報表自動化實戰，這篇教程有點肝!

輕松學習Python報表自動化》中關于報表自動化實戰的内容。并教你用Python實現工作中的一個報表自動化實戰，1.Excel的基本組成2.一份報表自動化的流程3.報表自動化實戰 -當日各項指标同環...

python 知識點大全，建議收藏留用！

經常有讀者問我 Java、C++、Python 這些語言怎麼選擇，這兩門語言想要學好、學透都不容易，一些開發非常便捷、庫非常豐富的語言也可以掌握一下，從後台開發 Flask、AI、數據分析、爬蟲......

python中使用argparse.add_argument_group() 對命令行參數進行概念性分組

parser.add_argument('name':parser.add_argument('--bar_that')，parser.add_argument('--foo_that')。parse...

circbase數據庫環狀RNA序列獲取方法 | 環狀RNA社區

小編邀請技術部的劉建甯老師繼續為大家實例講解circRNA的引物設計。我們以環狀RNA數據庫circbase（http:為小夥伴詳細介紹從circRNA序列獲取到引物設計的全過程。在Search上方的...

Photoshop 2022下載

并提供軟件資源百度網盤下載，您可以輕松編輯、創建、整理和分享您的照片。您可以輕松編輯、創建、整理和共享照片，您還可以使用智能标簽、面部識别等功能快速找到您的照片和視頻，您的目錄結構會自動備份以便于恢複...

Photoshop調出漂亮外景美女夢幻藍色調

教程主要使用Photoshop調出漂亮外景美女夢幻藍色調，其實處理照片時，我們首先需要的是對照片進行風格的設定，這些都是給自己确定自己想要處理成什麼效果。接下來的就是對照片素材進行分析，查看照片素材是...

如何用photoshop制作水面倒影

學習如何用photoshop制作逼真的水面倒影，主要用到了置換濾鏡和圖層蒙版等。首先打開要制作倒影的素材-城堡。把2個圖層的白色部分都删除，底部新建圖層2，之後選擇圖層1，添加蒙版黑白直線漸變。選擇圖...

據稱蘋果iPhone 11和iPhone 11 Max模具表面照片洩露

并允許蘋果提供一個後置人臉ID和更多的增強現實(AR)功能。iPhone XR的續集預計将搭載一個未知尺寸的LCD(液态視網膜)顯示屏。我們應該會看到2019年的iphone與2018年的屏幕尺寸相同...

Photoshop軟件安裝，win系統一鍵安裝介紹，主機配置推薦

有的色彩管理也删除系統色彩不準，adobe已經不支持win7連接服務器。推薦一款在win10+ps2022裡面能勝任工作的配置，并不是推薦多麼好得配置）一、要不要用最新版的Photoshop我覺得是沒...

Photoshop摳圖：隻用一招，快速摳羽毛、玻璃、火焰等黑色背景圖片

我們會看到很多黑色背景的圖片，比如玻璃杯.羽毛和火焰等，這種素材的摳圖方法很多。今天翼狐網小編要做的就是使用一種方法就能統統搞定了，我們用此法摳羽毛來舉例。點擊通道”鍵點擊紅色通道，如下圖出現選區，填...

如何用photoshop批量處理圖片大小

打開一張你要處理的圖片，另存完後關掉圖片。文件－自動－批處理在彈出的對話框中要選填的選項有，選擇你要處理的圖片所在的文件夾覆蓋動作……包含子文件夾……禁止顔色配置警告這三個都勾選上目的，這個動作隻能讓...

計算機犯罪研究系列（一）網絡爬蟲技術的刑事風險

爬蟲的數據收集過程雖然與個人的上網行為類似但又有不同;利用爬蟲技術獲取數據的行為可能涉嫌非法獲取計算機信息系統數據罪”利用爬蟲技術獲得的該部分數據行為則不存在違法犯罪的刑事風險。的數據時則存在涉嫌構成...

曹淵：還有誰想輕松打造會員系統獲取源源不斷的客戶……

當然我們很多人還沒有達到賣項目賣資格賣股權的這個層面。所以說你僅僅研究如何賣會員就足夠你去賺的盆滿缽滿，當你自己想不出來自己這個行業用什麼賣會員的方法的時候，就會自我設限的認為賣會員的方法在我這個行業...

如何獲取互聯網上最好賺錢的産品的6個黃金法則

互聯網賺錢就是找到一款有人願意掏錢購買的産品，通過網絡賺錢隻需要三步，為什麼很多人都沒有在互聯網上獲得高的收入。今天我們就談下互聯網選取産品的黃金法則？你要去賣那些能夠治愈客戶創傷或者是痛苦的産品：這...

如何識别并阻擊多方炮獲取利潤？

多方炮是指連續的三根K線中，出現多方炮形态，表明第一天多方主導盤面向上開炮，第三天多方再次主導盤面向上開炮，則後期往往會有一波較大的漲幅，中長期趨勢向上出現多方炮：一定要深入分析多方炮形成的内在原因及...

SEER數據庫系列|SEER數據庫基本介紹

美國國家癌症研究所（National Cancer Institute）的SEER數據庫收集了大約30％的美國人口的癌症診斷。從簡單地按人群中器官部位枚舉癌症的發展到包括通過組織病理學和分子亞型（由驅...

你的數據到底有多重要？這些驚豔的數據可視化案例告訴你 | TED演講

在本文中他分享了數據背後所蘊含的令人意想不到的重量，今天我想跟大家聊聊兩件非常振奮人心的内容，但對蘋果公司我不想說太多。沒有事物可以像電腦那樣改變我們的生活，但我其實也不想聊電腦的事兒。我想聊聊電腦上...

“See the joke”的意思可不是“ 看笑話”！理解錯就尴尬了

有些看似很簡單的英語句子，可能會導緻偏差甚至鬧出笑話”幾個不能直譯的英語句子吧：的意思是”You should speak to him like that.You're going too far....

Three.js框架，菜鳥上路

1．three.js是編寫的WebGL第三方庫。簡單學習視頻;支持、webGl的浏覽器：Three.js核心庫：渲染器對象;場景渲染輸出的目标;6. 有關貼圖的例子:7.stats.js是一個Java...

英語冠詞a,an,the用法大總結！

冠詞（Article）是一種虛詞，零冠詞指的是不用冠詞的情況。隻能放在名詞前幫助說明名詞所指的人或事物，1、不定冠詞（例如英語中的a/an）用來表示這個冠詞後面的名詞是指某一類特定事物中的一個，2、定...

Pain in the ass可不是“屁股痛”，理解錯就尴尬了

是一個特别常用的表達，這個表達的真實含義跟屁股真的沒有關系哦，我們就可以使用這個表達，我知道該更新駕照了，這個新型冠狀病毒真是令人讨厭，在美劇《生活大爆炸》裡面：Penny評價Sheldon時:就用到...

R語言ggplot2畫圖-Pathway富集分析氣泡圖

# 設置工作路徑到數據存放的文件夾下,header=T,pbubble = pp + geom_point(aes(size=R0vsR3，high="red") + labs(color=expre...

25個讓你相見恨晚的 iPhone 使用技巧！

但手機中隐藏着許多實用的操作技巧，從圖片管理、工具調用、文檔編輯、界面設置等四個方面整理出了25個最實用的使用技巧。iPhone如何使用專業模式拍照，iPhone的「小組件」功能可以快速啟動Ligh...

蘋果被中國大學生組團告上法庭：買iPhone不送充電器？賠錢！

方同學及小組成員就向蘋果電子産品商貿（北京）有限公司所在的北京市東城區人民法院提出立案申請，蘋果公司代理人拿出了一份工信部關于引導消費者、銷售企業、生産企業觀念改變。促使手機與電源适配器分離銷售的提案...

酒店OTA運營之美團篇：美團HOS解析

HOS是有美團酒店推出的一個商家綜合運營能力評估體系，通俗的講相當于您酒店經營的健康指數，HOS包括四大系統（HOS指數、積分金币、HOS權益、違規違約），HOS指數+積分金币+HOS權益+違規違約：...

上一篇
大賣攻略在這！2023跨境賣家熱門節點營銷怎麼做？趕緊收藏！

下一篇
充電風扇怎麼樣？收費風扇價格

python爬蟲——站酷數據獲取

有話要說...取消回複

最新文章

“豫西中醫界之泰鬥喬保均”治療疑難病60年經驗賞析

回憶、健忘和灑脫

弘一法師：“真的不忍心告訴你，這個世界隻是一個夢。你一輩子執

心理學，準的讓你驚叫

人生，成大器者有四識，知識、見識、膽識、遠識

俞和：被遺忘的書法家，以古為師，創新在手！

2024屆新高考II卷語文真題答案及解析

生前隻是小人物，死後震驚史學界

熱門文章

每日一誦傷寒論第241條

老張老李侃門球之140篇

診餘雜記（師傳經驗）

為什麼五點鐘要起床答案讓人吃驚！（現在知道還不晚）

這個穴位可以治療多種胃痛腹痛，還可以減肥

治療坐骨神經痛藥酒５方

美麗中國-2870：中國最大的内陸河，塔裡木河

二十四山開門放水作竈真訣開門放水作竈直訣——子山