當前位置：首頁 > 科技 > 正文

全網獨家有效一鍵爬取微信公衆号所有文章，原樣保留格式成PDF

啟示号
科技
1周前
21

還在手動截圖或複制粘貼保存微信公衆号的好文章？告訴你一個更高效的方法，可以讓你自動化将你喜歡的微信公衆号文章保存為PDF，而且格式不變！這不僅可以幫你輕松整理、歸檔文章，還能在作者删除或公衆号被封時，依然保留那些珍貴的内容。今天，我将為大家帶來一項颠覆性的技術——自動化爬取微信公衆号文章并原樣保留格式存儲為PDF文件！從此告别繁瑣，一鍵搞定！而且是全網獨此真正有效代碼

一、為何需要下載微信公衆号文章為PDF？

微信公衆号作為我們獲取信息、學習知識的重要渠道，每天都有大量的優質文章湧現。然而，有時候我們會遇到一些不可預見的情況，比如文章被作者删除、微信公衆号被封号等，導緻我們無法再次找到這些好文章。或者，長按複制鍊接，打開網頁版保存，但總是少了點什麼——格式、圖片、排版全都變了樣。為了避免這些遺憾，将文章下載到本地并保存為PDF格式成為了一個很好的選擇。PDF格式具有跨平台、不易修改等特點，能夠确保文章内容的完整性和可讀性。

二、如何實現微信公衆号文章一鍵爬取并保存為PDF

前提準備

1.注冊一個個人微信公衆号用來獲取想要爬取的公衆号的長期地址

注冊方法：《》

2.準備環境并安裝相應的第三方庫

# 這是爬蟲必備庫#用于轉pdf的工具庫，有一個exe應用程序，# 可以後台私信獲取u#獲取每一篇文章的api接口#依賴庫默認是3.0.3版本，但是會報各種錯誤==0.11.15#安裝正确版本

3.下載軟件我會放到網盤裡，後台私信''獲取下載鍊接

批量獲取微信公衆号往期推送的URL、主題和時間

進入微信公衆号——左側草稿箱——新的創作—— 在圖文編輯頁中選擇超鍊接——搜索你想要爬取的微信公衆号名稱——F12找到請求鍊接——複制curl bash——在網站中獲取請求地址和請求參數——解析獲取的結果，得到文章标題、文章時間和文章URL

import requestsimport jsonimport time

def crawl_all_article_url(page):

    cookies = {    'appmsglist_action_3948617697': 'card',    'ua_id': 'cPS3GpAA01IEkaRJAAAAAIvDxBMaEL0YwwkNCjBwcAQ=',    'wxuin': '00617100352084',    'mm_lang': 'zh_CN',    'pac_uid': '0_6f1a31a07c4ab',    'iip': '0',    '_qimei_uuid42': '17c1a0b23191007d54d4e4bc638bde211f0338f3bf',    '_qimei_q36': '',    '_qimei_h38': '8f95287254d4e4bc638bde2102000002517c1a',    'RK': 'jTHYN6T3Wp',    'ptcz': '7345f2bcdd021ede2b9e3b5ff3857a614e8f78a9ecdf01650aa9a3a225afd21e',    'pgv_pvid': '8536395802',    'ts_uid': '6019633394',    '__root_domain_v': '.weixin.qq.com',    '_qddaz': 'QD.243806759066417',    'qq_domain_video_guid_verify': '6e9c8245aad0e837',    '_qimei_fingerprint': '36d8e5c4ef2b920cd2da41f5f01ca167',    '_clck': '3902705164|1|fm1|0',    'uuid': '4f9478c2739d6acbb0878a2e7b6c7b35',    'rand_info': 'CAESINjnm2X0Xw6se5Kiw4ayZI9Ft4uFGZEaPM8tGhG8HhAl',    'slave_bizuin': '3902705164',    'data_bizuin': '3902705164',    'bizuin': '3902705164',    'data_ticket': 'DJqUc+FKg56UrvBm8mHaCSI28Je1eBjufcd/Bb1OMvhzcoXTTFoXRMrQIbNGjKtA',    'slave_sid': 'cG5yOWQzc0JrX3BNejZmMEhZWG5yN1JFZ1lzMzVWbW85aDZVRHpuSmw2UGVyaTczRFozdGFDMWpvd2ZQckhMbm5tX0pNc1FkcWNBX3VnbEFDZ29pZ3JLNW5hTEdqbm9ROXIyX01GMW5TeUYzQ2RhbUdoZmtldTJDS3N4eWlDYmR0MUd0ZUtqcmkxYjV0UGZj',    'slave_user': 'gh_19182aefb42a',    'xid': '081913df3456544c4dc84a51fd52778f',    '_clsk': '121cm1q|1716519674628|15|1|mp.weixin.qq.com/weheat-agent/payload/record',}
    headers = {        'accept': '*/*',        'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8',        # 'cookie': 'appmsglist_action_3948617697=card; ua_id=cPS3GpAA01IEkaRJAAAAAIvDxBMaEL0YwwkNCjBwcAQ=; wxuin=00617100352084; mm_lang=zh_CN; pac_uid=0_6f1a31a07c4ab; iip=0; _qimei_uuid42=17c1a0b23191007d54d4e4bc638bde211f0338f3bf; _qimei_q36=; _qimei_h38=8f95287254d4e4bc638bde2102000002517c1a; RK=jTHYN6T3Wp; ptcz=7345f2bcdd021ede2b9e3b5ff3857a614e8f78a9ecdf01650aa9a3a225afd21e; pgv_pvid=8536395802; ts_uid=6019633394; __root_domain_v=.weixin.qq.com; _qddaz=QD.243806759066417; qq_domain_video_guid_verify=6e9c8245aad0e837; _qimei_fingerprint=36d8e5c4ef2b920cd2da41f5f01ca167; _clck=3902705164|1|fm1|0; uuid=4f9478c2739d6acbb0878a2e7b6c7b35; rand_info=CAESINjnm2X0Xw6se5Kiw4ayZI9Ft4uFGZEaPM8tGhG8HhAl; slave_bizuin=3902705164; data_bizuin=3902705164; bizuin=3902705164; data_ticket=DJqUc+FKg56UrvBm8mHaCSI28Je1eBjufcd/Bb1OMvhzcoXTTFoXRMrQIbNGjKtA; slave_sid=cG5yOWQzc0JrX3BNejZmMEhZWG5yN1JFZ1lzMzVWbW85aDZVRHpuSmw2UGVyaTczRFozdGFDMWpvd2ZQckhMbm5tX0pNc1FkcWNBX3VnbEFDZ29pZ3JLNW5hTEdqbm9ROXIyX01GMW5TeUYzQ2RhbUdoZmtldTJDS3N4eWlDYmR0MUd0ZUtqcmkxYjV0UGZj; slave_user=gh_19182aefb42a; xid=081913df3456544c4dc84a51fd52778f; _clsk=121cm1q|1716519674628|15|1|mp.weixin.qq.com/weheat-agent/payload/record',        'referer': 'https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit_v2&action=edit&isNew=1&type=77&createType=0&token=1635832127&lang=zh_CN×tamp=1716519674285',        'sec-ch-ua': ''Google Chrome';v='123', 'Not:A-Brand';v='8', 'Chromium';v='123'',        'sec-ch-ua-mobile': '?0',        'sec-ch-ua-platform': ''Windows'',        'sec-fetch-dest': 'empty',        'sec-fetch-mode': 'cors',        'sec-fetch-site': 'same-origin',        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36',        'x-requested-with': 'XMLHttpRequest',    }
    params = {        'sub': 'list',        'search_field': 'null',        'begin': f'{5*page}',        'count': '5',        'query': '',        'fakeid': 'MzkyMjY2MjMwOQ==',        'type': '101_1',        'free_publish_type': '1',        'sub_action': 'list_ex',        'token': '1635832127',        'lang': 'zh_CN',        'f': 'json',        'ajax': '1',    }    print(params)    response = requests.get('https://mp.weixin.qq.com/cgi-bin/appmsgpublish', params=params, cookies=cookies, headers=headers)
    resp = response.json()['publish_page']    # print(response.json())    resp = json.loads(resp)
    print(len(resp['publish_list']))    for i in resp['publish_list']:        article_links = []        art_info = json.loads(i['publish_info'])        art_title = art_info['appmsgex'][0]['title']        art_time = art_info['appmsgex'][0]['create_time']        art_date = date = time.strftime('%Y-%m-%d', time.localtime(art_time))        art_link = art_info['appmsgex'][0]['link']        a_info = {            'url': art_link,            'title': art_title,            'time': art_date        }        article_links.append(a_info)    return article_links
article_links= []foriinrange(7):#7是微信公衆号文章頁數
    page_link = crawl_all_article_url(i)    print(page_link)    article_links = article_links + page_link     time.sleep(5)

爬取所有文章并存儲為PDF格式

得到文章所有的url之後下一步就是爬取文章的具體内容了，在這裡要用到接口，直接pip 安裝會存在依賴庫版本問題，主要是庫的版本不對，總是報錯，我在這個地方卡了兩天，直到試到版本==0.11.15 才成功，需要你做的是：

pip # 依賴庫默認是3.0.3版本，但是會報各種錯誤pip3 ==0.11.15 # 安裝正确版本

import pdfkitimport wechatsogou

def link_to_pdf(url, title, date):    ws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3)  # 調用接口    content_info = ws_api.get_article_content(url)  # 請求鍊接    content = content_info['content_html']  # 轉換為html格式    # 将标題和文章内容放入如下html中處理一下    html = f'''                                                <span>{title}</span>                        {title}        {content}                '''
    # wkhtmltopdf可執行程序路徑    path_wkthmltopdf = r'D:\software-dir\wkhtmltox\bin\wkhtmltopdf.exe'    config = pdfkit.configuration(wkhtmltopdf=path_wkthmltopdf)  # 配置pdfkit    pdfkit.from_string(html, f'{title} {date}.pdf',                       configuration=config)  # 轉PDF，并按設定好的命名文件    print(f'{title}.pdf 已下載')forlinkinarticle_links:    url = link['url']    title = link['title']    date = link['time']    link_to_pdf(url, title, date)

你可能想看：

一鍵下載公衆号所有文章，導出文件支持PDF，HTML，Markdown，Excel，chm等格式

原理就是通過抓包抓取微信客戶端的接口，用Python請求微信接口獲取公衆号文章鍊接再下載。不過charles沒安裝證書前獲取不到https接口數據。再次抓取可以看到公衆号文章接口數據了?公衆号文章的接...

《1253》配方/諸葛烤魚、萬州烤魚的精準配方！《微信公衆号：CYMS168》

萬州烤魚将腌、烤、炖三種烹饪方法有機結合，調制出麻辣、醬香、泡椒、椒香、蔥香、尖椒味、蚝油味、香辣味、豉汁味、鮑汁味共十餘種口味，姜粒15克：味精、精鹽、雞精各适量，1、把幹花椒、八角、香葉、高良姜、...

如何下載微信公衆号的視頻和音頻

但是右鍵并沒有下載的選項，用浏覽器打開微信文章。在視頻或者音頻右鍵點選審查元素，然後點擊Network選項卡，然後點擊Media。然後點擊播放視頻，點擊copy，最後在浏覽器的新标簽，粘貼鍊接打開網頁...

無需下載任何第三方軟件，快速将多張圖片合成PDF文件

對于普通用戶來說不可能為了合成一個PDF文件專門去購買昂貴的專業軟件，今天就教大家一個人人都能學會的将圖片轉換成PDF的方法。打開要制作成PDF的圖片文件所在文件夾，确保圖片顯示順序是正确的。按住Sh...

PDF轉Excel不用動手打字！用這3個方法，一鍵自動生成！

這種格式的文檔優勢在于不管你在任何操作系統、任何設備、任何尺寸和分辨率屏幕上看到的顯示效果都是一樣的。PDF中大量的表格想要轉換成可編輯的Excel表格時，讓你輕松将PDF文檔轉換成可直接編輯的Exc...

公衆号運營常用的12種活動形式（必讀）

做活動是回複留言随機篩選。但明明公衆号運營可以玩的活動形式有很多，讓用戶在活動時間内到圖文的留言區進行回複，以最簡單的方式測試有多少用戶願意參與互動。通過留言回複獲取其他活動的參與資格，進而按照活動規...

知乎點擊爆文，公衆号标題寫作攻略，7種幹貨标題技巧！

寫作技巧總結，▌1、直言式，直接把事情，講清楚，講明白。文字遊戲、隐喻、雙關語等等，标題都是：信用體系需要；▌2、懸念式，在讀者心中，留在文章中！講清楚，上輩子：上非誠勿擾，▌3、消息式，新聞标題，标...

七種有效方法讓你的文章更有文采

我們來給大家講一下寫出有文采文章的七種有效方法。讀者并不能感受到她的情感“蘊蓄思念萦懷、感傷别離的孤獨感、凄涼感的“然後把感情賦予具體的事物之上“看着車窗外如電影畫面一般流逝而去的街景。好的文章總能把...

這3個PPT、PDF、Word互相轉換的方法，99%的人都不知道！太實用了！

經常遊走于PPT、Word和PDF之間還不夠，PPT、Word互轉！隻需點擊【文件】-【導出】-【創建講義】-【隻使用大綱】- 然後就轉成Word了，之後保存Word文檔即可，點擊【開始】-【新建幻燈...

續山東考古錄免費下載【清葉圭绶撰光緒刊本】,pdf

我的二本學生(pdf epub mobi azw3)電子書

《我的二本學生》是黃燈最新的一本非虛構作品。作者從自身的教學日常寫起，尤其是在接受學生求助和咨詢等瑣碎的職業體驗中，獲得了學生群體成長的第一手資料，本書稿是對這些學生成長和困惑的體認，并結合作者自身的...

2020年12月英語四級真題第二套答案解析（電子版pdf）

英語主播皮卡丘，自行前往獲取！今年的英語四級考試已經進入倒計時，很多小夥伴都問皮卡丘如何才能在段時間内通過四級考試。皮卡丘認為萬變不離其宗，曆年真題有很大的參考價值。所以把去年的最新真題研究透徹，一定...

再發一本好書《中醫治愈奇病集成》，用了很長時間，pdf轉過來的

用了很長時間才轉換和校對成DOC格式，按我的排版，誰要是打印，為防止出錯，請先打印目錄部分，然後把目錄删除，變成空白頁（保證正文頁碼不變）再打印正文。因為後綴是z01上傳不了，不得不将《中醫治愈奇病集...

整整50頁pdf！語文難點文言文實詞，120個全部在這裡，值得保存

文言文是初中語文的一大重點也是難點，更難理解的是意思。文言文的實詞和虛詞更是同學們容易犯錯的點，使同學們更難區分，翻譯語句就無從下手。今天給大家分享50頁的文言文實詞pdf文件，裡面包含了120個實詞...

還在手動把PDF轉換成Word?聰明人都是這樣“偷懶”的!

轉個Word格式也得純靠鍵盤輸出，這是個主流文檔轉換工具，把你要轉換的文檔直接拖拽進來，直接篩去無需轉換的頁碼。步驟二、确認轉換模式，以文字為主的PDF文檔默認「常規轉換」。建議選擇OCR轉換！這樣圖...

肋痛，膽囊炎，胃疼，胰腺炎痛，肝癌痛都有效一張方子，必須是她！

柴胡15g、黃芩10g、半夏15g、生姜5g、黨參10g、炙甘草6g、牡蛎30g、青皮10g、片姜黃12g。脅痛左屬瘀留血。右屬痰氣重逐飲，本方橘紅枳實化痰行氣，姜黃跟郁金類似也有活血止痛功效，治右脅...

EXCEL | 使用特殊符号自定義單元格格式，要什麼格式你做主

單元格格式中常使用特殊符号來定義特殊格式。如果單元格的内容大于指定占位符；則顯示實際數字，代表設置單元格格式為四位整數，A3單元格中數字，數字占位符“在小數點兩邊為無意義的零添加空格?自定義添加千分位...

所有唐詩，熟讀這5首，聊天也有文藝範，一看就是文化人！

《全唐詩》可以說是收錄了唐朝有記載的所有的詩作，落月搖情滿江樹，崔颢的這首詩？且看嚴羽《滄浪詩話》裡的評價“當時李白登上黃鶴樓後，有人請李白題詩，當李白看到崔颢的這首詩後，崔颢題詩在上頭“章太炎推《涼...

VBA遍曆所有文件夾的兩種方法（filesearch和FileSystemObject）

另外一種是使用FileSystemObject(windows文件管理工具)和遞歸方法。

民法典：所有權保留買賣與讓與擔保

）中對于所有權保留買賣與讓與擔保進行了規定。所有權保留買賣中買賣雙方是通過約定來排除标的物交付對于物權變動的影響，所有權保留買賣應僅适用于以交付作為所有權轉移公示方式的動産，而且出賣人對标的物保留的所...

飛機票怎麼買最便宜？看完這篇文章，買機票再也不求人

買機票時大家都會去搶便宜又合适的機票，今天小編總結了一些買便宜機票的小技巧，小編在尋找便宜的機票和形成搭配的時候，比如有些不能選座、容易遇到捆綁銷售、退改簽要收費等等，然後對比各家航空公司官網價格來選...

如何寫出邏輯清晰的文章，構思框架很重要文...

如何寫出邏輯清晰的文章，構思框架很重要，文章的結構有很多。我們先來說一下總分總的文章結構：這是一種三段式的文章結構，總—開頭闡述主題；表明總論點，分—中間部分闡述論點或者講述故事；來支撐自己的觀點，總...

今年最舍不得發布的一篇文章，真的不要錯過！

關注我比較久的朋友知道。隻要你的回答文章質量不錯。是我很喜歡的一位博主分享的創作和變現方法，大家都覺得寫文可以輕松實現财務自由。因為寫作這件事兒的複利效應遠比你想得更大，下面具體的分享幾個六個主流的寫...

這篇文章，破除你對社交的困惑

我們似乎正活在一個低社交的時代，人類的大腦會不斷地理解現實生活中的問題：我們的大腦天生就會對「人類的反饋」更加敏感，會在大腦中引起跟饑渴非常相似的反應，更需要依賴于外在的刺激和反饋 —— 亦即比如遊戲...

這篇文章，講透「複盤」

因為成長思維告訴我們，其實都會變得不值一提，這也是我判斷一件事情有沒有價值的标準之一，隻要我能夠從中獲得成長 —— 不論是經驗、能力，沒有能夠從經驗中真正學到東西，反複多次強調「複盤」的原因所在，今天...

100篇時間管理精選文章，深度好文（建議收藏）

這篇文章整理了易效能【時間管理】公衆号内所有文章目錄，希望能幫助您快速獲取最需要的知識（強烈建議收藏）。精選100篇時間管理深度好文章給您參考？時間管理專家葉武濱老師深耕時間管理領域多年，總結出一套非...

寫作文和寫文章，根本不是一回事

中國台灣作家張大春就目前語文教育存在的問題展開了話題。他談了寫作文和寫文章的區别，我把寫文章和寫作文分得很清楚。有的人認為小時候作文寫得好，如果從小寫作文能夠順理成章，也能夠在工作崗位上寫出一些比較得...

網絡協議 IP 地址數據傳輸網絡通信

上一篇
例識申月陰陽之一

下一篇
針灸療法-------金針之不傳之秘：十二對沖，詳解

全網獨家有效一鍵爬取微信公衆号所有文章，原樣保留格式成PDF

{title}

有話要說...取消回複

最新文章

一味中成藥，治眩暈，止頭痛，腰痛，肌肉痛，手足麻木，甚至中風

蜂王漿蜂王漿的作用與功效、副作用，蜂王漿的吃法

治療功能性子宮出血驗方崩漏秘方血崩漏下特效方

北京晚報《生活中來》偏方集（二十二）

三個月白發變黑發的簡單秘方

張仲景的7個降糖“特效方”，治糖尿病效果顯著！

膻中開合功（心血管）

心法:去下焦實之寒實篇

熱門文章

重新命名後的高速公路怎麼命名編号的

以神煞“真驿馬”速斷遠行年份

六爻預測367講：想辭職辭不掉，反反複複原來是個原因

中醫五行與性格：土性人③鄒一針- 簡書

股市尋寶圖（隻鐵）

[轉載]師斷命秘訣集錦

超短線成功秘笈

這篇《退休書》一夜間火了