用 Claude Code 抓取数据的九种方式
当前位置:点晴教程→知识管理交流
→『 技术文档交流 』
把 Claude Code 用在“抓取数据(scraping)”上,是最简单、也最有用的任务之一。 在这篇文章里,我会非常全面地介绍 用 Claude Code 抓取数据的九种不同方式。
方法 1:直接让 Claude Code 去抓网站 对于一大批网站,你只需要告诉 Claude Code:去抓这个网站、你想抓什么内容,并让它把结果写到一个 CSV 或 SQLite 文件里。 它会替你在网站上到处探查,可能会写一个 Python 脚本,运行脚本,甚至可能写一些单元测试,然后把数据写到你电脑上的某个位置。 方法 2:让 Claude Code 去找接口(Endpoints)
很多有价值的数据并不是作为静态页面渲染出来的,而是通过某个 API 调用动态加载 的。 “嘿,去找一个 API,比如它正在展示酒店的定价和预订数据——你可能会把这些数据用于论文研究或竞品分析。” 这个方法和上一个方法的唯一区别在于:你在这里明确让它 去找 endpoints。 方法 3:ScrapeCreators 多数社交媒体网站上有大量有用数据是可以抓的,但它们会把 endpoints 设计得特别难逆向。 你当然可以让 Claude Code 或 Codex 一直尝试逆向,但我更喜欢用一个叫 Scrape Creators 的工具: 它几乎为每一种社交媒体都提供了 API endpoints。 方法 4:Apify Actor Apify 是一个“抓取器(scraper)市场”。很多难抓的网站,都有人在 Apify 上做了可租用的抓取器,Apify 里叫它们 actors。 我喜欢用的一个 actor 是 Google Maps 抓取器:它对社会科学研究者很有用——可以直接做数据分析,或者用来构造一些代理指标(proxy measures)。它对做商业的人也很有用,比如做竞品分析,或寻找本地销售线索。 唯一的问题是:你得付费。 方法 5:Firecrawl → Markdown → 结构化抽取(Structured Extraction)你想抓的很多数据并不是高度结构化的。 比如我在做 EconNow 项目时,需要抓取大量经济学求职市场候选人的页面。 Aniket Panjwani
这些页面各自的 HTML 结构都不一样,所以我不想为每个网页都单独写抓取器。 Firecrawl 是一个付费服务,可以很方便地把网页转成 Markdown。 基本流程是:有了把网页转成 Markdown 的工具后,你就可以把 Markdown 通过 API 传给 OpenAI。 方法 6:自己动手 HTML → Markdown → 结构化抽取你可能会问我:“嘿,傻瓜,你为啥要给 Firecrawl 付费?我不能自己把 HTML 转成 Markdown 吗?” 答案是:可以,你当然可以。也有一些工具可以做到: 我用 Firecrawl 的原因是:我觉得它对某些边界情况(edge cases)的处理更好。它是个设计很好的服务,那些小幅度的改进对我来说值得。 直接用这些包就行,或者干脆把它们指给 Claude Code: 另外还有一点:对于小规模的东西,你甚至不需要把 Markdown 发给外部 API。你可以直接让 Claude Code 或 Codex 自己完成结构化抽取。 方法 7:yt-dlp yt-dlp 是一个工具,可以抓取任意 YouTube 视频、它的元数据,以及视频字幕: 我基本上不看视频了。我会直接把字幕下载下来,然后让 Claude Code 或 Codex 给我做一个个性化总结,把视频内容映射到我真正关心的语境里。 在这个视频里,我用 Claude Code + yt-dlp 做了一个现场练习:逆向分析一个 AI YouTuber 的“成功视频”模式: 我做那个 YouTube 视频原本只是随手做的,但我在里面现场做出来的产品,我后来真的经常在用:它帮助我思考要做什么视频、以及怎么构思选题。 YouTube 视频里有非常多有价值的数据,我真心觉得这个工具被严重低估、利用得太少了。 方法 8:Reddit 的 JSON Endpoint Reddit 有一个 JSON endpoint,几乎可以用它在 Reddit 上找到任何东西。 你只需要在 Reddit URL 的末尾加上 “.json” ,你的代理式编码工具就能拿到那个 Reddit 区域的完整 JSON 文档。 比如,看看 Claude Code 子版块的 JSON endpoint: 我自己设置了一些 skills,用来持续“感知脉搏(keep a pulse)”——看看我关心的一大堆 subreddit 里大家在讨论什么。那些 skills 本质上就是让 Claude Code 或 Codex 去访问这些 Reddit JSON endpoints。 方法 9:Agent Browser + 凭据(Credentials) 有很多网站被某种认证(authentication)保护着。要绕过认证,你基本上有两种办法: 第一种:你手动完成认证流程。流程完成后,有时会拿到一个 cookie 存在你电脑上,然后 Claude Code 可以用这个 cookie 来认证,看到登录后的页面。 第二种:用 Vercel 的一个工具 Agent Browser: 这是一个为 agent 优化的浏览器自动化 CLI。 比如,你可以把 Facebook 登录凭据存到 Claude Code 或 Codex 能访问的地方: 然后你可以创建一个 skill:让 Claude Code 通过 Agent Browser 用你的 Facebook 凭据登录,进入你所在的 Facebook 群组,抓取所有帖子,并把数据写到你指定的位置。 参考文章:原文链接 该文章在 2026/3/6 11:10:50 编辑过 |
关键字查询
相关文章
正在查询... |