找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

查看: 112|回复: 0

AI Startup | 将AI数据准备时间缩短33%:企业团队为何放弃自建网络爬虫

[复制链接]
发表于 2026-2-19 12:14 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
w1.jpg
**原文作者Sean Michael Kerner数据是企业 AI 成功的基石,然而企业 AI 计划常遇到意想不到的基础设施障碍:从网络获取干净可靠的数据。过去二十年,网络爬虫有助于解决获取网络数据的挑战。这些自动撷取网站内容的工具,在前 AI 时代运作良好,因为人类可处理杂乱的 HTML 输出。然而,生成式 AI 系统要求数据以特定格式呈现,并在企业规模下维持一致可靠性。传统爬虫输出的原始 HTML、断链及不一致格式,会在 AI 管线中引发连锁故障。当 AI 代理无法可靠存取最新网络资讯时,其实用性将大幅降低。这一挑战催生了如 Firecrawl 等 AI 原生网络爬虫解决方案,其创办团队在建置 AI 聊天系统时发现此需求。“很快我们便遇到数据问题,”Firecrawl 创办人兼 CEO Caleb Peffer 告诉 VentureBeat。“数据杂乱、难以存取,而每位客户都希望我们将其网站、公司文件及内部网络转化为 AI 可用的形式。”
w2.jpg
图源:Firecrawl此洞察促成开源 Firecrawl 工具的开发,至今已获逾 5 万 GitHub 星标及 35 万开发者青睐,客户包括 Shopify、Replit 及 Zapier。公司于2025年8月份完成由Nexus领投的1,450万美元A轮融资,Shopify首席执行官Tobias Lütke和上轮投资者Y Combinator也参与了投资。其新版软件,旨在加速将网络数据准备好供 AI 消耗。Firecrawl 宣称,其爬虫可将结构化网络数据导入 AI 系统的速度,比竞争对手快 33%。风险极高。在人工智能项目上投入数百万美元的公司发现,不可靠的网络数据访问会导致复杂的语言模型几乎无法用于实际任务。尽早解决这一基础设施难题的组织,将能够部署依赖于最新、最全面网络信息的更高级人工智能代理。如何购买或构建数据抓取工具的挑战

基础设施方面的挑战本质上是一个经典的自建还是购买的抉择,但其风险远高于传统的企业软件选择。VentureBeat采访的多支企业团队发现,为人工智能应用构建可靠的网络爬虫所需的复杂程度远超预期。

Aomni的首席执行官 David Zhang在为销售团队构建深度研究代理时,亲身经历了这种复杂性。

张告诉VentureBeat:“为了能够抓取所有我想要抓取的不同类型的网站,我使用了三家不同的爬虫供应商。”这种多供应商模式造成了运营成本,分散了工程资源,使其无法专注于核心人工智能开发。

张的团队必须权衡速度和可靠性之间的根本利弊。

“对于网络爬虫服务来说,你总是需要在速度和性能之间做出某种权衡,我认为 Firecrawl 在这方面做得最好,它既能保持非常非常快的速度,又能成功爬取我想爬取的 95% 的不同网站,”他说。

GC AI 的法律 AI 团队在尝试自建解决方案时,面临更复杂需求。“我们试图建置自家网络爬虫,但挑战重重,”GC AI 共同创办人兼 CEO Bardia Pourvakil 告诉 VentureBeat。“那不是我们的业务,我们的业务不是爬虫。”GC AI 的自制爬虫失败率高,公司还需建置基于 LLM 的验证系统检查爬取质量。

“我们有 LLM 检查爬取是否成功,但自家爬虫常失败,”Pourvakil 表示。法律产业呈现独特技术挑战,通用爬虫工具无法应对。Pourvakil 指出,其团队需爬取网络上的 docx 档及 Google Drive 共享 PDF,大多爬虫无法处理。
竞争激烈的网络爬虫格局

网络爬虫市场已超越传统工具,企业团队需导航不同类别。

传统浏览器自动化框架如 Puppeteer、Scrapy、Playwright 及 Selenium,多源自前 AI 时代,并非专为生成式 AI 设计。现代爬虫包括 Browse AI、Bright Data、Browserbase 及 Exa。
“我们针对各种极端情况进行了大量的测试,包括我们自己的抓取解决方案、Firecrawl,以及我们尝试过的另一个解决方案 Exa,”Pourvakil 解释道。
评估显示可靠度及输出品质有显著差异。

EXA 已成为 AI 数据抓取领域一个引人注目的竞争对手,但格式差异造成了集成方面的挑战。

如 llms.txt 等协议层解决方案代表另一种 AI 数据存取方法。然而,这些协议仍需基础设施将人类可读网络内容转化为机器可读格式。

“对于 llms.txt,我们拥有最受欢迎的生成器之一,因为即使有此协议,仍需层级将现今人类可读网络转化为机器格式,”Peffer 解释。
Firecrawl v2:面向企业人工智能的高级功能

Firecrawl 第二大版本透过重大架构改善及新 AI 专注功能,满足核心企业需求。此更新转变组织处理 AI 应用网络数据撷取的方式。

智慧快取及索引:v2 最重大进展为混合快取系统,大幅提升效能同时维持数据新鲜度。“我们实际快取所有页面,”Peffer 表示。“我们基本上建置网络索引并储存于系统中。”

JSON 模式结构化撷取:v2 引入提示驱动数据撷取,让团队指定所需资讯及格式。“这让你能以提示输入欲从网站获取的确切资讯及格式,Firecrawl 则负责将网站内容转化为该格式,宛如魔法,”Peffer 表示。

w3.jpg

企业团队的决策框架

评估 AI 应用网络爬虫解决方案的企业团队,应优先四关键领域:

可靠度测试:针对特定网站目标测试解决方案,而非仅通用如维基百科。不同供应商在多元网络属性上的成功率差异大。

格式相容性:确保输出格式与 LLM 及向量数据库基础设施无缝整合。原始 HTML 常需大量前处理方可供 AI 使用。

极端案例处理:评估供应商如何处理如 iframe、动态内容及验证等复杂情境。这些常决定实际成功率。

运维支持:考量供应商对处理新的极端情况的响应能力,随应用扩张。

Pourvakil 说:“如果我们在任何网站被抓取时遇到任何类型的问题,我们都会将其反馈给团队,他们当天就能进行调试并推送修复程序。”

对于希望在人工智能部署领域占据领先地位的企业而言,投资建设强大的网络数据基础设施并非可有可无,而是至关重要的基础。如今能够解决这一基础设施挑战的公司,将为未来部署更复杂的人工智能代理奠定基础。

对于在人工智能发展后期才采用人工智能的企业而言,这种演进意味着成熟的基础设施解决方案将唾手可得。团队可以将精力集中在更高价值的人工智能应用上,而不是重建基础的数据抓取功能。

END

w4.jpg

w5.jpg

PITCHFUND CLUB

w6.jpg

添加小助手微信,进入AI Founders 社群
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2026-2-22 13:02 , Processed in 0.097493 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表