Meta低调部署网络爬虫机器人为其AI模型收集数据_智能控制解决方案

Meta低调部署网络爬虫机器人为其AI模型收集数据

2024-11-27 23:31:01智能控制解决方案

近日，Meta在未公开宣布的情况下推出了新的网络爬虫机器人Meta External Agent，该爬虫机器人旨在搜索互联网并收集大量数据，以支持Meta的人工智能模型。这一消息由三家专注于网络抓取器追踪的公司联合披露，引起了业界的广泛关注。

据悉，Meta External Agent与OpenAI的网络爬虫机器人GPTBot在功能上有诸多相似之处，均具备抓取网络上的多样化数据作为AI训练素材的能力，包括但不限于新闻文章中的文本内容、在线讨论群组中的用户对话等。这一些数据对于提升AI模型的理解能力、语言解决能力及创造性至关重要。

尽管Meta在7月底通过更新其面向开发者的公司的官方网站“暗示”了新爬虫Meta External Agent的存在，但公司并未正式公开宣布这一消息。这款新爬虫具备绕过某些网站robots.txt规则的能力，这在某种程度上预示着它能够无视部分网站对爬虫访问的限制，从而获取更广泛的数据资源。有必要注意一下的是，robots.txt虽然为网站管理员提供了一种设定爬虫访问权限的机制，但其本质上并非强制执行的法律条款，因此，一些网络爬虫，尤其是专注于数据采集的爬虫，可能会选择性地忽略这些规则。

与OpenAI的GPTBot相比，Meta External Agent在初期似乎并未引起广泛的屏蔽反应。Dark Visitors的多个方面数据显示，全球近25％的最受欢迎网站已选择屏蔽GPTBot，而仅有2％的网站对新爬虫采取了屏蔽措施。

Meta的Llama模型作为当前最大的大型语言模型（LLM）之一，其性能的提升离不开高质量数据的支持。虽然Meta未透露新版本的Llama 3模型所使用的具体训练数据来源，但其早期版本充分的利用了包括Common Crawl在内的多个大型数据集。如今，新爬虫的推出进一步印证了Meta对于不断扩充和更新AI训练数据集的坚定决心。

今年早一点的时候，Meta的联合发起人兼首席执行官马克·扎克伯格（Mark Zuckerberg）在财报电话会议上自豪地表示，Meta的社交平台已经积累了远超Common Crawl的数据集，为AI训练提供了坚实的基础。返回搜狐，查看更加多

上一篇:巨子疯抢ai域名！小岛安圭拉意外躺赚3200万美元：占年度总收入15

下一篇:Meta AI谈天机器人将在其他六个国家推出