QQ扫一扫联系
在网页抓取和数据采集过程中,User Agent(用户代理)是一个非常重要的标识。它是一种特殊的 HTTP 头信息,用来告诉网站服务器发出请求的客户端是什么类型和版本。爬虫和搜索引擎蜘蛛常常使用 User Agent 来伪装成浏览器,以获取更真实的网页内容。
以下是常见搜索引擎蜘蛛的 User Agent 信息:
类型 | 名称 | UserAgent |
---|---|---|
搜索引擎 | 360搜索 | 360Spider |
搜索引擎 | DuckDuckGo | Mozilla/5.0 (compatible; DuckDuckBot/1.0; +http://duckduckgo.com) |
搜索引擎 | 好搜 | Soso spider/4.0(+http://help.soso.com/webspider.htm) |
搜索引擎 | 必应 | Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) |
搜索引擎 | 必应国际 | Mozilla/5.0 (iPhone; CPU iPhone OS 11_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/11.0 BingWeb/11.12.1.5 Mobile/15E148 Safari/604.1 BingPreview/1.0b |
搜索引擎 | 搜狗 | Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) |
搜索引擎 | 有道 | Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/; ) |
搜索引擎 | 百度 | Mozilla/5.0 Baiduspider-render/2.0 (+http://www.baidu.com/search/spider.html) |
搜索引擎 | 神马 | Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0; SMX) |
搜索引擎 | 谷歌 | Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) |
搜索引擎 | 雅虎 | Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) |
爬虫框架 | Apache HttpClient (Java) | Apache-HttpClient/4.5.13 (Java/11.0.10) |
爬虫框架 | Beautiful Soup | Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 |
爬虫框架 | Colly (Go) | Mozilla/5.0 (compatible; colly; +https://github.com/gocolly/colly) |
爬虫框架 | Go HTTP Client | Go-http-client/2.0 |
爬虫框架 | Jsoup (Java) | Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 |
爬虫框架 | OkHttp (Java) | okhttp/4.9.1 |
爬虫框架 | Python Requests | python-requests/2.26.0 |
爬虫框架 | Scrapy | Scrapy/2.6.0 (+https://scrapy.org) |