有哪些好用且免费的爬虫软件(爬虫工具下载)-东辰安华生活网

有哪些好用且免费的爬虫软件(爬虫工具下载),本文通过数据整理汇集了有哪些好用且免费的爬虫软件(爬虫工具下载)相关信息，下面一起看看。

多条告白如次剧本只需引入一次

Playwright 是微软在 2020 年头开源的新一代机动化尝试东西，它的功效一致于 Selenium、Pyppeteer 等，都不妨启动欣赏器举行百般机动化操纵。它的功效也特殊宏大，对市情上的合流欣赏器都供给了扶助，API 功效简略又宏大。固然出生比拟晚，然而此刻兴盛得特殊炽热。

由于 Playwright 是一个一致 Selenium 一律不妨扶助网页页面衬托的东西，再加上其宏大又简略的 API，Playwright 同声也不妨动作搜集爬虫的一个爬取凶器。

1. Playwright 的特性

Playwright 扶助暂时一切合流欣赏器，囊括 Chrome 和 Edge（鉴于 Chromium）、Firefox、Safari（鉴于 WebKit），供给完备的机动化遏制的 API。Playwright 扶助挪动端页面尝试，运用摆设模仿本领不妨使咱们在挪动 Web 欣赏器中尝试相应式 Web 运用步调。Playwright 扶助一切欣赏器的 Headless 形式和非 Headless 形式的尝试。Playwright 的安置和摆设特殊大略，安置进程中会机动安置对应的欣赏器和启动，不须要特殊摆设 WebDriver 等。Playwright 供给了机动等候关系的 API，当页面加载的功夫会机动等候对应的节点加载，大大简化了 API 编写搀杂度。本节咱们就来领会下 Playwright 的运用本领。

2. 安置

Playwright 暂时供给了 Python 和 Node.js 的 API，底下咱们对准 Python 版的 Playwright 举行引见。

要运用 Playwright，须要 Python 3.7 本子及之上，请保证 Python 的本子适合诉求。

要安置 Playwright，不妨径直运用 pip3，吩咐如次：

pip3 install playwright安置实行之后须要举行少许初始化操纵：

playwright install这功夫 Playwrigth 会安置 Chromium, Firefox and WebKit 欣赏器并摆设少许启动，咱们不用关怀中央摆设的进程，Playwright 会为咱们摆设好。

简直的安置证明不妨参考：https://setup.scrape.center/playwright 。

安置实行之后，咱们便不妨运用 Playwright 启用 Chromium 或 Firefox 或 WebKit 欣赏器来举行机动化操纵了。

3. 基础运用

Playwright 扶助两种编写形式，一种是一致 Pyppetter 一律的异步形式，另一种是像 Selenium 一律的同步形式，咱们不妨按照本质须要采用运用各别的形式。

咱们先来看一个基础同步形式的例子：

from playwright.sync_api import sync_playwrightwith sync_playwright() as p: for browser_type in [p.chromium, p.firefox, p.webkit]: browser = browser_type.launch(headless=False) page = browser.new_page() page.goto('https://www.baidu.com') page.screenshot(path=f'screenshot-{browser_type.name}.png') print(page.title()) browser.close()开始咱们导出了 sync_playwright 本领，而后径直挪用了这个本领，该本领归来的是一个 PlaywrightContextManager 东西，不妨领会是一个欣赏器左右文处置器，咱们将其赋值为变量 p。

接着咱们挪用了 PlaywrightContextManager 东西的 chromium、firefox、webkit 属性顺序创造了一个 Chromium、Firefox 以及 Webkit 欣赏器范例，接着用一个 for 轮回顺序实行了它们的 launch 本领，同声树立了 headless 参数为 False。

“

提防：即使不树立为 False，默许是无头形式启用欣赏器，咱们看不就任何窗口。

”

launch 本领归来的是一个 Browser 东西，咱们将其赋值为 browser 变量。而后挪用 browser 的 new_page 本领，十分于兴建了一个选项卡，归来的是一个 Page 东西，将其赋值为 page，这所有进程本来和 Pyppeteer 特殊一致。接着咱们就不妨挪用 page 的一系列 API 来举行百般机动化操纵了，比方挪用 goto，即是加载某个页面，这边咱们考察的是百度的首页。接着咱们挪用了 page 的 screenshot 本领，参数字传送一个文献称呼，如许截图就会机动生存为该图片称呼，这边称呼中咱们介入了 browser_type 的 name 属性，代办欣赏器的典型，截止辨别即是 chromium, firefox, webkit。其余咱们还挪用了 title 本领，该本领会归来页面包车型的士题目，即 HTML 中 title 节点中的笔墨，也即是选项卡上的笔墨，咱们将该截止打字与印刷输入到遏制台。结果操纵结束，挪用 browser 的 close 本领封闭所有欣赏器，运转中断。

运转一下，这功夫咱们不妨看到有三个欣赏器顺序启用并加载了百度这个页面，辨别是 Chromium、Firefox 和 Webkit 三个欣赏器，页面加载实行之后，天生截图、遏制台打字与印刷截止就退出了。

这功夫暂时目次便会天生三个截图文献，都是百度的首页，文献名中都带有了欣赏器的称呼，如图所示：

遏制台运转截止如次：

百度一下，你就领会百度一下，你就领会百度一下，你就领会经过运转截止咱们不妨创造，咱们特殊简单地启用了三种欣赏器并实行了机动化操纵，并经过几个 API 就实行了截图和数据的获得，所有运转速率利害常快的，者即是 Playwright 最最基础的用法。

固然除去同步形式，Playwright 还供给异步的 API，即使咱们名目内里运用了 asyncio，那就该当运用异步形式，写法如次：

import asynciofrom playwright.async_api import async_playwrightasync def main(): async with async_playwright() as p: for browser_type in [p.chromium, p.firefox, p.webkit]: browser = await browser_type.launch() page = await browser.new_page() await page.goto('https://www.baidu.com') await page.screenshot(path=f'screenshot-{browser_type.name}.png') print(await page.title()) await browser.close()asyncio.run(main())不妨看到所有写法和同步形式基础一致，导出的功夫运用的是 async_playwright 本领，而不复是 sync_playwright 本领。写法上增添了 async/await 要害字的运用，结果的运转功效是一律的。

其余咱们提防到，这例子中运用了 with as 语句，with 用来左右文东西的处置，它不妨归来一个左右文处置器，也就对应一个 PlaywrightContextManager 东西，不管运转功夫能否抛出特殊，它不妨扶助咱们机动调配而且开释 Playwright 的资源。

4. 代码天生

Playwright 再有一个宏大的功效，那即是不妨录制咱们在欣赏器中的操纵并将代码机动天生出来，有了这个功效，咱们以至都不必写任何一条龙代码，这个功效不妨经过 playwright 吩咐行挪用 codegen 来实行，咱们先来看看 codegen 吩咐都有什么参数，输出如次吩咐：

playwright codegen --help截止一致如次：

Usage: npx playwright codegen [options] [url]open page and generate code for user actionsOptions: -o, --output <file name> saves the generated script to a file --target <language> language to use, one of javascript, python, python-async, csharp (default: "python") -b, --browser <browserType> browser to use, one of cr, chromium, ff, firefox, wk, webkit (default: "chromium") --channel <channel> Chromium distribution channel, "chrome", "chrome-beta", "msedge-dev", etc --color-scheme <scheme> emulate preferred color scheme, "light" or "dark" --device <deviceName> emulate device, for example "iPhone 11" --geolocation <coordinates> specify geolocation coordinates, for example "37.819722,-122.478611" --load-storage <filename> load context storage state from the file, previously saved with --save-storage --lang <language> specify language / locale, for example "en-GB" --proxy-server <proxy> specify proxy server, for example "http://myproxy:3128" or "socks5://myproxy:8080" --save-storage <filename> save context storage state at the end, for later use with --load-storage --timezone <time zone> time zone to emulate, for example "Europe/Rome" --timeout <timeout> timeout for Playwright actions in milliseconds (default: "10000") --user-agent <ua string> specify user agent string --viewport-size <size> specify browser viewport size in pixels, for example "1280, 720" -h, --help display help for commandExamples: $ codegen $ codegen --target=python $ codegen -b webkit https://example.com不妨看到这边有几个选项，比方 -o 代办输入的代码文献的称呼；–target 代办运用的谈话，默许是 python，即会天生同步形式的操纵代码，即使传入 python-async 就会天生异步形式的代码；-b 代办的是运用的欣赏器，默许是 Chromium，其余再有很多树立，比方 –device 不妨模仿运用大哥大欣赏器，比方 iPhone 11，–lang 代办树立欣赏器的谈话，–timeout 不妨树立页面加载超时功夫。

好，领会了那些用法，那咱们就来试验启用一个 Firefox 欣赏器，而后将操纵截止输入到 script.py 文献，吩咐如次：

playwright codegen -o script.py -b firefox这功夫就弹出了一个 Firefox 欣赏器，同声右侧会输入一个剧本窗口，及时表露暂时操 *** 应的代码。

咱们不妨在欣赏器中做任何操纵，比方翻开百度，而后点击输出框并输出 nba，而后再点击探求按钮，欣赏器窗口如次：

不妨瞥见欣赏器中还会高亮表露咱们正在操纵的页面节点，同声还表露了对应的采用器字符串 input[name=”wd”] ，右侧的窗口如图所示：

在操纵进程中，该窗口中的代码就及时变革，不妨看到这边天生了咱们一系列操纵的对应代码，比方在探求框中输出 nba，就对应如次代码：

page.fill("input[name="wd"]", "nba")操纵结束之后，封闭欣赏器，Playwright 会天生一个 script.py 文献，实质如次：

from playwright.sync_api import sync_playwrightdef run(playwright): browser = playwright.firefox.launch(headless=False) context = browser.new_context() # Open new page page = context.new_page() # Go to https://www.baidu.com/ page.goto("https://www.baidu.com/") # Click input[name="wd"] page.click("input[name="wd"]") # Fill input[name="wd"] page.fill("input[name="wd"]", "nba") # Click text=百度一下 with page.expect_navigation(): page.click("text=百度一下") context.close() browser.close()with sync_playwright() as playwright: run(playwright)不妨看到这边天生的代码和咱们之前写的示例代码简直差不离，并且也是实足不妨运转的，运转之后就不妨看到它又不妨复现咱们方才所做的操纵了。

以是，有了这个功效，咱们以至都不必编写任何代码，只经过大略的可视化点击就能把代码天生出来，堪称利害常简单了！

其余这边有一个犯得着提防的点，提防查看下天生的代码，和前方的例子各别的是，这边 new_page 本领并不是径直经过 browser 挪用的，而是经过 context 变量挪用的，这个 context 又是由 browser 经过挪用 new_context 本领天生的。有读者群大概就会问了，这个 context 毕竟是做什么的呢？

本来这个 context 变量对应的是一个 BrowserContext 东西，BrowserContext 是一个一致隐身形式的独力左右文情况，其运转资源是独立分隔的，在做少许机动化尝试进程中，每个尝试用例咱们都不妨独立创造一个 BrowserContext 东西，如许不妨保护每个尝试用例之间互不干预，简直的 API 不妨参考https://playwright.dev/python/docs/api/class-browsercontext 。

5. 挪动端欣赏器扶助

Playwright 其余一个特性功效即是不妨扶助挪动端欣赏器的模仿，比方模仿翻开 iPhone 12 Pro Max 上的 Safari 欣赏器，而后手动树立定位，并翻开百度舆图并截图。开始咱们不妨选定一个经纬度，比仍旧宫的经纬度是 39.913904, 116.39014，咱们不妨经过 geolocation 参数传播给 Webkit 欣赏器并初始化。

示例代码如次：

from playwright.sync_api import sync_playwrightwith sync_playwright() as p: iphone_12_pro_max = p.devices['iPhone 12 Pro Max'] browser = p.webkit.launch(headless=False) context = browser.new_context( **iphone_12_pro_max, locale='zh-CN', geolocation={'longitude': 116.39014, 'latitude': 39.913904}, permissions=['geolocation'] ) page = context.new_page() page.goto('https://amap.com') page.wait_for_load_state(state='networkidle') page.screenshot(path='location-iphone.png') browser.close()这边咱们先用 PlaywrightContextManager 东西的 devices 属性指定了一台挪动摆设，这边传入的是大哥大的型号，比方 iPhone 12 Pro Max，固然也不妨传其余称呼，比方 iPhone 8，Pixel 2 等。

前方咱们仍旧领会了 BrowserContext 东西，BrowserContext 东西也不妨用来模仿挪动端欣赏器，初始化少许挪动摆设消息、谈话、权力、场所等消息，这边咱们就用它来创造了一个挪动端 BrowserContext 东西，经过 geolocation 参数字传送入了经纬度消息，经过 permissions 参数字传送入了付与的权力消息，结果将获得的 BrowserContext 东西赋值为 context 变量。

接着咱们就不妨用 BrowserContext 东西来兴建一个页面，仍旧挪用 new_page 本领创造一个新的选项卡，而后跳转到高德舆图，并挪用了 wait_for_load_state 本领等候页面某个状况实行，这边咱们传入的 state 是 networkidle，也即是搜集清闲状况。由于在页面初始化和加载进程中，确定是随同有搜集乞求的，以是加载进程中确定不算 networkidle 状况，以是这边咱们传入 networkidle 就不妨标识暂时页面和数据加载实行的状况。加载实行之后，咱们再挪用 screenshot 本领获得暂时页面截图，结果封闭欣赏器。

运转下代码，不妨创造这边就弹出了一个挪动版欣赏器，而后加载了高德舆图，并定位到了故宫的场所，如图所示：

输入的截图也是欣赏器中表露的截止。

以是如许咱们就胜利实行了挪动端欣赏器的模仿和少许树立，其操纵 API 和 PC 版欣赏器是实足一律的。

6. 采用器

前方咱们提防到 click 和 fill 等本领都传入了一个字符串，那些字符串有的适合 CSS 采用器的语法，有的又是 text= 发端的，发觉犹如没太有顺序的格式，它究竟扶助还好吗的配合准则呢？底下咱们来领会下。

传入的这个字符串，咱们不妨称之为 Element Selector，它不只仅扶助 CSS 采用器、XPath，Playwright 还扩充了少许简单好用的准则，比方径直按照文本实质挑选，按照节点层级构造挑选之类。

文本采用

文本采用扶助径直运用 text= 如许的语法举行挑选，示比方下：

page.click("text=Log in")这就代办采用文本是 Log in 的节点，并点击。

CSS 采用器

CSS 采用器之前也引见过了，比方按照 id 大概 class 挑选：

page.click("button")page.click("#nav-bar .contact-us-item")按照一定的节点属性挑选：

page.click("[data-test=login-button]")page.click("[aria-label='Sign in']")CSS 采用器 + 文本

咱们还不妨运用 CSS 采用器贯串文本值举行海选，比拟常用的即是 has-text 和 text，前者代办包括指定的字符串，后者代办字符串实足配合，示比方下：

page.click("article:has-text('Playwright')")page.click("#nav-bar :text('Contact us')")之一个即是采用文本中包括 Playwright 的 article 节点，第二个即是采用 id 为 nav-bar 节点华文本值即是 Contact us 的节点。

CSS 采用器 + 节点联系

还不妨贯串节点联系来挑选节点，比方运用 has 来指定其余一个采用器，示比方下：

page.click(".item-description:has(.item-promo-banner)")比方这边采用的即是采用 class 为 item-description 的节点，且该节点还要包括 class 为 item-promo-banner 的子节点。

其余再有少许对立场所联系，比方 right-of 不妨指定坐落某个节点右侧的节点，示比方下：

page.click("input:right-of(:text('Username'))")这边采用的即是一个 input 节点，而且该 input 节点要坐落文本值为 Username 的节点的右侧。

XPath

固然 XPath 也是扶助的，然而 xpath 这个要害字须要咱们自行拟订，示比方下：

page.click("xpath=//button")这边须要在发端指定 xpath= 字符串，代办反面是一个 XPath 表白式。

对于更多采用器的用法和更好试验，不妨参考官方文书档案：https://playwright.dev/python/docs/selectors。

7. 常用操纵本领

上头咱们领会了欣赏器的少许初始化树立和基础的操纵范例，底下咱们再对少许常用的操纵 API 举行证明。

罕见的少许 API 如点击 click，输出 fill 等操纵，那些本领都是属于 Page 东西的，以是一切的本领都从 Page 东西的 API 文书档案搜索就好了，文书档案地方：https://playwright.dev/python/docs/api/class-page 。

底下引见几个罕见的 API 用法。

事变监听

Page 东西供给了一个 on 本领，它不妨用来监听页面中爆发的各个事变，比方 close、console、load、request、response 之类。

比方这边咱们不妨监听 response 事变，response 事变不妨在历次搜集乞求获得相应的功夫触发，咱们不妨树立对应的回调本领获得到对应 Response 的十足消息，示比方下：

from playwright.sync_api import sync_playwrightdef on_response(response): print(f'Statue {response.status}: {response.url}')with sync_playwright() as p: browser = p.chromium.launch(headless=False) page = browser.new_page() page.on('response', on_response) page.goto('https://spa6.scrape.center/') page.wait_for_load_state('networkidle') browser.close()这边咱们在创造 Page 东西之后，就发端监听 response 事变，同声将回调本领树立为 on_response，on_response 东西接受一个参数，而后把 Response 的状况码和链接都输入出来了。

运转之后，不妨看到遏制台输入截止如次：

Statue 200: https://spa6.scrape.center/Statue 200: https://spa6.scrape.center/css/app.ea9d802a.cssStatue 200: https://spa6.scrape.center/js/app.5ef0d454.jsStatue 200: https://spa6.scrape.center/js/chunk-vendors.77daf991.jsStatue 200: https://spa6.scrape.center/css/chunk-19c920f8.2a6496e0.css...Statue 200: https://spa6.scrape.center/css/chunk-19c920f8.2a6496e0.cssStatue 200: https://spa6.scrape.center/js/chunk-19c920f8.c3a1129d.jsStatue 200: https://spa6.scrape.center/img/logo.a508a8f0.pngStatue 200: https://spa6.scrape.center/fonts/element-icons.535877f5.woffStatue 301: https://spa6.scrape.center/api/movie?limit=10&offset=0&token=NGMwMzFhNGEzMTFiMzJkOGE0ZTQ1YjUzMTc2OWNiYTI1Yzk0ZDM3MSwxNjIyOTE4NTE5Statue 200: https://spa6.scrape.center/api/movie/?limit=10&offset=0&token=NGMwMzFhNGEzMTFiMzJkOGE0ZTQ1YjUzMTc2OWNiYTI1Yzk0ZDM3MSwxNjIyOTE4NTE5Statue 200: https://p0.meituan.net/movie/da64660f82b98cdc1b8a3804e69609e041108.jpg@464w_644h_1e_1cStatue 200: https://p0.meituan.net/movie/283292171619cdfd5b240c8fd093f1eb255670.jpg@464w_644h_1e_1c....Statue 200: https://p1.meituan.net/movie/b607fba7513e7f15eab170aac1e1400d878112.jpg@464w_644h_1e_1c“

提防：这边简略了局部反复的实质。

”

不妨看到，这边的输入截止本来凑巧对应欣赏器 Network 面板中一切的乞求和相应实质，和下图是逐一对应的：

这个网站咱们之前领会过，其如实的数据都是 Ajax 加载的，同声 Ajax 乞求中还带有加密参数，不好简单获得。

但有了这个本领，这边即使咱们想要截获 Ajax 乞求，岂不是就特殊简单了？

改写一下判决前提，输入对应的 *** ON 截止，改写如次：

from playwright.sync_api import sync_playwrightdef on_response(response): if '/api/movie/' in response.url and response.status == 200: print(response.json())with sync_playwright() as p: browser = p.chromium.launch(headless=False) page = browser.new_page() page.on('response', on_response) page.goto('https://spa6.scrape.center/') page.wait_for_load_state('networkidle') browser.close()遏制台输出如次：

{'count': 100, 'results': [{'id': 1, 'name': '霸王别姬', 'alias': 'Farewell My Concubine', 'cover': 'https://p0.meituan.net/movie/ce4da3e03e655b5b88ed31b5cd7896cf62472.jpg@464w_644h_1e_1c', 'categories': ['剧情', '恋情'], 'published_at': '1993-07-26', 'minute': 171, 'score': 9.5, 'regions': ['华夏陆地', '华夏香港']}, ...'published_at': None, 'minute': 103, 'score': 9.0, 'regions': ['美利坚合众国']}, {'id': 10, 'name': '狮子王', 'alias': 'The Lion King', 'cover': 'https://p0.meituan.net/movie/27b76fe6cf3903f3d74963f70786001e1438406.jpg@464w_644h_1e_1c', 'categories': ['动画', '轻歌曼舞', '浮夸'], 'published_at': '1995-07-15', 'minute': 89, 'score': 9.0, 'regions': ['美利坚合众国']}]}几乎是得来全不费本领，咱们径直经过这个本领阻挡了 Ajax 乞求，径直把相应截止拿到了，纵然这个 Ajax 乞求有加密参数，咱们也不必关怀，由于咱们径直截获了 Ajax 结果相应的截止，这对数据爬取来说简直是太简单了。

其余再有很多其余的事变监听，这边不复逐一引见了，不妨查看官方文书档案，参考一致的写法实行。

获得页面源码

要获得页面包车型的士 HTML 代码本来很大略，咱们径直经过 content 本领获得即可，用法如次：

from playwright.sync_api import sync_playwrightwith sync_playwright() as p: browser = p.chromium.launch(headless=False) page = browser.new_page() page.goto('https://spa6.scrape.center/') page.wait_for_load_state('networkidle') html = page.content() print(html) browser.close()运转截止即是页面包车型的士 HTML 代码。获得了 HTML 代码之后，咱们经过少许领会东西就不妨索取想要的消息了。

页面点击

方才咱们经过示例也领会了页面点击的本领，那即是 click，这边精细说一下其运用本领。

页面点击的 API 设置如次：

page.click(selector, **kwargs)这边不妨看到必传的参数是 selector，其余的参数都是可选的。之一个 selector 就代办采用器，不妨用来配合想重心击的节点，即使传入的采用器配合了多个节点，那么只会用之一个节点。

这个本领的里面实行论理如次：

按照 selector 找到配合的节点，即使没有找到，那就从来等候直到超时，超时功夫不妨由特殊的 timeout 参数树立，默许是 30 秒。等候对该节点的可操纵性查看的截止，比方说即使某个按钮树立了不行点击，那它会等候该按钮形成了可点击的功夫才去点击，只有经过 force 参数树立跳过可操纵性查看办法强迫点击。即使须要的话，就震动下页面，将须要被点击的节点表露出来。挪用 page 东西的 mouse 本领，点击节点重心的场所，即使指定了 position 参数，那就点击指定的场所。click 本领的少许比拟要害的参数如次：

click_count：点击度数，默许为 1。timeout：等候重心击的节点的超时功夫，默许是 30 秒。position：须要传入一个字典，带有 x 和 y 属性，代办点击场所对立节点左上角的偏移场所。force：纵然不行点击，那也强迫点击。默许是 False。简直的 API 树立参数不妨参考官方文书档案：https://playwright.dev/python/docs/api/class-page/#pageclickselector-kwargs。

文本输出

文本输出对应的本领是 fill，API 设置如次：

page.fill(selector, value, **kwargs)这个本领有两个必传参数，之一个参数也是 selector，第二个参数是 value，代办输出的实质，其余还不妨经过 timeout 参数指定对应节点的最长等候功夫。

获得节点属性

除去对节点举行操纵，咱们还不妨获得节点的属性，本领即是 get_attribute，API 设置如次：

page.get_attribute(selector, name, **kwargs)这个本领有两个必传参数，之一个参数也是 selector，第二个参数是 name，代办要获得的属性称呼，其余还不妨经过 timeout 参数指定对应节点的最长等候功夫。

示比方下：

from playwright.sync_api import sync_playwrightwith sync_playwright() as p: browser = p.chromium.launch(headless=False) page = browser.new_page() page.goto('https://spa6.scrape.center/') page.wait_for_load_state('networkidle') href = page.get_attribute('a.name', 'href') print(href) browser.close()这边咱们挪用了 get_attribute 本领，传入的 selector 是 a.name ，选定了 class 为 name 的 a 节点，而后第二个参数字传送入了 href，获得超链接的实质，输入截止如次：

/detail/ZWYzNCN0ZXVxMGJ0dWEjKC01N3cxcTVvNS0takA5OHh5Z2ltbHlmeHMqLSFpLTAtbWIx不妨看到对应 href 属性就获得出来了，但这边惟有一条截止，由于这边有个前提，那即是即使传入的采用器配合了多个节点，那么只会用之一个节点。

那如何获得一切的节点呢？

获得多个节点

获得一切节点不妨运用 query_selector_all 本领，它不妨归来节点列表，经过遍历获得到单个节点之后，咱们不妨接着挪用单个节点的本领来举行少许操纵和属性获得，示比方下：

from playwright.sync_api import sync_playwrightwith sync_playwright() as p: browser = p.chromium.launch(headless=False) page = browser.new_page() page.goto('https://spa6.scrape.center/') page.wait_for_load_state('networkidle') elements = page.query_selector_all('a.name') for element in elements: print(element.get_attribute('href')) print(element.text_content()) browser.close()这边咱们经过 query_selector_all 本领获得了一切配合到的节点，每个节点对应的是一个 ElementHandle 东西，而后 ElementHandle 东西也有 get_attribute 本领来获得节点属性，其余还不妨经过 text_content 本领获得节点文本。

运转截止如次：

/detail/ZWYzNCN0ZXVxMGJ0dWEjKC01N3cxcTVvNS0takA5OHh5Z2ltbHlmeHMqLSFpLTAtbWIx霸王别姬 - Farewell My Concubine/detail/ZWYzNCN0ZXVxMGJ0dWEjKC01N3cxcTVvNS0takA5OHh5Z2ltbHlmeHMqLSFpLTAtbWIy这个杀手不太冷 - Léon/detail/ZWYzNCN0ZXVxMGJ0dWEjKC01N3cxcTVvNS0takA5OHh5Z2ltbHlmeHMqLSFpLTAtbWIz肖申克的救赎 - The Shawshank Redemption/detail/ZWYzNCN0ZXVxMGJ0dWEjKC01N3cxcTVvNS0takA5OHh5Z2ltbHlmeHMqLSFpLTAtbWI0泰坦尼克号 - Titanic/detail/ZWYzNCN0ZXVxMGJ0dWEjKC01N3cxcTVvNS0takA5OHh5Z2ltbHlmeHMqLSFpLTAtbWI1罗马假期 - Roman Holiday/detail/ZWYzNCN0ZXVxMGJ0dWEjKC01N3cxcTVvNS0takA5OHh5Z2ltbHlmeHMqLSFpLTAtbWI2唐伯虎点秋香 - Flirting Scholar/detail/ZWYzNCN0ZXVxMGJ0dWEjKC01N3cxcTVvNS0takA5OHh5Z2ltbHlmeHMqLSFpLTAtbWI3浊世才子 - Gone with the Wind/detail/ZWYzNCN0ZXVxMGJ0dWEjKC01N3cxcTVvNS0takA5OHh5Z2ltbHlmeHMqLSFpLTAtbWI4笑剧之王 - The King of Comedy/detail/ZWYzNCN0ZXVxMGJ0dWEjKC01N3cxcTVvNS0takA5OHh5Z2ltbHlmeHMqLSFpLTAtbWI5楚门的寰球 - The Truman Show/detail/ZWYzNCN0ZXVxMGJ0dWEjKC01N3cxcTVvNS0takA5OHh5Z2ltbHlmeHMqLSFpLTAtbWIxMA==狮子王 - The Lion King获得单个节点

获得单个节点也有一定的本领，即是 query_selector，即使传入的采用器配合到多个节点，那它只会归来之一个节点，示比方下：

/detail/ZWYzNCN0ZXVxMGJ0dWEjKC01N3cxcTVvNS0takA5OHh5Z2ltbHlmeHMqLSFpLTAtbWIx霸王别姬 - Farewell My Concubine不妨看到这边只输入了之一个配合节点的消息。

搜集威胁

结果再引见一个适用的本领 route，运用 route 本领，咱们不妨实行少许搜集威胁和窜改操纵，比方窜改 request 的属性，窜改 response 相应截止等。

看一个范例：

from playwright.sync_api import sync_playwrightimport rewith sync_playwright() as p: browser = p.chromium.launch(headless=False) page = browser.new_page() def cancel_request(route, request): route.abort() page.route(re.compile(r"(.png)|(.jpg)"), cancel_request) page.goto("https://spa6.scrape.center/") page.wait_for_load_state('networkidle') page.screenshot(path='no_picture.png') browser.close()这边咱们挪用了 route 本领，之一个参数经过正则表白式传入了配合的 URL 路途，这边代办的是任何包括 .png 或 .jpg 的链接，遇到如许的乞求，会回调 cancel_request 本领处置，cancel_request 本领不妨接受两个参数，一个是 route，代办一个 CallableRoute 东西，其余一个是 request，代办 Request 东西。这边咱们径直挪用了 route 的 abort 本领，废除了这次乞求，以是最?

更多有哪些好用且免费的爬虫软件(爬虫工具下载)相关信息请关注本站。