Python + Playwright（23）：处理 iframe (内嵌框架)「详细介绍」

Python + Playwright（23）：处理 iframe 内嵌框架「详细介绍」

简介
1. 理解 iframe 的特性
2. 处理 iframe 的方法
- 2.1 使用 `page.frames` 遍历所有的 iframe
- 2.2 通过 `page.frames` 访问特定 iframe
- 2.2 通过 `page.frames` 的索引访问 iframe
- 2.3 通过 `page.frame()` 方法的 name 或 id 处理 iframe
- 2.4 通过 `page.frame()` 方法操作嵌套 iframe
- 2.5 等待 iframe 加载
- 2.6 使用 `page.frame_locator()` 方法
- 2.7 使用 `locator.frame_locator()` 方法
- 2.8 `frame_locator()` 方法的优势
3. 高级 iframe 操作技巧
- 3.1 处理动态内容
4. 常见问题与解决方案
- 4.1 iframe 无法访问或定位失败
- 4.2 iframe 中的元素操作失败
总结

简介

iframe，即内嵌框架，是 HTML 标签之一，允许在网页内嵌入另一个 HTML 页面。与普通的页面元素不同，iframe 有自己独立的 DOM 树、浏览上下文、JavaScript 运行环境以及网络会话（如 Cookie 和 LocalStorage）。因此，处理 iframe 需要特别注意它与主页面的隔离性。

1. 理解 iframe 的特性

由于 iframe 是独立的文档，直接操作 iframe 内的元素需要切换到该 iframe的上下文。
与主文档直接交互不同，自动化工具必须明确地“切换”到 iframe 中才能执行操作。
在 Playwright 中，虽然 iframe 依然是一个独立的上下文，但不再需要手动切换。Playwright
提供了专门的方法，可以直接操作 iframe 内的元素。

2. 处理 iframe 的方法

2.1 使用 `page.frames` 遍历所有的 iframe

page.frames 属性返回当前页面中所有已加载的 Frame 对象列表。这些 Frame 对象包括主页面（通常是第一个 Frame）和所有嵌入的 iframe。

通过 page.frames，可以遍历所有的 iframe，并对它们进行相应的操作。

from playwright.sync_api import sync_playwright


def run(playwright):
    browser = playwright.chromium.launch(headless=False)
    context = browser.new_context()
    page = context.new_page()
    page.goto("https://music.163.com/#")

    frames = page.frames
    for frame in frames:
        print(f"Frame Name: {frame.name}, Frame URL: {frame.url}")

    context.close()
    browser.close()


with sync_playwright() as playwright:
    run(playwright)

代码解释：

frames = page.frames：获取页面中所有已加载的 iframe
frame.name：返回 iframe 的名称（如果存在）
frame.url：返回 iframe 的当前 URL

执行结果如下：
在这里插入图片描述

2.2 通过 `page.frames` 访问特定 iframe

有时，页面上可能存在多个 iframe，直接通过 name 或 url 定位可能不太方便。这时，你可以使用 page.frames 获取所有 iframe 的列表，然后根据需要的属性手动选择特定的 iframe。

通过 frame.name：

from playwright.sync_api import sync_playwright


def run(playwright):
    browser = playwright.chromium.launch(headless=True)
    context = browser.new_context()
    page = context.new_page()
    page.goto("https://music.163.com/#")

    frames = page.frames
    target_frame = None
    for frame in frames:
        if "contentFrame" in frame.name:
            target_frame = frame
            print("Target frame:", target_frame)
            break

    if target_frame:
        target_frame.click("#index-banner")

    page.wait_for_timeout(1000)
    page.screenshot(path="screenshot.png")

    context.close()
    browser.close()

在这里插入图片描述

执行结果如下：
在这里插入图片描述

通过 frame.url：

from playwright.sync_api import sync_playwright


def run(playwright):
    browser = playwright.chromium.launch(headless=False)
    context = browser.new_context()
    page = context.new_page()
    page.goto("https://music.163.com/#")

    frames = page.frames
    target_frame = None
    for frame in frames:
        if "https://music.163.com/discover" in frame.url:
            target_frame = frame
            break

    if target_frame:
        target_frame.click("#index-banner")

    page.wait_for_timeout(1000)
    page.screenshot(path="screenshot.png")

    context.close()
    browser.close()


with sync_playwright() as playwright:
    run(playwright)

代码说明：

通过遍历 page.frames 获取的 Frame 对象列表，根据特定条件（如 name 或 url）筛选目标 iframe。
如果找到了目标 iframe（target_frame），则可以在其上执行操作，如点击按钮、填写表单等。

2.2 通过 `page.frames` 的索引访问 iframe

在某些情况下，iframe 可能没有明确的名称或 ID。这时可以通过索引来访问 iframe：

from playwright.sync_api import sync_playwright


def run(playwright):
    # 启动浏览器并打开页面
    browser = playwright.chromium.launch(headless=True)
    context = browser.new_context()
    page = context.new_page()
    page.goto("https://music.163.com/#")

    # 查找并访问 iframe
    frame = page.frames[0]  # 获取第一个 iframe
    if frame:
        print(f"Frame : {frame}")

    # 关闭浏览器
    context.close()
    browser.close()


with sync_playwright() as playwright:
    run(playwright)

这种方法在处理复杂页面结构时非常有用，尤其是在页面上存在多个 iframe 的情况下。

2.3 通过 `page.frame()` 方法的 name 或 id 处理 iframe

Playwright 提供了 page.frame() 方法来处理 iframe。

以下是如何通过 page.frame() 方法操作 iframe 的基本步骤：

from playwright.sync_api import sync_playwright

def run(playwright):
    # 启动浏览器并打开页面
    browser = playwright.chromium.launch(headless=False)
    context = browser.new_context()
    page = context.new_page()
    page.goto("https://music.163.com/#")

    # 查找并访问 iframe
    frame = page.frame(name="contentFrame")  # iframe 的名称或 ID访问iframe
    if frame:
        print(f"Frame Name: {frame.name}")

    # 关闭浏览器
    context.close()
    browser.close()

with sync_playwright() as playwright:
    run(playwright)

代码解释：

frame = page.frame(name="iframe_name_or_id")：通过 iframe 的名称或 ID 获取 iframe 对象。

2.4 通过 `page.frame()` 方法操作嵌套 iframe

嵌套 iframe 进一步增加了测试的复杂性。为了操作嵌套的 iframe，必须逐级访问：

outer_frame = page.frame(name="outer_frame")
inner_frame = outer_frame.frame(name="inner_frame")

inner_frame.click("button#submit")

这里，先通过 outer_frame 获取外层 iframe，然后再通过 inner_frame 获取嵌套的 iframe，最终在嵌套的 iframe 中执行操作。

2.5 等待 iframe 加载

在实际操作中，iframe 的内容可能会延迟加载。在这种情况下，可以使用 Playwright 的等待机制确保 iframe 已经加载完毕：

frame = page.wait_for_selector("iframe#frame_id", state="attached")  # 等待 iframe 出现
frame = page.frame(name="frame_id")

wait_for_selector 方法确保 iframe 存在并加载后，才开始执行后续操作，从而避免潜在的错误。

2.6 使用 `page.frame_locator()` 方法

page.frame_locator() 方法可以用于创建一个 FrameLocator 对象，它允许你在 iframe 中定位和操作元素，而无需显式切换到 iframe 上下文。这个方法可以让代码更简洁，并减少潜在的错误。

示例代码如下：

from playwright.sync_api import sync_playwright


def run(playwright):
    # 启动浏览器并打开页面
    browser = playwright.chromium.launch(headless=False)
    context = browser.new_context()
    page = context.new_page()
    page.goto("https://music.163.com/#")

    # 使用 frame_locator 定位 iframe 中的元素并进行操作
    frame_locator = page.frame_locator("iframe[name='contentFrame']")
    frame_locator.locator("#index-banner").click()

    # 截图保存操作结果
    page.screenshot(path="screenshot.png")

    # 关闭浏览器
    context.close()
    browser.close()


with sync_playwright() as playwright:
    run(playwright)

代码说明：

frame_locator = page.frame_locator("iframe[name='contentFrame']")：通过 iframe 的 name 属性创建一个 FrameLocator 对象。
frame_locator.locator("#index-banner").click()：在指定的 iframe 中定位并点击 #index-banner 元素。

这种方法不需要显式地切换上下文，使得代码更加简洁且易于维护。

2.7 使用 `locator.frame_locator()` 方法

locator.frame_locator() 方法允许你在已有的 Locator 对象的基础上，进一步在其包含的 iframe 中进行操作。这种方法适合用于处理嵌套 iframe 中的元素操作，大大简化了代码逻辑。

示例代码如下：

from playwright.sync_api import sync_playwright


def run(playwright):
    # 启动浏览器并打开页面
    browser = playwright.chromium.launch(headless=False)
    context = browser.new_context()
    page = context.new_page()
    page.goto("https://music.163.com/#")

    # 使用 locator.frame_locator 定位嵌套 iframe 中的元素并进行操作
    frame_locator = page.locator("iframe[name='contentFrame']").frame_locator("iframe")
    frame_locator.locator("#some-element-in-nested-iframe").click()

    # 截图保存操作结果
    page.screenshot(path="screenshot_nested.png")

    # 关闭浏览器
    context.close()
    browser.close()


with sync_playwright() as playwright:
    run(playwright)

代码说明：

frame_locator = page.locator("iframe[name='contentFrame']").frame_locator("iframe")：首先定位外层的 iframe，然后在其内部的嵌套 iframe 中继续定位。
frame_locator.locator("#some-element-in-nested-iframe").click()：在嵌套 iframe 中定位并点击元素。

2.8 `frame_locator()` 方法的优势

相比传统的 page.frames 和 page.frame 方法，frame_locator() 提供了以下几个优势：

简洁性：无需手动切换上下文，代码更简洁。
灵活性：可以轻松处理嵌套的 iframe。
可读性：代码可读性更高，更容易理解和维护。

通过这些方法，处理复杂的 iframe 结构变得更加容易，有效减少了操作 iframe 时可能遇到的问题。

3. 高级 iframe 操作技巧

3.1 处理动态内容

在实际场景中，很多 iframe 包含动态内容，例如广告或第三方组件。这些内容可能会根据用户操作或时间动态变化。为了在测试中处理这种情况，可以使用 Playwright 的 wait_for_function 方法，确保内容加载完成或某个特定条件满足后再继续执行操作。

示例代码如下：

frame = page.frame(name="dynamic_frame")
page.wait_for_function("() => document.querySelector('button#dynamic_button') !== null", timeout=5000)
frame.click("button#dynamic_button")