豆瓣内容抓取:使用R、httr和XML库的完整教程

news2025/1/17 23:10:53

亿牛云代理.png

概述

在数据分析和统计领域,R语言以其强大的数据处理能力和丰富的包库资源而闻名。它不仅提供了一个灵活的编程环境,还拥有专门用于数据抓取和处理的工具,如httr和XML库。这些工具使得从各种网站上抓取数据变得简单而高效。
豆瓣网站作为一个集电影、书籍、音乐等文化内容于一体的社交平台,其数据库丰富,信息更新及时,是数据分析师和研究人员的宝贵资源。通过R语言,我们可以高效地抓取豆瓣上的数据,进行深入的数据分析和挖掘。
本教程将指导读者如何利用R语言的httr和XML库,结合豆瓣网站的优势,来抓取豆瓣电影的数据。我们将通过一个实际的示例,展示如何获取数据,并对其进行分类统计,以揭示不同类型电影的分布情况。

细节

引入必要的库

首先,我们需要引入R中的XML和httr库,这两个库分别用于解析XML文档和发送HTTP请求。

# 引入必要的库
library(XML)
library(httr)
2. 设置爬虫代理服务器

我们将使用亿牛云爬虫代理,设置代理服务器的IP、端口、用户名和密码,以确保请求的匿名性和稳定性。

# 亿牛云爬虫代理加强版 设置代理服务器
proxy_host <- "代理服务器域名"
proxy_port <- 端口号
proxy_user <- "用户名"
proxy_pass <- "密码"

# 创建一个HTTP客户端,使用代理服务器
http_client <- httr::use_proxy(
  url = paste0("http://", proxy_host, ":", proxy_port),
  username = proxy_user,
  password = proxy_pass
)
3. 请求豆瓣主页内容

使用httr库中的GET方法请求豆瓣主页内容,并检查请求是否成功。

# 请求豆瓣主页内容
douban_url <- "http://www.douban.com"
response <- GET(douban_url, config = http_client)

# 检查请求是否成功
if (status_code(response) == 200) {
  content <- content(response, as = "text")
} else {
  stop("请求失败:", status_code(response))
}
4. 解析返回的XML文档

使用XML库解析返回的HTML内容,并提取我们感兴趣的数据。在这个例子中,我们将提取豆瓣主页中的一些重要信息。

# 解析XML文档
xml_doc <- htmlParse(content, asText = TRUE)

# 提取数据(例如标题)
titles <- xpathSApply(xml_doc, "//title", xmlValue)
5. 数据分类统计

假设我们要统计不同类型的链接数量,例如内部链接和外部链接。

# 提取所有链接
links <- xpathSApply(xml_doc, "//a/@href")

# 初始化统计计数器
internal_links <- 0
external_links <- 0

# 分类统计
for (link in links) {
  if (grepl("^http://www.douban.com", link)) {
    internal_links <- internal_links + 1
  } else {
    external_links <- external_links + 1
  }
}

# 输出统计结果
cat("内部链接数量:", internal_links, "\n")
cat("外部链接数量:", external_links, "\n")
6. 完整代码示例

以下是上述步骤的完整代码示例。

# 引入必要的库
library(XML)
library(httr)

# 亿牛云爬虫代理 设置代理服务器
proxy_host <- "www.16yun.cn"
proxy_port <- 31111
proxy_user <- "your_username"
proxy_pass <- "your_password"

# 创建一个HTTP客户端,使用代理服务器
http_client <- use_proxy(
  url = paste0("http://", proxy_host, ":", proxy_port),
  username = proxy_user,
  password = proxy_pass
)

# 请求豆瓣主页内容
douban_url <- "http://www.douban.com"
response <- GET(douban_url, config = http_client)

# 检查请求是否成功
if (status_code(response) == 200) {
  content <- content(response, as = "text")
  
  # 解析XML文档
  xml_doc <- htmlParse(content, asText = TRUE)
  
  # 提取数据(例如标题)
  titles <- xpathSApply(xml_doc, "//title", xmlValue)
  
  # 提取所有链接
  links <- xpathSApply(xml_doc, "//a/@href")
  
  # 初始化统计计数器
  internal_links <- 0
  external_links <- 0
  
  # 分类统计
  for (link in links) {
    if (grepl("^http://www.douban.com", link)) {
      internal_links <- internal_links + 1
    } else {
      external_links <- external_links + 1
    }
  }
  
  # 输出统计结果
  cat("内部链接数量:", internal_links, "\n")
  cat("外部链接数量:", external_links, "\n")
  
} else {
  stop("请求失败:", status_code(response))
}

总结

通过本教程,您学会了如何使用R语言结合httr和XML库,通过代理服务器抓取豆瓣网站内容,并实现数据的分类统计。这些技能不仅适用于豆瓣,还可以扩展到其他需要数据抓取的场景中。希望本文能对您的数据抓取工作有所帮助

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1712580.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Excel 单元格式 “万” 和 “亿” 展示

先看结果 实现方法&#xff1a; 将单元格式 格式设置为 [>999999]0!.00,,"亿";[>999]0!.0,"万";0 我这里设置的是大于 999 和 99万 生效对应的万和 亿 如果想要达到1万 和达到 1亿 才生效可以设置为如下 [>1000000000]0!.00,,"亿"…

RUST 和 GO 如何管理它们的内存

100编程书屋_孔夫子旧书网 Go 中的内存管理 Go 中的内存不会在缓存键被驱逐时立即释放。 相反&#xff0c;垃圾收集器会经常运行以发现任何没有引用的内存并释放它。 换句话说&#xff0c;内存会一直挂起&#xff0c;直到垃圾收集器可以评估它是否真正不再使用&#xff0c;而…

AI架构设计6:vLLM

训练大型语言模型以及微调的教程比比皆是&#xff0c;但关于在生产环境中部署它们并监控其活动的资料相对稀缺。上个章节提到了未来云原生的AI是趋势&#xff0c;然而涉及到云原生会比较偏技术。而在此之前为了解决大模型部署量产的问题&#xff0c;社区也一直在探索&#xff0…

OLED曲面屏手机跌下神坛,曲面边缘老化迅速,泛黄严重

在过去国产手机都喜欢将曲面屏用到旗舰手机上&#xff0c;借此凸显旗舰手机的优越性和独特性&#xff0c;然而在实际使用中&#xff0c;曲面屏的弊端日益明显&#xff0c;如今笔者就遭遇了这个问题。 因手上刚购买的天玑6080、骁龙4G2新机存在卡顿问题&#xff0c;使用很不爽&a…

面向链接预测的知识图谱表示学习方法综述

源自&#xff1a;软件学报 作者&#xff1a;杜雪盈, 刘名威, 沈立炜, 彭鑫 注&#xff1a;若出现无法显示完全的情况&#xff0c;可搜索“人工智能技术与咨询”查看完整文章 摘 要 作为人工智能的重要基石, 知识图谱能够从互联网海量数据中抽取并表达先验知识, 极大程度解决…

【数据结构】冒泡排序、直接插入排序、希尔排序详解!

文章目录 1. 冒泡排序&#x1f34e;2. 直接插入排序&#x1f34e;3. 希尔排序&#xff08;缩小增量排序&#xff09;&#x1f34e; 1. 冒泡排序&#x1f34e; &#x1f427; 基本思想&#xff1a; 比较相邻的元素。如果第一个比第二个大&#xff0c;就交换他们两个。 大的数据…

【Python-基础】函数合集

def嵌套def 调用外部函数aa时&#xff0c;如果aa中没有调用内部函数bb&#xff0c;则bb函数不执行。 def aa():print("1")def bb():print("2")print("3")if __name__ "__main__":aa()未待完续…

LeetCode---链表

203. 移除链表元素 给你一个链表的头节点 head 和一个整数 val &#xff0c;请你删除链表中所有满足 Node.val val 的节点&#xff0c;并返回 新的头节点 。 代码示例1&#xff1a;(直接使用原来的链表来进行移除节点操作) //时间复杂度: O(n) //空间复杂度: O(1) class Solu…

海博思创储能系统产品再获认可,获得杰出项目类别入围资格

近日&#xff0c;2024年欧洲智慧能源展览会大奖&#xff08;The smarter E AWARD 2024&#xff09;公布了入围名单&#xff0c;该奖项设有五个类别&#xff1a;光伏、储能、电动出行、智能综合能源和杰出项目奖&#xff0c;旨在表彰能源领域中的卓越创新成果。 在入围项目中&a…

基于STM32实现智能楼宇对讲系统

目录 引言环境准备智能楼宇对讲系统基础代码示例&#xff1a;实现智能楼宇对讲系统 音频输入和输出按键控制显示屏和用户界面网络通信应用场景&#xff1a;楼宇安防与智能家居问题解决方案与优化收尾与总结 1. 引言 本教程将详细介绍如何在STM32嵌入式系统中使用C语言实现智能…

菜鸟的JavaSE学习之旅7

这是一个目录 数组工具类Arrays数学工具类Math继承重写&#xff08;Override&#xff09;覆盖、覆写注意 构造方法super关键字用法this关键字super和this 抽象抽象方法和抽象类格式抽象方法和抽象类使用抽象方法和抽象类注意事项 数组工具类Arrays java.util.Arrays是一个与数…

手写promise、call、apply、debounce、throttle 等

1、promise 1.1 实现resolve和reject class MyPromise {// 构造方法constructor(executor) {// 初始化值this.initValue()// 初始化this指向this.initBind()try {// 执行传进来的函数executor(this.resolve, this.reject)} catch (e) {// 捕捉到错误直接执行rejectthis.rejec…

微调真的能让LLM学到新东西吗:引入新知识可能让模型产生更多的幻觉

大型语言模型(llm)是在巨大的文本语料库上训练的&#xff0c;在那里他们获得了大量的事实知识。这些知识嵌入到它们的参数中&#xff0c;然后可以在需要时使用。这些模型的知识在培训结束时被“具体化”。在预训练结束时&#xff0c;模型实际上停止学习。 对模型进行对齐或进行…

【NumPy】全面解析arange函数:高效创建数值范围数组

&#x1f9d1; 博主简介&#xff1a;阿里巴巴嵌入式技术专家&#xff0c;深耕嵌入式人工智能领域&#xff0c;具备多年的嵌入式硬件产品研发管理经验。 &#x1f4d2; 博客介绍&#xff1a;分享嵌入式开发领域的相关知识、经验、思考和感悟&#xff0c;欢迎关注。提供嵌入式方向…

如何高效搜索?99%的人都不知道的搜索进阶小技巧

如何高效搜索任何你想要的信息&#xff1f; 比如怎么找第一手的行业研究报告&#xff1f; 在哪查高清无码的图片素材&#xff1f; 怎么搜最新的AI工具教程&#xff1f; 遇到以上问题你会怎么搜&#xff1f; 可能大部分人都是直接打开百度查关键词&#xff0c;虽然随便一搜…

2024年学浪课程下载工具

学浪下载工具我已经打包好了&#xff0c;有需要的自己下载一下 学浪下载器链接&#xff1a;百度网盘 请输入提取码 提取码&#xff1a;1234 --来自百度网盘超级会员V10的分享 1.首先解压好我给大家准备好的压缩包 2.打开解压好的文件夹里面的N_m3u8D文件夹&#xff0c;然…

如何理解和使用 this 关键字

this 关键字是许多编程语言中的一个核心概念&#xff0c;在面向对象编程&#xff08;OOP&#xff09;中尤为重要。在JavaScript、Java、C、C#等语言中&#xff0c;this 扮演着至关重要的角色。理解 this 的意义和用法&#xff0c;对于编写清晰、有效的代码至关重要。 什么是th…

字符串操作:写一个方法,实现字符串的反转,如:输入abc,输出cba

import java.util.Scanner; public class Test_A15 {public static void main(String[] args){String strA"";System.out.println("请输入一串字符串:");Scanner scannernew Scanner(System.in);strAscanner.next();Test_A15 T15new Test_A15();String re…

JAVA系列:NIO

NIO学习 一、前言 先来看一下NIO的工作流程图&#xff1a; NIO三大核心组件&#xff0c;channel&#xff08;通道&#xff09;、Buffer&#xff08;缓冲区&#xff09;、selector&#xff08;选择器&#xff09;。NIO利用的是多路复用模型&#xff0c;一个线程处理多个IO的读…

新时代病毒侵染了全世界!自律的自我认知,无聊才是根本——早读(逆天打工人爬取热门微信文章解读)

刷视频的动作是什么&#xff1f; 引言Python 代码第一篇 【夜读】为什么要自律&#xff1f;这是我听过最走心的答案第二篇结尾 引言 文字阅读数量确实在缩减 虽然我觉得未来还是有一席之地 当下的人 普罗大众吧 你让他们看书 看文字 显然是不现实的 他们比起看书看文字 更喜欢…