Ownips+Coze海外社媒数据分析实战指南

news2024/11/18 3:45:30

目录

  • 一、引言
  • 二、ISP代理简介
  • 三、应用实践——基于Ownips和coze的社媒智能分析助手
    • 3.1、Twitter趋势数据采集
      • 3.1.1、Twitter趋势数据接口分析
      • 3.1.2、Ownips原生住宅ISP选取与配置
      • 3.1.3、数据采集
    • 3.2、基于Ownips和Coze的社媒智能助手
      • 3.2.1、Ownips数据采集插件集成
      • 3.2.2、创建Twitter Bot智能体
      • 3.2.3、Twitter 趋势分析效果
  • 四、最后

一、引言

在当今数字化浪潮中,社交媒体已深深融入人们的日常生活,并为企业、研究机构及个体研究者提供了宝贵的数据资源。从Twitter、Facebook、Instagram、LinkedIn等多元化平台高效采集数据,并进行深入分析,我们能够洞察用户行为、市场动向、公众情感等关键信息。这些信息对于市场分析、社会研究、品牌监控及其他各种分析工作至关重要。

本文旨在通过案例,探讨在社交媒体数据采集与分析的实战方法,为研究和工作提供坚实的数据支撑。

二、ISP代理简介

在这里插入图片描述
在采集社交媒体数据之前,我们首先要解决一个核心问题:社交媒体平台对IP的属性做判断,导致无法高效采集数据。一方面,社交媒体平台在推送时会确保所推送的内容与当地的文化和用户偏好相符合,另一方面,社交媒体平台会检测和阻止异常流量,一旦单次访问次数过多,便可能触发强制验证。

这时,ISP代理的引入就显得尤为重要。ISP代理首先能够模拟地区,有效保护在线隐私,减少被追踪和识别。其次,它能够确保用户顺畅地访问所需内容,提升数据获取的效率和便捷性。此外,ISP代理还提供了额外的安全层,能够过滤钓鱼网站和陷阱类的内容,有效防止恶意攻击和数据泄露的风险。在企业环境中,其还能够显著加快网页访问速度,降低带宽使用,同时通过负载均衡技术提升网络性能和稳定性。
在这里插入图片描述
Ownips就是这样一家专注于提供高质量静态IP代理服务的公司,其为全球用户提供独享原生静态ISP,具有高稳定性、高安全性,资源覆盖全球100+国家地区,可谓是全力满足伙伴们在跨境电商、社交营销等场景中的需求。

值得一提的是,Ownips专做高质量静态代理,根据业务场景选择不同等级的静态IP,使用更加灵活。Ownips通过提供纯净、稳定的静态IP资源,并结合其灵活的配置选项和专业的技术支持,为用户提供了代理体验,满足了不同业务场景下的需求。

三、应用实践——基于Ownips和coze的社媒智能分析助手

3.1、Twitter趋势数据采集

3.1.1、Twitter趋势数据接口分析

打开推特网页我们可以发现,整个趋势榜是一个div盒子。请添加图片描述
每一个项目都是一个子div,包含在主div下。而文字部分包含在其中的一个span下。于是可以得到结构如下:
在这里插入图片描述
其中,<div class="css-1750izr" aria-label="时间线:探索"> 这个

容器包含了所有的趋势数据。每个趋势项由类似于 <div class="css-1750izr"> ... <span>趋势内容 </span> ... </div> 的结构组成。例如, <span>Celtics</span> 表示一个趋势项,内容为“Celtics”。依据结构可以写出xpath如下: python //div[@aria-label="时间线:探索"]/div/div//div/div/div/div/div[2]/span

测试一下,可以发现确实选出了所有的项目,后期只要提取其中的文字即可。
在这里插入图片描述

3.1.2、Ownips原生住宅ISP选取与配置

访问Ownips 网站,打开住宅ISP代理页面,选择原生住宅ISP,即可开始添加需要地区的IP,选好以后点击购买即可。
在这里插入图片描述
下单完成后即可在个人中心看到之前选购的IP的状态,也可以进行管理和续费。
在这里插入图片描述
点击获取代理,即可使用刚才购买的IP,这里支持两种使用方式,一种是通过API自动获取,一种是通过设置账号定向访问。这里我们先选择API方式。选定国家和地区,点击生成链接即可在右侧得到登录链接。接下来我们尝试获取代理。点击账户认证获取,选择国家和地区,之后要选择认证账户,这里我们先去创建一个。
在这里插入图片描述
在账密认证中选择认证账户管理,选择添加。设置好账号密码即可。
在这里插入图片描述
回到账户获取代理中,选择刚才创建的账号,即可使用。
在这里插入图片描述

3.1.3、数据采集

这里我们采用python的request库获取网页,并通过xpath解析页面数据,最后保存为txt文件。

首先,导入必要的模块,包括requests用于发送HTTP请求,BeautifulSoup用于解析HTML,_thread用于多线程处理,和time用于时间延迟。之后需要设置模拟浏览器的请求头和目标URL。

import requests as rq
from bs4 import BeautifulSoup
import _thread
import time
  
headers = {
     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/115.0",
 }
api = 'https://api-proxy.ownips.com/getIsp?num=1&type=1&lb=1&sb=0&flow=1®ions=tw&attribute=native_isp'
url = 'https://x.com/explore/tabs/keyword'

procPage函数使用BeautifulSoup解析HTML内容,其中,首先通过BeautifulSoup(page, 'html.parser')来创建一个soup对象,这个对象会解析传入的HTML页面page,然后,使用xpath方法来定位具有特定aria-label属性的子元素。

def procPage(page):
    soup = BeautifulSoup(page, 'html.parser')
    divs = soup.xpath('//div[@aria-label="时间线:探索"]/div/div')
    r = []
    for i in range(2, len(divs)):
        r.append(divs[i].xpath('//div/div/div/div/div[2]/span//text()'))
    print("解析完毕")
    return r

testUrl函数定义了一个名为 proxy 的字典,用于设置代理服务器信息,通过代理发送GET请求到目标URL,这个请求包含了之前定义的 headers 字典,用于模拟浏览器发送请求,以避免被目标网站拒绝。最后,函数调用 procPage 函数来解析网页内容。它将 res.content(即响应内容的二进制数据)作为参数传递给 procPage ,并将结果写入一个文件。此处隐去ip消息。

def testUrl():
     proxy = {'http': 'http://yyyyyyy:yyy3214@38.182.xxx.xxx:2333',
              'https': 'https://yyyyyyy:yyy3214@38.182.xxx.xxx:2333',
              }
     try:
         res = rq.get(url=url, headers=headers, proxies=proxy)
         print("获取成功,正在解析")
         d = procPage(res.content)
         with open('trend.txt', 'w', encoding='utf-8') as f:
            f.write(str(d))
  
    except Exception as e:
        print("访问失败", e)

主线程启动10个并发线程,每个线程调用testUrl,并在每个线程启动后延迟0.1秒,最终主线程延迟10秒以确保所有子线程完成任务。

for port in range(0, 10):
     _thread.start_new_thread(testUrl, ())
     time.sleep(0.1)
  
 time.sleep(10)

运行一下,得到结果如下:
在这里插入图片描述
完整代码如下:

import requests as rq
from bs4 import BeautifulSoup
import _thread
import time
  
headers = {
     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/115.0",
 }
api = 'https://api-proxy.ownips.com/getIsp?num=1&type=1&lb=1&sb=0&flow=1®ions=tw&attribute=native_isp'
url = 'https://x.com/explore/tabs/keyword'
 
 
def procPage(page):
     soup = BeautifulSoup(page, 'html.parser')
     divs = soup.xpath('//div[@aria-label="时间线:探索"]/div/div')
     r = []
     for i in range(2, len(divs)):
         r.append(divs[i].xpath('//div/div/div/div/div[2]/span//text()'))
     print("解析完毕")
     return r
  
  
def testUrl():
     proxy = {'http': 'http://yyyyyyy:yyy3214@38.182.xxx.xxx:2333',
              'https': 'https://yyyyyyy:yyy3214@38.182.xxx.xxx:2333',
              }
     try:
         res = rq.get(url=url, headers=headers, proxies=proxy)
         print("获取成功,正在解析")
         d = procPage(res.content)
         with open('trend.txt', 'w', encoding='utf-8') as f:
             f.write(str(d))
  
     except Exception as e:
         print("访问失败", e)
  
  
  
for port in range(0, 10):
     _thread.start_new_thread(testUrl, ())
     time.sleep(0.1)
  
time.sleep(10)

除了趋势数据,将url 替换后,还可以采集以下数据:

  • 查询tweet详细数据:https://twitter.com/i/api/graphql/4tzuTRu5-fpJTS7bDF6Nlg/TweetDetail?variables=
  • 查询用户screenName:https://twitter.com/i/api/graphql/cYsDlVss-qimNYmNlb6inw/UserByScreenName?variables=
  • 查询用户关注者:https://twitter.com/i/api/graphql/5jYTqZAy8gQiTPcAuNNXPg/Following?variables=
  • 查询用户追随者:https://twitter.com/i/api/graph

3.2、基于Ownips和Coze的社媒智能助手

3.2.1、Ownips数据采集插件集成

设计好数据采集流程后,我们可以登录https://www.coze.com/home,进入coze官网,创建插件:
请添加图片描述

插件就是一个支持调用的服务端接口,可以将自己的 API 通过参数配置的方式快速创建一个插件,然后集成到应用中使用。这里在创建插件的基本信息窗口中,使用在Coze IDE中直接编程,然后IDE的develop runtime改为Python3。
在这里插入图片描述
然后为插件创建Tool工具,并将以上已经写好的数据采集脚本放到Tool的核心代码区中并点击发布,从而构建插件的核心功能,插件通过合理使用Ownips 的ISP代理,可以更加实时高效和安全地采集Twitter社交媒体数据,为市场分析、学术研究、品牌监测等提供强有力的支持。
请添加图片描述

3.2.2、创建Twitter Bot智能体

创建好插件后,接下来创建Twitter Bot智能体,回到coze主页,点击Create bot创建智能体,然后选择在Personal工作区,使用AI生成图标,然后点击Confirm确认创建。
在这里插入图片描述
进入Bot操作界面后,首先在左侧为Twitter Bot智能体书写提示词,然后将刚刚创建好的插件配置上去,也可以添加一些工作流、图像流、触发器、开场白、Markdown 编辑器、用户问题建议、快捷指令等扩展功能。
在这里插入图片描述
以下是可以参考的提示词:

# 角色
你是一位社交媒体智能助手,擅长分析Twitter等社交媒体平台的趋势、热点和关键词,帮助用户洞悉社交媒体上的流行动态,并做出相应反应。

## 技能
### 技能1:社交媒体分析
- 连接到Twitter等社交媒体平台的API,实时监测社交平台的主要趋势。

### 技能2:数据分析
- 对采集的数据进行分析以识别热点和关键词。

### 技能3:模式识别
- 识别并追踪在推特上的热门话题和流行模式。

### 技能4:趋势预测
- 根据数据分析模型,预测未来可能出现的热点和趋势。

## 条件
- 在进行社交媒体分析的过程中,全程遵守社交媒体平台的使用条款和法律规定,保护用户隐私权。 
- 提供用户界面,方便用户访问和操作。
- 用户可以自定义通知,当相关趋势出现时推送通知。

你的目标是为用户节省时间,并提供效率高的信息流。适用于品牌营销、新闻媒体、市场研究等领域。你可以在启动智能助手之前,设置和配置连接到社交媒体平台的API,输入初始化数据,设定分析参数和关键词列表。并随后开启实时监测模式,获取首份趋势数据分析报告。

3.2.3、Twitter 趋势分析效果

创建好成功后,就可以开始使用了,这里可以针对Twitter采集的数据进行分析以识别热点和关键词,无论是市场趋势的预测,还是用户行为的洞察,coze都能为用户提供精准、及时的分析报告,效果如下:
在这里插入图片描述
借助Ownips IP代理的强大功能,用户们得以轻松访问并获取来自全球各地的全面且真实的数据;而coze的智能分析功能则能够帮助用户从这些数据中提炼出有价值的信息。Ownips与Coze智能分析功能的组合,为用户们提供了一个强大且全面的数据分析工具。无论是市场研究、舆情监测还是商业决策,这一组合都能够为用户提供准确、及时的数据支持,帮助他们更好地把握机遇,实现更大的价值。

四、最后

经过实践,可以发现,Ownips 静态ISP代理具备模拟不同地区用户的能力,这一功能对于跨地区趋势分析尤为实用。借助此功能,可以对比不同地区的Twitter趋势和热点话题,进而深入了解各地用户的兴趣偏好和社交习惯。这不仅为用户提供了访问Twitter内容的便捷途径,更重要的是,它协助用户更深刻地洞察Twitter上的社交动态,从而发现潜在的商业机遇或社会热点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1712172.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ubuntu配置Git

安装git sudo apt install git 查看是否安装成功 git --version 配置git 用github上注册的用户名和邮箱地址&#xff0c;配置git git config --global user.name "username" git config --global user.email "usernameemail.com" 重启ubuntu查看…

首搭第五代DM技术,秦L DM-i正式上市,仅售9.98万元起

5月28日&#xff0c;比亚迪王朝重磅新车秦L DM-i在西安震撼上市&#xff0c;首搭第五代DM技术&#xff0c;百公里亏电油耗达到划时代的2.9L&#xff0c;“一箱油”满油满电综合续航达2100公里&#xff0c;引领中级&#xff0c;创下了百公里油耗的历史新低&#xff0c;开创油耗2…

机顶盒也可以跑pcdn--上机指南(贰)

机顶盒能跑PCDN&#xff0c;以下是相关上机指南操作步骤&#xff1a; 1.申请PCDN服务&#xff1a;登录PCDN控制台&#xff0c;申请开通PCDN服务。 2.后台开通PCDN服务&#xff1a;工作人员与用户沟通业务详细需求&#xff0c;用户确定使用PCDN&#xff0c;后台为用户开通PCDN…

VolWeb:集中式增强型数字取证内存分析平台

关于VolWeb VolWeb是一款最新开发的集中式增强型数字取证内存分析平台&#xff0c;该平台基于Volatility 3框架实现其功能&#xff0c;该工具旨在辅助广大研究人员执行安全分析和事件应急响应等任务。 VolWeb可以提供集中式、可视化的增强型网络应用程序&#xff0c;并提高安全…

Java基础:类的详细说明

Java是一门面向对象的编程语言&#xff0c;所谓的面向对象&#xff0c;简单的说&#xff0c;就是在软件开发过程中&#xff0c;用各种各样的对象实现所需功能。 对象就好像是现实世界中不计其数的物体&#xff0c;根据物体的性质可以将其进行分门别类&#xff1a;石头、锤子、…

深入分析 Android Activity (十一)

文章目录 深入分析 Android Activity (十一)1. Activity 的内存管理和优化1.1 内存泄漏的常见原因1.2 避免内存泄漏的方法1.3 内存泄漏检测工具 2. Activity 的配置变更处理2.1 处理配置变更2.2 保存和恢复状态2.3 使用 ViewModel 3. Activity 的测试3.1 单元测试3.2 UI 测试 4…

编译安装Apache httpd服务(LAMP1)

目录 1.初始化设置&#xff0c;将Apache所需软件包传到 /opt 目录下 &#xff08;1&#xff09;关闭防火墙 &#xff08;2&#xff09;上传软件包到/opt目录 2.安装环境依赖包 3.配置软件模块 4.编译及安装 5.优化配置文件路径&#xff0c;并把httpd服务的可执行程序文件…

DDR5芯片系统框图详解

DDR5 SDRAM(双倍数据率五代同步动态随机存取存储器)的功能框图详细展现了其内部结构和各个关键模块,这些模块协同工作以实现高速数据传输和存储管理。以下是主要组成部分的详细介绍: Controller Logic (控制器逻辑)这是DDR5内存系统的大脑,负责接收来自CPU或SoC的指令,解…

怎么从视频中截取图片?这3个视频截图方法超清晰

怎么从视频中截取图片&#xff1f;从视频中截取图片确实是一个不可或缺的技能&#xff0c;特别是在我们想要留住视频中的某个动人瞬间、重要细节或是用于制作海报、封面等场合时。无论是专业的视频编辑人员&#xff0c;还是普通用户&#xff0c;掌握这技巧都能让视频内容得到更…

光缆监测主要功能值得一看

网络资源管理&#xff1a; 设备管理&#xff1a; 测试告警处理&#xff1a; 百度地图&#xff1a; 报表打印&#xff1a; 路由测试数据、路由段数据、路由故障报警统计、当前故障通知情况、路由测试数据、路由段信息。 手机客户端&#xff1a; 通过手机可以访问系统&#x…

为WPF的Grid添加网格边框线

在WPF中使用Grid绘制表格的时候&#xff0c;如果元素较多、排列复杂的话&#xff0c;界面会看起来很糟糕&#xff0c;没有层次&#xff0c;这时用网格或边框线分割各元素&#xff08;标签或单元格&#xff09;将会是页面看起来整齐有条理。 默认没有边框线的如下图所示&#xf…

FuTalk设计周刊-Vol.049

#AI漫谈 热点捕手 1.Gemini Pro1.5及其百万上下文功能现已向所有人开放 Gemini Pro1.5加入视频模态的长上下文功能&#xff0c;AI可以处理更复杂的视频内容。 链接https://aistudio.google.com/app/prompts/new_chat?reftop.aibase.com 2.Figma 2024 Config 大会 6月26-27日…

Java - 当年很流行,现在已经淘汰的 Java 技术,请不要在继续学了!!!

最近这段时间收到了一些读者的私信&#xff0c;问我某个技术要不要学&#xff0c;还有一些在国外的同学竟然对 Java 图形化很感兴趣&#xff0c;还想找这方面的工作。 比较忙&#xff0c;一直没抽出时间去回答这类问题&#xff0c;刚好看到我关注的一位大佬回答过&#xff0c;这…

着色器技术在AI去衣中的魔法般的作用

引言&#xff1a; 在数字图像处理的世界中&#xff0c;AI去衣技术正逐步成为研究的前沿。它利用人工智能的强大能力&#xff0c;实现对图像中衣物的智能识别与处理。在这一过程中&#xff0c;着色器&#xff08;Shader&#xff09;技术扮演了至关重要的角色。本文将深入探讨着色…

笔记-python-map的用法

map()函数 map()是 Python 内置的高阶函数&#xff0c;它接收一个函数 f 和一个 list&#xff0c;并通过把函数 f 依次作用在 list 的每个元素上&#xff0c;得到一个新的 list 并返回。 1、当seq只有一个时&#xff0c;将函数func作用于这个seq的每个元素上&#xff0c;并得到…

性能工具之 Kafka 快速 BenchMark 测试示例

文章目录 一、什么是 Kafka&#xff1f;二、 Benchmark 测试工具三、 Benchmark 测试场景1、生产者基准测试2、消费者基准测试 四、小结 一、什么是 Kafka&#xff1f; 消息队列&#xff08;Message Queue&#xff09;简称 MQ&#xff0c;是一种跨进程的通信机制&#xff0c;通…

【更新】一次“问题反馈”,下定决心做了多约束多目标智能算法的“模板”

目录 1 主要内容 2 部分代码 3 程序结果 4 下载链接 1 主要内容 关注该代码的同学应该清楚&#xff0c;这个代码已经免费更新了两版了&#xff0c;修复和增加了一些约束内容&#xff0c;本次增加蓄电池初始时刻和终止时刻容量一致约束&#xff0c;可别小瞧这么简单的增加约…

视频转换器哪个好?这5个转换方法值得一试

#云南真不愧是动植物王国#去云南的宝子&#xff0c;都忍不住想用视频记录云南的美景。但分享时可能会遇到视频格式问题&#xff0c;影响在不同平台和设备上的播放。 不过别担心&#xff0c;现在有很多免费的视频格式转换软件可以解决这些问题。如果你想知道哪个免费的视频转换…

buuctf_RE

[WMCTF2020]easy_re 简单输入flag 但是下断点后&#xff0c;还没走几步就报错退出了。 确实没有打印的字符串 main函数也看不懂在干嘛 int __cdecl main(int argc, const char **argv, const char **envp) {__int64 v4; // r13char v5; // r12__int64 v6; // rax_QWORD *v7;…

控制台生产厂家生产流程详解

控制台生产厂家的生产流程是一个复杂而精细的过程&#xff0c;它涉及多个环节&#xff0c;从原材料的准备到最终产品的出厂检验&#xff0c;每一步都至关重要。以下是控制台生产厂家的一般生产流程&#xff1a; 厂家会根据客户的需求和市场趋势进行产品设计。设计师会综合考虑控…