C#和HttpClient结合示例:微博热点数据分析

news2024/11/20 18:44:45

亿牛云代理.png

概述

微博是中国最大的社交媒体平台之一,它每天都会发布各种各样的热点话题,反映了网民的关注点和舆论趋势。本文将介绍如何使用C#语言和HttpClient类来实现一个简单的爬虫程序,从微博网站上抓取热点话题的数据,并进行一些基本的分析和可视化。

正文

爬虫程序设计

爬虫程序的主要步骤如下:

  1. 使用HttpClient类创建一个HTTP客户端对象,用于发送请求和接收响应。
  2. 使用爬虫代理服务,提供代理IP地址和端口,以及用户名和密码,用于绕过微博网站的反爬虫机制。
  3. 使用多线程技术,创建多个线程,每个线程负责爬取一个热点话题的数据。
  4. 使用正则表达式或者HTML解析器,从响应内容中提取热点话题的标题、链接、阅读量、讨论量等信息,并保存到一个数据结构中。
  5. 使用System.Drawing类或者其他库,根据统计结果生成一些图表,如柱状图、饼图等,用于展示热点话题的分布和比例。

爬虫程序代码

下面是一个简单的爬虫程序代码示例,仅供参考:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Net.Http;
using System.Text.RegularExpressions;
using System.Threading;
using System.Threading.Tasks;

namespace WeiboCrawler
{
    class Program
    {
        // 创建一个HTTP客户端对象,用于发送请求和接收响应
        static HttpClient httpClient = new HttpClient();

        // 创建一个数据结构,用于保存热点话题的信息
        static List<Topic> topics = new List<Topic>();

        // 定义一个锁对象,用于同步多线程操作
        static object locker = new object();

        static void Main(string[] args)
        {
            // 亿牛云爬虫标准版,使用代理服务设置代理域名、端口、用户名和密码
            var proxy = new WebProxy("http://wwww.16yun.cn:8080");
            proxy.Credentials = new NetworkCredential("16YUNXXX", "16IPXXX");
            httpClient.DefaultRequestHeaders.Add("Proxy-Authorization", "Basic " + Convert.ToBase64String(Encoding.UTF8.GetBytes("username:password")));
            httpClient.DefaultRequestHeaders.Add("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36");
            httpClient.Timeout = TimeSpan.FromSeconds(10);

            // 定义一个热点话题的URL列表,每个URL对应一个热点话题的页面
            var urls = new List<string>
            {
                "https://s.weibo.com/top/summary?cate=realtimehot",
                "https://s.weibo.com/top/summary?cate=socialevent",
                "https://s.weibo.com/top/summary?cate=entertainment",
                "https://s.weibo.com/top/summary?cate=sports",
                "https://s.weibo.com/top/summary?cate=tech",
                "https://s.weibo.com/top/summary?cate=finance"
            };

            // 使用多线程技术,创建多个线程,每个线程负责爬取一个热点话题的数据
            var tasks = new List<Task>();
            foreach (var url in urls)
            {
                tasks.Add(Task.Run(() => Crawl(url)));
            }

            // 等待所有线程完成任务
            Task.WaitAll(tasks.ToArray());

            // 使用LINQ或者其他方法,简单的对数据进行排序、分组操作,得到一些有意义的统计结果
            Console.WriteLine("爬取完成,共获取了{0}个热点话题的信息。", topics.Count);
            Console.WriteLine("按阅读量降序排列的前10个热点话题如下:");
            foreach (var topic in topics.OrderByDescending(t => t.ReadCount).Take(10))
            {
                Console.WriteLine("{0} {1} {2} {3}", topic.Title, topic.Link, topic.ReadCount, topic.DiscussCount);
            }
            Console.WriteLine("按讨论量降序排列的前10个热点话题如下:");
            foreach (var topic in topics.OrderByDescending(t => t.DiscussCount).Take(10))
            {
                Console.WriteLine("{0} {1} {2} {3}", topic.Title, topic.Link, topic.ReadCount, topic.DiscussCount);
            }
            Console.WriteLine("按类别分组的热点话题数量如下:");
            foreach (var group in topics.GroupBy(t => t.Category))
            {
                Console.WriteLine("{0} {1}", group.Key, group.Count());
            }
        }

        // 定义一个方法,用于爬取一个热点话题的数据
        static void Crawl(string url)
        {
            try
            {
                // 发送GET请求,获取响应内容
                var response = httpClient.GetAsync(url).Result;
                var content = response.Content.ReadAsStringAsync().Result;

                // 使用正则表达式或者HTML解析器,从响应内容中提取热点话题的标题、链接、阅读量、讨论量等信息,并保存到一个数据结构中
                var regex = new Regex(@"<td class=""td-02""><a href=""(?<link>.+?)"" target=""_blank"" title=""(?<title>.+?)"">.+?</a><span>(?<readcount>\d+)</span></td>\s*<td class=""td-03""><i class=""icon-txt"">.+?</i><span>(?<discusscount>\d+)</span></td>");
                var matches = regex.Matches(content);
                foreach (Match match in matches)
                {
                    var topic = new Topic
                    {
                        Title = match.Groups["title"].Value,
                        Link = "https://s.weibo.com" + match.Groups["link"].Value,
                        ReadCount = int.Parse(match.Groups["readcount"].Value),
                        DiscussCount = int.Parse(match.Groups["discusscount"].Value),
                        Category = url.Split('=')[1]
                    };
                    // 使用锁对象,避免多线程操作数据结构时发生冲突
                    lock (locker)
                    {
                        topics.Add(topic);
                    }
                }
            }
            catch (Exception ex)
            {
                // 处理异常情况,如网络超时、响应格式错误等
                Console.WriteLine("爬取{0}时发生错误:{1}", url, ex.Message);
            }
        }
    }

    // 定义一个类,用于表示一个热点话题的信息
    class Topic
    {
        public string Title { get; set; } // 标题
        public string Link { get; set; } // 链接
        public int ReadCount { get; set; } // 阅读量
        public int DiscussCount { get; set; } // 讨论量
        public string Category { get; set; } // 类别
    }
}

结论

上面的代码首先创建了一个HTTP客户端对象,配置爬虫代理和请求头信息提高采集成功率,然后定义了一个数据结构来保存热点话题的信息。通过多线程技术,同时访问多个热点话题的网页,使用正则表达式从网页内容中提取热点话题的标题、链接、阅读量、讨论量等信息,然后将这些信息保存到数据结构中。最后,对爬取到的数据进行排序、分组,并输出一些统计结果,如热点话题数量、按阅读量降序排列的前10个热点话题以及按讨论量降序排列的前10个热点话题等。此代码主要用于网络爬虫和数据分析,帮助用户获取微博热点话题的相关信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1154728.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

9. linux系统设置开机自启动发射热点

1. 说明 某种情况下需要使用wifi进行通信时&#xff0c;可以在linux系统中发射一个热点让以使别的设备能够连接&#xff0c;然后进行通信。一般情况下可以在有无线wifi发射器的情况下&#xff0c;每次linux系统开机后&#xff0c;手动设置开启热点&#xff0c;但这种方式比较麻…

打造美团外卖新体验,HarmonyOS SDK持续赋能开发者共赢鸿蒙生态

从今年8月起&#xff0c;所有升级到HarmonyOS 4的手机用户在美团外卖下单后&#xff0c;可通过屏幕上的一个“小窗口”&#xff0c;随时追踪到“出餐、取餐、送达”等订单状态。这个能让用户实时获悉订单进度的神奇“小窗口”&#xff0c;就是实况窗功能。 实况窗&#xff1a;简…

githu访问慢解决方法-mac系统

1.访问链接&#xff1a;https://site.ip138.com/github.global.ssl.fastly.net/ 2.分别输入github.com&#xff0c;github.global.ssl.fastly.net进行ip解析 3.打开host文件 sudo vim /etc/hosts4.将在2步骤中的信息添加到host文件中 20.205.243.166 gith…

AI芯片2022-架构师(六十五)

1、AI芯片是当前人工智能技术发展的核心技术&#xff0c;其能力要支持训练和推理。通常&#xff0c;AI芯片的技术架构包括&#xff08;&#xff09;第三种。 A、GPU、FPGA、ASIC B、CPU、PPGA、DSP C、GPU、CPU、ASIC D、GPU、FPGA、SOC 解析&#xff1a; GPU图形处理&am…

信号完整性分析基础知识之有损传输线、上升时间衰减和材料特性(七):有损传输线的衰减

当正弦波信号沿着传输线传播时&#xff0c;电压幅度呈指数下降。总衰减&#xff08;以 dB 为单位&#xff09;随长度线性增加。在 FR4 中&#xff0c;1 GHz 信号的典型衰减可能为 0.1 dB/英寸。在传播1英寸时&#xff0c;衰减为0.1dB&#xff0c;信号幅度已下降至在传播 10 英寸…

逻辑漏洞挖掘之CSRF漏洞原理分析及实战演练 | 京东物流技术团队

一、前言 2月份的1.2亿条用户地址信息泄露再次给各大公司敲响了警钟&#xff0c;数据安全的重要性愈加凸显&#xff0c;这也更加坚定了我们推行安全测试常态化的决心。随着测试组安全测试常态化的推进&#xff0c;有更多的同事对逻辑漏洞产生了兴趣&#xff0c;本系列文章旨在…

QCustomPlot 瀑布图色度条

1、单独应用在一个QWidget中。 通过新建一个瀑布图后移除瀑布图即可只留住色度条。 QCustomPlot *customPlot ui->widget;QCPColorScale *colorScale new QCPColorScale(customPlot);customPlot->plotLayout()->addElement(0, 1, colorScale); // add it to the ri…

龙迅LT2611UXC 双PORT LVDS转HDMI(2.0)+音频

.描述&#xff1a; LT2611UXC是一个高性能的LVDS到HDMI2.0的转换器&#xff0c;用于STB&#xff0c;DVD应用程序。 LVDS输入可配置为单端口或双端口&#xff0c;有1个高速时钟通道&#xff0c;3~4个高速数据通道&#xff0c;最大运行1.2Gbps/通道&#xff0c;可支持高达9.6Gb…

Android 10适配外部存储方案

Android Api 29 对文件和文件夹进行了重大更改。不允许使用外部存储&#xff0c;如下方法&#xff1a; Environment.getExternalStorageDirectory() /mnt/sdcard Environment.getExternalStoragePublicDirectory(“test”) /mnt/sdcard/test 只能使用内部存储 getExterna…

实用篇-Linux

一、Linux介绍 linux特点 免费开源多用户多任务 Linux系统版本分为内核版和发行版 发行版是基于内核版进行扩展&#xff0c;由各个Linux厂商开发和维护&#xff0c;因为我们真正使用linux最终安装的其实是linux的发行版 下面以CentOS为例来学习Linux 二、Linux安装 安装方式…

S32DS踩坑日记三-使用EEPROM

这个片子的EEPROM是用普通的flash模拟的&#xff0c;所以配置比较复杂。需要先增加flash&#xff0c;然后再配置模拟EEPROM那块的电路。 这个模拟的大概意思是这样&#xff1a;片子内置一块用于数据存储的flash&#xff0c;叫D-flash&#xff0c;大小是64K&#xff0c;起始地址…

SHCTF-校外赛道 2023 WEB部分题解wp()

[WEEK1]babyRCE 开题&#xff0c;直接给了源码&#xff0c;简单过滤。 被过滤绕过方法cat/tacuniqflagfla?空格%09 payload: ?rcels%09/?rceuniq%09/fla?[WEEK1]1zzphp 考点&#xff1a;intval()函数绕过&#xff08;数组&#xff09;、PCRE回溯次数限制绕过 直接给了…

大数据之LibrA数据库系统告警处理(ALM-12005 OKerberos资源异常)

告警解释 告警模块对Manager中的Kerberos资源的状态进行监控&#xff0c;当Kerberos资源异常时&#xff0c;系统产生此告警。 当Kerberos资源恢复时&#xff0c;且告警处理完成时&#xff0c;告警恢复。 告警属性 告警参数 对系统的影响 Manager中的Kerberos资源异常&#…

网课 - 网页视频-倍速播放-快进-拖动进度条-增大音量 - 火狐Firefox浏览器

本文使用的浏览器为火狐Firefox浏览器。 用浏览器播放视频&#xff0c;比如看网课、看在线电影电视剧时&#xff0c;经常能遇到的情况与解决方案&#xff1a; 音量太小&#xff0c;即使调整到100%还是不够响亮 这时可以安装插件“600% Sound Volume”, 安装之后可在原来音量的…

843. n-皇后问题

文章目录 QuestionIdeasCode Question n− 皇后问题是指将 n 个皇后放在 nn 的国际象棋棋盘上&#xff0c;使得皇后不能相互攻击到&#xff0c;即任意两个皇后都不能处于同一行、同一列或同一斜线上。 现在给定整数 n &#xff0c;请你输出所有的满足条件的棋子摆法。 输入格…

mybatis-plus 使用 mybatis-plus-join 增强多表关联查询能力

一、mybatis-plus-join mybatis-plus 原生的能力不支持多表关联&#xff0c;对于这种场景只能通过写SQL进行实现&#xff0c;而mybatis-plus-join 则是建立在 mybatis-plus 基础之上的扩展框架&#xff0c;可以在不影响原有能力之上通过简单的API即可实现多表关联能力而无需编…

致远OA wpsAssistServlet任意文件上传漏洞复现 [附POC]

文章目录 致远OA wpsAssistServlet任意文件上传漏洞复现 [附POC]0x01 前言0x02 漏洞描述0x03 影响版本0x04 漏洞环境0x05 漏洞复现1.访问漏洞环境2.构造POC3.复现 0x06 修复建议 致远OA wpsAssistServlet任意文件上传漏洞复现 [附POC] 0x01 前言 免责声明&#xff1a;请勿利用…

突破时空局限:数字调度系统引领煤炭行业新纪元

随着社会经济的发展&#xff0c;能源需求不断增加&#xff0c;煤炭作为重要的能源资源&#xff0c;在全球能源结构中扮演着重要角色。然而&#xff0c;煤炭行业面临着许多挑战&#xff0c;包括资源开采的不可回复性、环境污染问题以及安全生产隐患等。在这样的背景下&#xff0…

Android Groovy 迁移到 KTS

文章目录 Groovy 迁移到 KTS概述迁移流程setting.gradleproject/build.gradlemodule/build.gradle处理ext扩展函数依次创建如下目录和文件使用 源码 Groovy 迁移到 KTS 概述 Android Studio是使用Gradle来编译&#xff0c;而默认的构建语言是Groovy&#xff0c;但是Gradle实际…

竞赛选题 深度学习图像风格迁移

文章目录 0 前言1 VGG网络2 风格迁移3 内容损失4 风格损失5 主代码实现6 迁移模型实现7 效果展示8 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; 深度学习图像风格迁移 - opencv python 该项目较为新颖&#xff0c;适合作为竞赛课题…