AI交互及爬虫【数据分析】

news2024/10/5 21:23:54
各位大佬好 ,这里是阿川的博客,祝您变得更强

在这里插入图片描述 个人主页:在线OJ的阿川

大佬的支持和鼓励,将是我成长路上最大的动力在这里插入图片描述

阿川水平有限,如有错误,欢迎大佬指正在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Python 初阶
Python–语言基础与由来介绍
Python–注意事项
Python–语句与众所周知
数据清洗前 基本技能
数据分析—技术栈和开发环境搭建
数据分析—Numpy和Pandas库基本用法及实例
AI交互爬虫前 必看
数据分析—三前奏:获取/ 读取/ 评估数据
数据分析—数据清洗操作及众所周知
数据分析—数据整理操作及众所周知
数据分析—统计学基础及Python具体实现
数据分析—数据可视化Python实现超详解
数据分析—推断统计学及Python实现
数据分析—线性及逻辑回归模型

目录

  • AI概述
  • AI在编程领域的应用
  • 主流AI
  • AI注意事项
  • 数据分析领域AI作用及爬虫

AI概述

在这个时代 AI 我们每个 息息相关
1956年 在美国召开了第一场人工智能研讨会,由此人类开始了对人工智能道路探索。
在这场会议上纽维尔西蒙演示了一个名为"逻辑学家"的程序充分展示了机器能做类似推理的工作。在这个会议上人工智能获得了定义
1978年 国内第一所 人工智能与智能控制研究组在清华大学成立,并且同年招收了第1批硕士生。那时主要以智能机器人作为主要研究方向。
1990年智能技术与系统国家重点实验室正式建立,标志着中国第1次开始正式开展人工智能相关研究
时间发展至今,人工智能已经有三个阶段第一代人工智能,第二代人工智能,第三代人工智能。
最初的第一代人工智能,让机器像人一样思考,培养从已知知识出发推出新的结论新的知识的能力。
第二代人工智能主要基于人工神经网络模拟人脑脑神经网络的工作原理
但是第二代人工智能由于所有训练的数据 均来自客观世界,从而它的识别只能识别不同的物体,并不能真正的认识物体。
第三代人工智能则是依靠模型和算法来支持发展,并在此过程中发展了一系列人工智能理论
而目前市面上的AI大语言模型,则是将第一代人工智能的知识为驱动,和第二代人工智能的数据以及提炼出的算法和模型以及算力同时运用而成
大语言模型的,来自于两个"大"
第1个"大"是大的人工神经网络
人工神经网络可以用来分类学习数据中间关联关系,也可以用来预测
第2个"大"是大的文本
由于第1个大的发展,导致所有文本不用经过任何预处理就可以学习,所以文本就由最初的GB量级发展为TB量级
大模型的局限性
缺乏主动性(依赖于提示工程)且输出质量不可控(会出现计算机"幻觉"), 且AI工具尚不能准确分辨对错,也难以主动进行自我迭代(也需要不断花钱去砸算力)。
但目前人工智能最大的问题是:
专用人工智能(在 特定 的领域用 特定 的模型完成 特定 的任务)
接下来人工智能将向通用人工智能进行发展
除此以外,人工智能应要具有身体,所以说必须通过机器人与客观世界连在一起
在未来,越来越多的人学习AI是大势所趋,而学习AI的人要么向各行各业转移,为各行各业进行赋能;要么就和其他技术结合,发展出新的产业
各位,人工智能对各行各业都有重大影响,但大多数帮助人类提高工作质量和效率而非取代人类进行工作。(这里应该放一个链接哈)
送上喜欢的一句话:
"让混沌重生,然后掌握混沌"
未来已来不因物喜不以己悲,需要的是坚持不懈的努力天道酬勤

在这里插入图片描述

AI在编程领域的应用

  • 解释概念
    可用详细且易懂的回答,并且尽可能配合简单的例子对不懂的概念进行解释

在这里插入图片描述

  • 解决报错
    报错信息进行分析并修正

在这里插入图片描述

  • 找Bug
    可提交自己写的代码本身预期

在这里插入图片描述

  • 给知识点出题
    可让其提出相应知识点练习并附上答案

在这里插入图片描述

  • 提示代码质量
    提交自己代码问如何改进.
    在这里插入图片描述

主流AI

目前市面上主要的AI有:
1. Open AI官网,访问需翻墙)
2. Meta AI官网,访问需翻墙)
3. 通义千问
4. 智谱清言
5. 文心一言
6. 讯飞星火

AI注意事项

  • 使用AI前先给予AI一个身份 帮助更好提高准确回答质量
    与此同时 衍生出提示工程prompt(一个庞大的领域【截至2024年6月20日,OpenAI、斯坦福等多所机构筛选出1565篇论文发布大模型《提示技术报告》】(要翻墙哈,若不想翻墙,也想看,可以联系我) 可以帮助提高AI回答质量

在这里插入图片描述

在这里插入图片描述

  • AI幻觉
    AI有些时候会一本正经的胡说八道,应该有自己的分辨能力,所以学习和掌握分析相关的技能去检验生成AI生成的结果(例如:可以将AI生成的Python代码去运行,若成功运行且符合预期则表示成功

在这里插入图片描述

数据分析领域AI作用及爬虫

前言
在Jupyter notebook中内置有专门的Jupyter AI

  • 可以直接在写代码的环境中与AI进行交互

安装Jupyter AI(Python版本应高于或等于3.8

  • 输入pip install jupyter_ai
    在这里插入图片描述
    选择AI大模型
    安装相应AI大模型Python库

在这里插入图片描述
例如:安装gpt4all

在这里插入图片描述

具体领域

  • 什么具体指标值得分析

在这里插入图片描述

  • 数据集哪不干净怎么清洗
    在这里插入图片描述

  • 数据集得到什么结论
    在这里插入图片描述

  • 找数据集

    • 官方网站可供下载查看的数据集
      需查看是否开启了网页浏览模式
      若用OpenAI,则先创建OpenAI账户及Open AI密钥和Open AI的Token数量上限

在这里插入图片描述

  • APIA pplication P rogramming Interface 应用程序编程接口) 从官方获取数据
    优点:
    更可靠(因为通常是官方提供的
    更合规爬虫可能违反违规
    易解析( API返回数据更易解析 API返回的格式更结构化
    更准确(有些提供的数据比网页上更加全面和准确
1. **第一步** **确定API端点**(**不同**功能的**API有特定端点**)
2. **第二步**  **请求方法**(绝大部分**API是基于HTTP**  即所有要**知道各个端点所对应的HTTP方法**)

GET方法 requests.get
- 获得数据

   **PUT方法 requests.put**
   - **更新数据** 
   
    **POST方法 requests.post**
   - **提交数据**
   
    **DELETE方法 requests.delete**
   - **删除数据**
  1. 第三步 查询参数(指定额外的信息) 请求体数据(比查询参数信息包含更多)

  2. 第四步 响应格式
    响应的格式一般是XMLJSON(常见),用Python实现

在这里插入图片描述

注意有些条件也很关键是否要求认证信息是否只有认证通过,有授权的用户才能访问官方文档会把这些说明清楚,所以搜索和查阅文档是一项很重要的能力

  • 网络爬虫 便捷且低成本获取数据

    1. 第一步获取网页内容
      主要的是Requests库

在这里插入图片描述

HTTPHypertext Transfer Protocol 超文本传输协议请求和响应

在这里插入图片描述

HTTP请求

在这里插入图片描述
User-Agent:

在这里插入图片描述
Accept:

在这里插入图片描述

常用的两种请求方法

  • GET方法
    浏览器向网页获取数据
    request.get(“完整路径”) HTTP请求
    生成一个实例
    head={ }
    可以自定义传入的HTTP的请求头内容
    正常浏览器浏览会发出GTE请求 即会自带浏览器的内容和版本及电脑操作系统等
    正常程序中不会带有浏览器的内容和版本,则此时一些服务器就会拒绝响应该请求,此时就可以更改这个user-Agent,更改成含有浏览器的内容和版本,从而可以将爬虫程序伪装成正常浏览器

在这里插入图片描述

  • POST方法
    创建数据

注意事项

  • 客户端请求数量和频率 不能太多,否则无异于DDOS攻击发送海量请求让网站资源无法服务正常用户,让用户无法正常访问
  • 若网站有反爬机制不要去强行突破
  • 应该查看网站的robots文件,查看了解可爬取的网页路径范围
  • 不要
    • 公民隐私 国家事务/国防 尖端科技领域的计算机系统
      图5

HTTP响应

在这里插入图片描述

状态码主要有
200 OK 客户端请求成功
2表示成功,请求完成
301 Moved Permanently 资源被永久移动到新地址
3表示重定向,需要进一步操作
400 Bad Request 客户端被服务器理解
401 Unauthorized 请求未经授权
403 Forbidden 服务器拒绝提供服务
404 Not Found 请求资源不存在 例如:请求里面有错误 请求的资源无效
4表示客户端错误
500 Internal Server Error 服务器发生不可预期错误
503 Server Unavailable 服务器当前不能处理客户端的请求 例如:出现问题 正在维修
5表示服务器错误

在这里插入图片描述

get实例.status_code 返回回答的编码
get实例.Ok 属性可看请求是否成功
get实例.text字符串形式储存内容

在这里插入图片描述

  1. 第二步解析网页内容 HTML网页结构
    主要是BeautifulSoup库
    pip install bs4 BeautifulSoup 安装BeautifulSoup库

在这里插入图片描述

from bs4 import BeautifulSoup 导入相应的模板

在这里插入图片描述

一个网页有三大技术要素

  • CSS 定义网页的格式(可以增加美观度

  • JavaScript 定义用户和网页的交互逻辑

    • 前两大技术非数据分析重点,这里不加以赘述
  • HTML 定义网页的结构和信息

    • 写HTML一般使用PycharmVscode等主流编辑器,我这里采用Vscode编辑器(打开速度很快)
      若将vscode的编辑器改成中文字体
      在这里插入图片描述
      在这里插入图片描述

HTML 格式

  • < !DOCTYPE HTML> 告知浏览器该文件类型为HTML
  • < html> html文件起始 表示开始(是HTML文档的根
  • < /html> html文件闭合 表示结束
  • < head>…< /head> html标题
    • 一般放 < title>…< /title> 定义HTML网页页面标题
  • < body>…< /body> html主体
    • 一般放html标签

在这里插入图片描述

在这里插入图片描述

HTML 标签
层级类标签
< h1>…< /h1> < h2>…< /h2> < h3>…< /h3> …… < h6>…< /h6> 表示文本层级

在这里插入图片描述

换行类标签
< p>…< /p> 默认换行
< br> 在文本段落中强制换行只有起始标签,没有闭合标签

在这里插入图片描述

顺序类标签
< ol>…< /ol> 表示有序列表的标签
< ul>…< /ul> 表示无序列表的标签

  • < li>…< /li>有序或者无序搭配使用,表示顺序

在这里插入图片描述

文字类标签
< b>…< /b> 进行文字加粗
< i>…< /i>文字变成斜体
< u>…< /u>文字加下划线

在这里插入图片描述

图片类标签
< img src=" 图片路径"> 添加图片

  • width=" " 图片宽度
  • height=" " 图片高度

在这里插入图片描述

表格类标签
< table> …< /table> 表示表格

  • border=“数字”参数表示表格边框的大小 默认为0,即没有边框
    • < thead>…< /thead> 表示表格头部
    • < tbody>…< /tbody> 表示表格主体
    • < tr>…< /tr> 定义表格行
    • < td> 定义表格数据

在这里插入图片描述

链接类标签
< a href=路径”>自定义输出 文字 < /a> 添加超链接

  • target=" " 该参数指定窗口打开方式
    • _self 表示当前页面打开窗口
    • _blank 表示新页面打开窗口

在这里插入图片描述

class属性

  • 定义元素的类名称,从而帮助分组
    例如:
    < pclass=“content”>给岁月以文明< /p>
    < pclass=“content”>而不是给文明以岁月< /p>
    < pclass=“review”>好评!< /p>

在这里插入图片描述

容器类标签
容器 本身不包含任何内容
< div>…< /div> 块级元素独占自己的一块一行最多一个< div>作为其中子元素
< span>…< /span> 内联元素不会独占一块一行可以多个span元素

在这里插入图片描述

HTML元素类型很多
可以在浏览器里点击右键(显示网页源代码

在这里插入图片描述

或者
可以在浏览器点击右键检查再点一下窗口左上角小箭头,这样点击页面任何一个东西都会显示其元素
在这里插入图片描述

在这里插入图片描述

BeautifulSoup函数get实例“html.parser”

  • "html.parser"解析器
  • 生成BeautifulSoup实例
    该实例包含特别多方法和属性
    例如:
    BeautifulSoup实例.p 获取html第1个p元素
    BeautifulSoup实例.img 获取htm还有一个img图片元素

在这里插入图片描述

soup.fillAII() 能根据标签属性等方法找出所有符合要求的元素

  • (“标签”,attrs={“想找的属性”:" 想找的"}) 返回可迭代对象
  • 可迭代对象.string属性标签包围的文字返回 还可以使用切片[ : ]
    find()获取第一个对象
    在这里插入图片描述

爬虫技术要求,要随机应变爬取自己想要的信息,爬虫总需要我们跟网站斗智斗勇

  1. 第三步 储存式分析数据(由于具体需求具体处理,这里不加以赘述)
    若要收集数据集 则将数据储存进数据库
    若要分析数据趋势 则将数据进行可视化
    若要舆情监控 则将AI文本情绪分析

在这里插入图片描述

好的,到此为止啦,祝您变得更强

在这里插入图片描述
想说的话

实不相瞒,写的这篇博客写了13个小时以上(加上自己学习(反复学习了5遍)和纸质笔记(写了满满的6页),共十五小时吧),很累希望大佬支持

在这里插入图片描述

道阻且长 行则将至

个人主页:在线OJ的阿川大佬的支持和鼓励,将是我成长路上最大的动力 在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1858006.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《2024全球人才趋势研究报告-生命科学行业洞察》

这份报告由美世发布&#xff0c;深入分析了生命科学行业在2024年的现状,并从业务性质的变化、组织文化的演变、员工身心健康问题的整体解决方案、人与数字的融合等方面,洞察了行业趋势和业务驱动力。报告指出,随着全球化和技术创新的不断推进,生命科学行业正经历着翻天覆地的变…

GIS开发如何高质量就业?这几点是关键!

高质量就业&#xff0c;包含薪资和其他福利待遇&#xff0c;在讨论如何高质量就业之前&#xff0c;我们先来看下GIS开发岗位的前景、薪资水平如何&#xff1f;最后讨论一下GIS开发工程师到底需要学习哪些技术&#xff1f; 01 GIS开发岗位呈持续上升趋势 从GIS开发岗位趋势也可…

【Linux】多线程的相关知识点

一、线程安全 1.1 可重入 VS 线程安全 1.1.1 概念 线程安全&#xff1a;多个线程并发执行同一段代码时&#xff0c;不会出现不同的结果。常见对全局变量或者静态变量进行操作&#xff0c;并且没有锁的保护的情况下&#xff0c;会出现问题。重入&#xff1a;同一个函数被不同…

Android性能优化-内存优化

&#xff11;、为什么进行内存优化&#xff08;如果不进行内存优化&#xff09; APP运营内存限制&#xff0c;OOM导致APP崩溃 APP性能&#xff0c;流畅性&#xff0c;响应速度和体验 2、Android内存管理方式: Android系统内存分配与回收方式 APP内存限制机制 切换应用时&…

【日常开发之Windows共享文件】Java实现Windows共享文件上传下载

文章目录 Windows 配置代码部分Maven代码 Windows 配置 首先开启服务&#xff0c;打开控制面板点击程序 点击启用或关闭Windows功能 SMB1.0选中红框内的 我这边是专门创建了一个用户 创建一个文件夹然后点击属性界面&#xff0c;点击共享 下拉框选择你选择的用户点击添加…

自建消息推送工具 Gotify 实现消息私有化通知

本文首发于只抄博客,欢迎点击原文链接了解更多内容。 前言 之前分享了如何通过 Webhook 将 VPS 与 NAS 上部署的应用消息推送到钉钉、飞书、企业微信,但是对于部分用户来说,可能因为以下种种原因,不方便使用常见的办公 IM 软件来进行消息推送: 消息涉及隐私敏感信息,不希…

艺术签名生成工具哪个好?5个工具定制个性化签名

在追求个性化的现代社会&#xff0c;艺术签名已经成为一种时尚和趋势&#xff0c;越来越多的人开始关注和尝试学习如何设计自己的艺术签名。 这不仅是一种表达自我的方式&#xff0c;也是一种展现个性和独特性的方式。今天让我们一起探索5款艺术签名在线生成工具&#xff0c;让…

【高性能计算笔记】

第1章 - 高性能计算介绍 1. 概念&#xff1a; 高性能计算(High performance computing&#xff0c;缩写HPC)&#xff1a; 指通常使用很多处理器&#xff08;作为单个机器的一部分&#xff09;或者某一集群中组织的几台计算机&#xff08;作为单个计算资源操作&#xff09;的…

百度Agent初体验(制作步骤+感想)

现在AI Agent很火&#xff0c;最近注册了一个百度Agent体验了一下&#xff0c;并做了个小实验&#xff0c;拿它和零一万物&#xff08;Yi Large&#xff09;和文心一言&#xff08;ERNIE-4.0-8K-latest&#xff09;阅读了相同的一篇网页资讯&#xff0c;输出资讯摘要&#xff0…

shell的正则表达------awk

一、awk&#xff1a;按行取列 1.awk原理&#xff1a;根据指令信息&#xff0c;逐行的读取文本内容&#xff0c;然后按照条件进行格式化输出。 2.awk默认分隔符&#xff1a;空格、tab键&#xff0c;把多个空格自动压缩成一个。 3.awk的选项&#xff1a; awk ‘操作符 {动作}’…

【总线】AXI4第五课时:信号描述

大家好,欢迎来到今天的总线学习时间!如果你对电子设计、特别是FPGA和SoC设计感兴趣&#xff0c;那你绝对不能错过我们今天的主角——AXI4总线。作为ARM公司AMBA总线家族中的佼佼者&#xff0c;AXI4以其高性能和高度可扩展性&#xff0c;成为了现代电子系统中不可或缺的通信桥梁…

不同匿名程度的代理本质区别是什么?

区别主要在于匿名的程度不同&#xff0c;就看你自己对匿名要求高不高了。 有三种主要代理类型&#xff1a; 1、透明代理 透明代理的特点就是不提供匿名性&#xff0c;你用它的时候网站是可以直接读取到你的真实IP地址的&#xff0c;需要提供的就可以直接排除它了。 2、匿名…

JVM专题八:JVM如何判断可回收对象

在JVM专题七&#xff1a;JVM垃圾回收机制中提到JVM的垃圾回收机制是一个自动化的后台进程&#xff0c;它通过周期性地检查和回收不可达的对象&#xff08;垃圾&#xff09;&#xff0c;帮助管理内存资源&#xff0c;确保应用程序的高效运行。今天就让我们来看看JVM到底是怎么定…

Shopee API接口:获取搜索栏生成的商品结果列表

一、引言 此接口可以高效获取搜索栏生成的商品结果列表。本文将详细介绍这一核心功能&#xff0c;并探讨其在实际应用中的价值。 二、核心功能介绍——获取搜索栏生成的商品结果列表 请求API及返回示例 http://api.xxxx.com/sp/ll/search/item?keywordiphone&page1&am…

零门槛用AI,302.AI让人工智能变得简单易用

当下人工智能火爆&#xff0c;提到AI&#xff0c;几乎每个人都能说上几句&#xff0c;但是你真的会使用AI吗&#xff1f; 当涉及到如何实际使用AI时&#xff0c;许多人可能会觉得它太过高深莫测&#xff0c;从而产生一种距离感&#xff0c;不知如何开始。我和大家也一样&#x…

期末考试的成绩怎么发?

随着学期末的临近&#xff0c;我们又迎来了向家长通报学生成绩的关键时刻。下面是一份成绩群发的全新指南&#xff0c;让我们一起高效而温馨地完成这项任务&#xff01; 1.选择沟通渠道&#xff1a; - 邮件与短信各有优势。邮件更适合提供详尽的成绩分析和评语&#xff0c;而短…

云计算【第一阶段(18)】磁盘管理与文件系统 分区格式挂载(一)

目录 一、磁盘基础 二、磁盘结构 2.1、机械硬盘 2.2、固态硬盘 2.3、扩展移动硬盘 2.4、机械磁盘的一些计算&#xff08;了解&#xff09; 2.5、磁盘接口类型 二、Linux 中使用的文件系统类型 2.1、磁盘分区的表示 2.1.1、主引导记录(MBR) 2.1.2、Linux中将硬盘、分…

【UIDynamic-动力学-UIPushBehavior-推行为 Objective-C语言】

一、接下来,我们来说这个,推行为, 1.推行为,首先,它叫做UIPushBehavior, 这个里边呢,又分为持续推力、瞬时推力, 我们新建一个项目,叫做:13-推行为 我们这个里边,还是先来一个redView, UIView *redView = [[UIView alloc] initWithFrame:CGRectMake(100,100,…

二刷算法训练营Day41 (Day40休息) | 动态规划(3/17)

目录 详细布置&#xff1a; 1. 背包问题理论基础 1.1 01背包 2. 46. 携带研究材料&#xff08;第六期模拟笔试&#xff09; 一维dp数组&#xff08;滚动数组&#xff09; 3. 416. 分割等和子集 详细布置&#xff1a; 1. 背包问题理论基础 但说实话&#xff0c;背包九讲…

ONLYOFFICE 8.1全新升级,智能办公体验再升级,引领未来工作新潮流!

&#x1f4dd;个人主页&#x1f339;&#xff1a;Eternity._ &#x1f339;&#x1f339;期待您的关注 &#x1f339;&#x1f339; ❀ONLYOFFICE 8.1 &#x1f4d2;1. ONLYOFFICE简介&#x1f4d9;2. ONLYOFFICE特点&#x1f4d5;3. ONLYOFFICE功能⛰️PDF 文件编辑器&#x1…