【UCAS自然语言处理作业一】利用BeautifulSoup爬取中英文数据,计算熵,验证齐夫定律

news2024/9/22 23:38:45

文章目录

    • 前言
    • 中文
      • 数据爬取
        • 爬取界面
        • 爬取代码
      • 数据清洗
      • 数据分析
      • 实验结果
    • 英文
      • 数据爬取
        • 爬取界面
        • 动态爬取
      • 数据清洗
      • 数据分析
      • 实验结果
    • 结论

前言

  • 本文分别针对中文,英文语料进行爬虫,并在两种语言上计算其对应的熵,验证齐夫定律
  • github: ShiyuNee/python-spider (github.com)

中文

数据爬取

本实验对四大名著的内容进行爬取,并针对四大名著的内容展开中文文本分析,统计熵,验证齐夫定律

  • 爬取网站: https://5000yan.com/
  • 以水浒传的爬取为例展示爬取过程
爬取界面

在这里插入图片描述

  • 我们需要通过本页面,找到水浒传所有章节对应的url,从而获取每一个章节的信息

  • 可以注意到,这里每个章节都在class=menu-itemli中,且这些项都包含在class=panbaiul内,因此,我们对这些项进行提取,就能获得所有章节对应的url

  • 以第一章为例,页面为

    在这里插入图片描述

    • 可以看到,所有的正文部分都包含在class=grapdiv内,因此,我们只要提取其内部所有div中的文字,拼接在一起即可获得全部正文
爬取代码
def get_book(url, out_path):
    root_url = url
    headers={'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Mobile Safari/537.36'} # chrome浏览器
    page_text=requests.get(root_url, headers=headers).content.decode()
    soup1=BeautifulSoup(page_text, 'lxml')
    res_list = []
	# 获取所有章节的url
    tag_list = soup1.find(class_='paiban').find_all(class_='menu-item')
    url_list = [item.find('a')['href'] for item in tag_list]
    for item in url_list: # 对每一章节的内容进行提取
        chapter_page = requests.get(item, headers=headers).content.decode()
        chapter_soup = BeautifulSoup(chapter_page, 'lxml')
        res = ''
        try:
            chapter_content = chapter_soup.find(class_='grap')
        except:
            raise ValueError(f'no grap in the page {item}')
        chapter_text = chapter_content.find_all('div')
        print(chapter_text)
        for div_item in chapter_text:
            res += div_item.text.strip()
        res_list.append({'text': res})
    write_jsonl(res_list, out_path)
  • 我们使用beautifulsoup库,模拟Chrome浏览器的header,对每一本书的正文内容进行提取,并将结果保存到本地

数据清洗

  • 因为文本中会有括号,其中的内容是对正文内容的拼音,以及解释。这些解释是不需要的,因此我们首先对去除括号中的内容。注意是中文的括号

    def filter_cn(text):
        a = re.sub(u"\\(.*?)|\\{.*?}|\\[.*?]|\\【.*?】|\\(.*?\\)", "", text)
        return a
    
  • 使用结巴分词,对中文语句进行分词

    def tokenize(text):
        return jieba.cut(text)
    
  • 删除分词后的标点符号项

    def remove_punc(text):
        puncs = string.punctuation + "“”,。?、‘’:!;"
        new_text = ''.join([item for item in text if item not in puncs])
        return new_text
    
  • 对中文中存在的乱码,以及数字进行去除

    def get_cn_and_number(text):
         return re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039])","",text)
    

整体流程代码如下所示

def collect_data(data_list: list):
    voc = defaultdict(int)
    for data in data_list:
        for idx in range(len(data)):
            filtered_data = filter_cn(data[idx]['text'])
            tokenized_data = tokenize(filtered_data)
            for item in tokenized_data:
                k = remove_punc(item)
                k = get_cn_and_number(k)
                if k != '':
                    voc[k] += 1
    return voc

数据分析

针对收集好的字典类型数据(key为词,value为词出现的次数),统计中文的熵,并验证齐夫定律

  • 熵的计算

    def compute_entropy(data: dict):
        cnt = 0
        total_num = sum(list(data.values()))
        print(total_num)
        for k, v in data.items():
            p = v / total_num
            cnt += -p * math.log(p)
        print(cnt)
    
  • 齐夫定律验证(由于词项比较多,为了展示相对细节的齐夫定律图,我们仅绘制前200个词)

    def zip_law(data: dict):
        cnt_list = data.values()
        sorted_cnt = sorted(enumerate(cnt_list), reverse=True, key=lambda x: x[1])
        plot_y = [item[1] for item in sorted_cnt[:200]]
        print(plot_y)
        x = range(len(plot_y))
        plot_x = [item + 1 for item in x]
        plt.plot(plot_x, plot_y)
        plt.show()
    

实验结果

  • 西游记

    • 熵:8.2221(共364221种token)

    在这里插入图片描述

  • 西游记+水浒传

    • 熵:8.5814(共836392种token)

      在这里插入图片描述

  • 西游记+水浒传+三国演义

    • 熵:8.8769(共1120315种token)

      在这里插入图片描述

  • 西游记+水浒传+三国演义+红楼梦

    • 熵:8.7349(共1585796种token)

      在这里插入图片描述

英文

数据爬取

本实验对英文读书网站上的图书进行爬取,并针对爬取内容进行统计,统计熵,验证齐夫定律

  • 爬取网站: Bilingual Books in English | AnyLang
  • 以The Little Prince为例介绍爬取过程
爬取界面

在这里插入图片描述

  • 我们需要通过本页面,找到所有书对应的url,然后获得每本书的内容

  • 可以注意到,每本书的url都在class=field-contentspan中,且这些项都包含在class=ajax-linka内,因此,我们对这些项进行提取,就能获得所有书对应的url

  • 以The Little Prince为例,页面为

    在这里插入图片描述

    • 可以看到,所有的正文部分都包含在class=page n*div内,因此,我们只要提取其内部所有div中的<p> </p>内的文字,拼接在一起即可获得全部正文
动态爬取

需要注意的是,英文书的内容较少,因此我们需要爬取多本书。但此页面只有下拉后才会加载出新的书,因此我们需要进行动态爬取

  • 使用selenium加载Chrome浏览器,并模拟浏览器下滑操作,这里模拟5次

    def down_ope(url):
        driver = webdriver.Chrome()  # 根据需要选择合适的浏览器驱动  
        driver.get(url)  # 替换为你要爬取的网站URL  
        for _ in range(5):
            driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")  
            time.sleep(5)
        return driver
    
  • driver中的内容传递给BeautifulSoup

        soup1=BeautifulSoup(driver.page_source, 'lxml')
        books = soup1.find_all(class_ = 'field-content')
    

整体代码为

def get_en_book(url, out_dir):
    root_url = url + '/en/books/en'
    headers={'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Mobile Safari/537.36'} # chrome浏览器
    driver = down_ope(root_url)
    soup1=BeautifulSoup(driver.page_source, 'lxml')
    books = soup1.find_all(class_ = 'field-content')
    book_url = [item.a['href'] for item in books]
    for item in book_url:
        if item[-4:] != 'read':
            continue
        out_path = out_dir + item.split('/')[-2] + '.jsonl'
        time.sleep(2)
        try:
            book_text=requests.get(url + item, headers=headers).content.decode()
        except:
            continue
        soup2=BeautifulSoup(book_text, 'lxml')
        res_list = []
        sec_list = soup2.find_all('div', class_=re.compile('page n.*'))
        for sec in sec_list:
            res = ""
            sec_content = sec.find_all('p')
            for p_content in sec_content:
                text = p_content.text.strip()
                if text != '':
                    res += text
            print(res)
            res_list.append({'text': res})
        write_jsonl(res_list, out_path)

数据清洗

  • 使用nltk库进行分词

    def tokenize_en(text):
        sen_tok = nltk.sent_tokenize(text)
        word_tokens = [nltk.word_tokenize(item) for item in sen_tok]
        tokens = []
        for temp_tokens in word_tokens:
            for tok in temp_tokens:
                tokens.append(tok.lower())
        return tokens
    
  • 对分词后的token删除标点符号

    def remove_punc(text):
        puncs = string.punctuation + "“”,。?、‘’:!;"
        new_text = ''.join([item for item in text if item not in puncs])
        return new_text
    
  • 利用正则匹配只保留英文

    def get_en(text):
        return re.sub(r"[^a-zA-Z ]+", '', text)
    

整体流程代码如下

def collect_data_en(data_list: list):
    voc = defaultdict(int)
    for data in data_list:
        for idx in range(len(data)):
            tokenized_data = tokenize_en(data[idx]['text'])
            for item in tokenized_data:
                k = remove_punc(item)
                k = get_en(k)
                if k != '':
                    voc[k] += 1
    return voc

数据分析

数据分析部分与中文部分的分析代码相同,都是利用数据清洗后得到的词典进行熵的计算,并绘制图像验证齐夫定律

实验结果

  • 10本书(1365212种token)

    • 熵:6.8537

    在这里插入图片描述

  • 30本书(3076942种token)

    • 熵:6.9168

      在这里插入图片描述

  • 60本书(4737396种token)

    • 熵:6.9164

      在这里插入图片描述

结论

从中文与英文的分析中不难看出,中文词的熵大于英文词的熵,且二者随语料库的增大都有逐渐增大的趋势。

  • 熵的数值与tokenizer,数据预处理方式有很大关系
  • 不同结论可能源于不同的数据量,tokenizer,数据处理方式

我们分别对中英文在三种不同数据量熵对齐夫定律进行验证

  • 齐夫定律:一个词(字)在语料库中出现的频率,与其按照出现频率的排名成反比

  • 若齐夫定律成立

    • 若我们直接对排序(Order)与出现频率(Count)进行绘制,则会得到一个反比例图像
    • 若我们对排序的对数(Log Order)与出现频率的对数(Log Count)进行绘制,则会得到一条直线
    • 这里由于长尾分布,为了方便分析,只对出现次数最多的top 1000个token进行绘制
  • 从绘制图像中可以看出,齐夫定律显然成立

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1122110.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java Static关键字 单例设计模式

类变量 类变量&#xff08;静态变量&#xff09;&#xff1a;有static修饰&#xff0c;属于类&#xff0c;在计算机中只有一份&#xff0c;被类的所有对象共享 可以通过类名访问&#xff0c;也可以通过对象名访问&#xff0c;但是推荐用类名访问类变量一般用public修饰&#xf…

Maven 生命周期clean default size含义

clean 负责清理工作&#xff0c;清理上一次项目构建产生的一些文件&#xff0c;如编译后的字节码文件&#xff0c;打包后的jar包文件 default 整一个项目构建的核心工作&#xff0c;如编译&#xff0c;测试&#xff0c;打包&#xff0c;安装&#xff0c;部署等等 size 生成报告…

springBoot--web--函数式web

函数式web 前言场景给容器中放一个Bean&#xff1a;类型是 RouterFunction<ServerResponse>每个业务准备一个自己的handler使用集合的时候加注解请求的效果 前言 springmvc5.2 以后允许我们使用函数式的方式&#xff0c;定义web的请求处理流程 函数式接口 web请求处理的…

Docker开箱即用,开发码农加分项部署技术拿下!

目录 Docker概述 效果呈现 镜像 & 镜像仓库 & 容器 镜像 DockerHub 配置国内源加速 容器 简单的命令解读 Docker基础 常用命令 案例演示 数据卷 什么是数据卷 数据卷命令 演示环节 匿名数据卷 案例演示 自定义挂载位置 案例演示 自定义镜像 镜像结构 Dockerfile …

Python —— UI自动化之Page Object模式

1、Page Object模式简介 1、二层模型 Page Object Model&#xff08;页面对象模型&#xff09;, 或者也可称之为POM。在UI自动化测试广泛使用的一种分层设计 模式。核心是通过页面层封装所有的页面元素及操作&#xff0c;测试用例层通过调用页面层操作组装业务逻辑。 1、实战 …

Kafka简单入门01

目录 Kafka的核心组件 Kafka的分区有序 Kafka的多副本机制 Kafka的安装部署 Kafka的基本操作 Apache Kafka 是一个高吞吐量的分布式流数据平台&#xff0c;通常用于构建实时数据流处理应用程序。 Kafka的核心组件 主题&#xff08;Topic&#xff09;&#xff1a;主题是 K…

【vSphere 8 自签名 VMCA 证书】企业 CA 签名证书替换 vSphere VMCA CA 证书Ⅰ—— 生成 CSR

目录 替换拓扑图证书关系示意图说明 & 关联博文1. 默认证书截图2. 使用 certificate-manager 生成CSR2.1 创建存放CSR的目录2.2 记录PNID和IP2.3 生成CSR2.4 验证CSR 参考资料 替换拓扑图 证书关系示意图 本系列博文要实现的拓扑是 说明 & 关联博文 因为使用企业 …

为什么不建议使用Python自带的logging?

B站|公众号&#xff1a;啥都会一点的研究生 包括我在内的大多数人&#xff0c;当编写小型脚本时&#xff0c;习惯使用print来debug&#xff0c;肥肠方便&#xff0c;这没问题&#xff0c;但随着代码不断完善&#xff0c;日志功能一定是不可或缺的&#xff0c;极大程度方便问题…

【CSS】使用 CSS 实现一个宽高自适应的正方形

1. 利用 padding 或 vw <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><metaname"viewport"content"widthdevice-width, initial-scale1.0"><title>Document</title><st…

带你深入了解微信小程序【授权登录】

&#x1f3c5;我是默&#xff0c;一个在CSDN分享笔记的博主。&#x1f4da;&#x1f4da; &#x1f31f;在这里&#xff0c;我要推荐给大家我的专栏《微信小程序 》。&#x1f3af;&#x1f3af; &#x1f680;无论你是编程小白&#xff0c;还是有一定基础的程序员&#xff0c;…

FPGA的斐波那契数列Fibonacci设计verilog,代码和视频

名称&#xff1a;斐波那契数列Fibonacci设计verilog 软件&#xff1a;Quartus 语言&#xff1a;Verilog 代码功能&#xff1a; 设计一个产生斐波那契数列&#xff08;也叫黄金分割数列&#xff09;的硬件电路: 斐波那契数列中每个数为其相邻前两个数的和:即FNFN1FN2,(数列…

Node学习笔记之包管理工具

一、概念介绍 1.1 包是什么 『包』英文单词是package &#xff0c;代表了一组特定功能的源码集合 1.2 包管理工具 管理『包』的应用软件&#xff0c;可以对「包」进行 下载安装 &#xff0c; 更新 &#xff0c; 删除 &#xff0c; 上传 等操作 借助包管理工具&#xff0c;可…

windows系统如何查看Linux文件系统中的图片缩略图

背景 使用autoDL云算力资源&#xff0c;没有GUI界面&#xff0c;实验结果都是图片为主&#xff0c;为了可视化查看图片&#xff0c;所以萌生了是否有软件可以查看Linux文件系统中的图片缩略图。 目前网上有几种方法可以支持在windows系统上查看Linux文件系统中的图片缩略图&a…

逻辑漏洞详解

原理&#xff1a; 没有固定的概念&#xff0c;一般都是不符合常识的情况。比如任意用户注册&#xff0c;短信炸弹&#xff0c;占用资源&#xff0c;交易支付、密码修改、密码找回、越权修改、越权查询、突破限制。 根据实际业务逻辑进行比对&#xff0c;购物的可以根据数量&a…

【Spring Boot 源码学习】HttpEncodingAutoConfiguration 详解

Spring Boot 源码学习系列 HttpEncodingAutoConfiguration 详解 引言往期内容主要内容1. CharacterEncodingFilter2. HttpEncodingAutoConfiguration2.1 加载自动配置组件2.2 过滤自动配置组件2.2.1 涉及注解2.2.2 characterEncodingFilter 方法2.2.3 localeCharsetMappingsCus…

商品规格项数据的遍历以及添加

简介 今天在处理规格项的数据时遇到了一些问题&#xff0c;接下来就给大家分享一下 规格项数据设计 "specifications": [{"goodsSpecificationId": 6,"goodsSpecificationName": "网络类型","goodsTypeId": 24,"goods…

【Acwing166】数独(dfs+剪枝+位运算)

本题思路来源于acwing算法提高课 题目描述 看本文需要准备的知识 1.dfs算法基本思想 2.位运算基础 3.对剪枝这个名词的大概了解 剪枝优化位运算优化 常见四种剪枝策略 首先考虑这道题的搜索顺序&#xff0c;很明显&#xff0c;可以随意选择一个空格子&#xff0c;分支为这…

《广西开放大学电大搜题微信公众号——探索学习的新途径》

随着社会的发展&#xff0c;教育无疑成为了人们的基本需求之一。然而&#xff0c;对于许多忙碌的职场人士来说&#xff0c;时间和地点的限制使得他们无法像传统学生那样参加常规的大学教育。好在有着广西开放大学这样的学府&#xff0c;为那些繁忙而渴望知识更新的人们提供了学…

好消息,终于可以获取到支付宝【支付交易投诉】的信息了。。。

大家好&#xff0c;我是小悟 若我拿出这个系统&#xff0c;阁下又该如何应对。 1、问题背景 之前以为从账单详情页中点击【投诉】 > 【举报中心】的投诉信息获取不到&#xff0c;经过不断尝试&#xff0c;终于能获取到了。 【支付宝支付交易投诉】&#xff0c;投诉入口是…

​​​​​​​2022年上半年 软件设计师 上午试卷(1-32)

以下关于冯诺依曼计算机的叙述中&#xff0c;不正确的是 &#xff08;1&#xff09; 。 &#xff08;1&#xff09; A. 程序指令和数据都采用二进制表示 B. 程序指令总是存储在主存中&#xff0c;而数据则存储在高速缓存中 C. 程序的功能都由中央处理器&#xff08;CPU&…