从文本文件中读取博客数据并将其提取到文件中

news2025/1/11 21:44:19

通常情况下我们可以使用 Python 中的文件操作来实现这个任务。下面是一个简单的示例,演示了如何从一个文本文件中读取博客数据,并将其提取到另一个文件中。

假设你的博客数据文件(例如 blog_data.txt)的格式

在这里插入图片描述

1、问题背景

我们需要从包含博客列表的文本文件中读取指定数量的博客(n)。然后提取博客数据并将其添加到文件中。这是应用nlp到数据的整个作业的一部分。

以下是我们已经完成的工作:

import urllib2
from bs4 import BeautifulSoup

def create_data(n):
    blogs=open("blog.txt","r") #opening the file containing list of blogs

f=file("data.txt","wt") #Create a file data.txt

with open("blog.txt")as blogs:
    head = [blogs.next() for x in xrange(n)]
    page = urllib2.urlopen(head['href'])

​    soup = BeautifulSoup(page)
​    link = soup.find('link', type='application/rss+xml')print link['href']

​    rss = urllib2.urlopen(link['href']).read()
​    souprss = BeautifulSoup(rss)
​    description_tag = souprss.find('description')

​    f = open("data.txt","a") #data file created for applying nlp
​    f.write(description_tag)

但是,这段代码不起作用。它只能在直接给出链接时工作,例如:

page = urllib2.urlopen("http://www.frugalrules.com")

我们从另一个脚本调用这个函数,用户在其中给出输入n。出错的原因是什么?

Traceback:

    Traceback (most recent call last):
  File "C:/beautifulsoup4-4.3.2/main.py", line 4, in <module>
    create_data(2)#calls create_data(n) function from create_data
  File "C:/beautifulsoup4-4.3.2\create_data.py", line 14, in create_data
    page=urllib2.urlopen(head)
  File "C:\Python27\lib\urllib2.py", line 127, in urlopen
    return _opener.open(url, data, timeout)
  File "C:\Python27\lib\urllib2.py", line 395, in open
    req.timeout = timeout
AttributeError: 'list' object has no attribute 'timeout'

2、解决方案

head是一个列表:

head = [blogs.next() for x in xrange(n)]

列表由整数索引(或切片)索引。当head是一个列表时,不能使用head[‘href’]:

page = urllib2.urlopen(head['href'])

我们很难确切地说如何修复这个问题,因为不知道blog.txt的内容。如果blog.txt的每一行都包含一个URL,那么可以使用:

with open("blog.txt") as blogs:
    for url in list(blogs)[:n]:
        page = urllib2.urlopen(url)
        soup = BeautifulSoup(page.read())
        ...
        with open('data.txt', 'a') as f:
            f.write(...)

请注意,file是open的弃用形式(它在Python3中被删除)。不要使用f=file(“data.txt”,“wt”),而是使用更现代的with-statement语法(如上所示)。

例如:

import urllib2
import bs4 as bs

def create_data(n):
    with open("data.txt", "wt") as f:
        pass
    with open("blog.txt") as blogs:
        for url in list(blogs)[:n]:
            page = urllib2.urlopen(url)
            soup = bs.BeautifulSoup(page.read())

            link = soup.find('link', type='application/rss+xml')
            print(link['href'])

            rss = urllib2.urlopen(link['href']).read()
            souprss = bs.BeautifulSoup(rss)
            description_tag = souprss.find('description')

            with open('data.txt', 'a') as f:
                f.write('{}\n'.format(description_tag))

create_data(2)

我们假设你在循环中打开、写入和关闭data.txt,因为你想保存部分结果——也许是为了防止程序被迫过早终止。否则,只需在最开始打开一次文件会更简单:

with open("blog.txt") as blogs, open("data.txt", "wt") as f:

这个脚本会读取 blog_data.txt 文件中的数据,提取每个博客数据块的标题、作者、日期和正文内容,然后将这些数据写入到 extracted_blog_data.txt 文件中。

大家可以根据实际情况修改输入文件和输出文件的文件名,以及文件路径。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1811274.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何压缩jpg图片到200k以下?跟着我操作!

在现代社交媒体和网络分享的时代&#xff0c;经常需要上传和分享各种图片。然而&#xff0c;有时候大尺寸的JPEG图片可能会成为上传和分享的一道难题&#xff0c;特别是当需要在网络条件不佳或存储空间有限的情况下。为了解决这个问题&#xff0c;我们需要学会如何压缩jpg图片到…

鸿蒙轻内核M核源码分析系列二十 Newlib C

LiteOS-M内核LibC实现有2种&#xff0c;可以根据需求进行二选一&#xff0c;分别是musl libC和newlibc。本文先学习下Newlib C的实现代码。文中所涉及的源码&#xff0c;均可以在开源站点https://gitee.com/openharmony/kernel_liteos_m 获取。 使用Musl C库的时候&#xff0c…

什么是AIGC?AIGC是否会颠覆未来的内容生产模式?普通人如何利用好AI提高内容生产效率?

2024年是AI元年&#xff0c;正好我在AI公司里面工作&#xff0c;对AIGC有着几年的研究&#xff0c;接下来把我这对AIGC的学习经验毫无保留的给大家分享一下 AIGC 的简要介绍 在狭义上&#xff0c;AIGC是指利用AI自动生成内容的生产方式&#xff0c;比如自动写作、自动设计等。…

【机器学习】基于3D CNN通过CT图像分类预测肺炎

1. 引言 1.1. 研究背景 在医学诊断中&#xff0c;医生通过分析CT影像来预测疾病时&#xff0c;面临一些挑战和局限性&#xff1a; 图像信息的广度与复杂性&#xff1a; CT扫描生成的大量图像对医生来说既是信息的宝库也是处理上的负担。每组CT数据可能包含数百张切片&#xf…

金智易表通流程设置的若干问题

1、审批节点的审批人取应用权限组&#xff0c;权限组内任一人审批即可通过 在流程节点的主要配置环节&#xff0c;选择候选组 二、已审菜单要求看到自己审过的也能看到别人审过的&#xff0c;即能看到所有已审的记录 管理设置中取消按钮对流程的依赖&#xff0c;不根据流程审批…

汇编:数组数据传送

要在32位汇编中实现数组数据的传送&#xff0c;可以使用字符串操作指令 MOVS 以及其前缀 REP&#xff0c;可以高效地复制数组数据。 MOVS 指令是一种字符串操作指令&#xff0c;用于将数据从源地址移动到目标地址。MOVS 指令有不同的变种&#xff0c;可以处理不同大小的数据&a…

Mimio安装

mkdir -p /usr/local/develop/minio/bin mkdir -p /usr/local/develop/minio/bin wget https://dl.min.io/server/minio/release/linux-amd64/minio -O /usr/local/develop/minio/bin/minio 编辑脚本 启动脚本 vim /usr/local/develop/minio/start_minio.sh #!/bin/bash # 设…

HTML,CSS,JavaScript实例 —— 齿轮,按钮

文章目录 一、动态按钮二、CSS实例三、滚动的齿轮 一、动态按钮 <!DOCTYPE html> <html><head><meta charset"utf-8"><title></title><style type"text/css">html,body {background: black;height: 100%;displa…

如何在Bing搜索进行广告推广?2024年必应广告投放怎么做?【附开户攻略】

必应&#xff08;Bing&#xff09;作为全球领先的搜索引擎之一&#xff0c;拥有一个独特且庞大的用户群体&#xff0c;尤其在美国和欧洲市场&#xff0c;很多用户选择必应作为他们的主要搜索引擎。通过必应广告&#xff0c;企业可以触达那些在其他搜索引擎上难以接触到的潜在客…

Redis 7.2.x 主从复制+哨兵模式

IP操作系统服务版本192.168.140.153CentOS 7redis-master,sentinel7.2.5192.168.140.156CentOS 7redis-slave,sentinel7.2.5192.168.140.159CentOS 7redis-slave,sentinel7.2.5 一、安装Redis 配置主从复制 参考下面文档&#xff1a; Redis 7.2.x 主从复制-CSDN博客文章浏览…

时间处理基础:Rust 的 chrono 库教程

在开发过程中&#xff0c;我们经常有对时间和日期处理的需求。不论是日历应用、日程安排、还是时间戳记录&#xff0c;准确的时间数据处理都是必不可少的。Rust 社区提供的 chrono 库以其强大的功能和灵活的接口&#xff0c;在 Rust 开发者中广受欢迎。本文将简单介绍 chrono 库…

Nature | 百年未变?博士评定机制该改改了!

19世纪初&#xff0c;德国和法国先后开始授予现代科研博士学位。时至今日&#xff0c;大学的科研与教学早已不同于往昔。但惊人的是&#xff0c;获得和评定博士学位的流程却几乎没变。但改革势在必行。 博士生导师可以从其他教育阶段的创新中学到很多东西。 Innovation in PhD…

成功学为何如此迷人……上瘾……

做自己才是唯一的解药&#xff0c;无需在意他人的看法。 写博客8年与人生第一个502万-CSDN博客 题记&#xff1a;我们并非生来强大&#xff0c;但依然可以不负青春。 原本想好好写一下如何制定一个目标并通过一点一滴的努力去实现&#xff0c;这三年反思发现其实写自己的经历并…

计量校准证书和检定证书区别,企业仪器校准要哪种证书好?

很多企业做校准&#xff0c;会要求校准机构出具相关证书&#xff0c;而有时候也会被机构询问&#xff0c;是要做检定还是校准&#xff0c;出具的证书是要校准证书还是检定证书&#xff1f;那么两者有什么区别呢&#xff1f; 1-检测方式不同 首先两种证书是不同检测方式所给的证…

【Java】解决Java报错:UnsupportedOperationException

文章目录 引言1. 错误详解2. 常见的出错场景2.1 不可修改的集合2.2 抽象类和接口的默认实现2.3 不支持的操作 3. 解决方案3.1 使用支持操作的集合3.2 提供具体实现3.3 检查对象类型和能力 4. 预防措施4.1 使用接口而非实现类4.2 编写防御性代码4.3 使用工厂方法创建集合 5. 示例…

如何快速掌握 Java 枚举类型的定义和使用场景!

Java枚举类型&#xff08;Enum&#xff09;是一种特殊的类&#xff0c;用于表示一组固定的常量。枚举类型在Java 5中引入&#xff0c;通过 enum 关键字来定义。枚举类型不仅可以使代码更具可读性&#xff0c;还能增加类型安全性并减少错误。 一、枚举类型的定义 枚举类型通过…

大模型训练的10个调试技巧

几年前&#xff0c;Andrej Karpathy 写了一篇关于训练神经网络的很棒的文章。以下是我在实施过程中遵循的一些额外事项&#xff0c;侧重于调试大型语言模型。 NSDT工具推荐&#xff1a; Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 -…

程序猿大战Python——流程控制——其他控制语句

for循环 目标&#xff1a;掌握for循环的使用。 与while循环功能类似&#xff0c;for语句也能完成反复多次的执行。 for语法&#xff1a; for 临时变量 in 序列:满足条件时&#xff0c;执行的代码1满足条件时&#xff0c;执行的代码2…… [else:当for循环正常执行结束后&#…

基于PHP+MySQL组合开发的商城小程序源码系统 附带完整的安装代码包以及搭建教程

系统概述 该商城小程序源码系统采用PHP作为后端开发语言&#xff0c;MySQL作为数据库存储引擎&#xff0c;这是一套成熟且广泛应用的技术组合&#xff0c;能够确保系统的稳定性和扩展性。前端部分则利用Vue.js等现代前端框架实现动态交互&#xff0c;保证用户体验的流畅性。 …

Java | Leetcode Java题解之第141题环形链表

题目&#xff1a; 题解&#xff1a; public class Solution {public boolean hasCycle(ListNode head) {if (head null || head.next null) {return false;}ListNode slow head;ListNode fast head.next;while (slow ! fast) {if (fast null || fast.next null) {return…