从文本文件中读取博客数据并将其提取到文件中

news2026/3/20 6:25:23

通常情况下我们可以使用 Python 中的文件操作来实现这个任务。下面是一个简单的示例，演示了如何从一个文本文件中读取博客数据，并将其提取到另一个文件中。

假设你的博客数据文件（例如 blog_data.txt）的格式

在这里插入图片描述

1、问题背景

我们需要从包含博客列表的文本文件中读取指定数量的博客（n）。然后提取博客数据并将其添加到文件中。这是应用nlp到数据的整个作业的一部分。

以下是我们已经完成的工作：

import urllib2
from bs4 import BeautifulSoup

def create_data(n):
    blogs=open("blog.txt","r") #opening the file containing list of blogs

f=file("data.txt","wt") #Create a file data.txt

with open("blog.txt")as blogs:
    head = [blogs.next() for x in xrange(n)]
    page = urllib2.urlopen(head['href'])

    soup = BeautifulSoup(page)
    link = soup.find('link', type='application/rss+xml')
    print link['href']

    rss = urllib2.urlopen(link['href']).read()
    souprss = BeautifulSoup(rss)
    description_tag = souprss.find('description')

    f = open("data.txt","a") #data file created for applying nlp
    f.write(description_tag)

但是，这段代码不起作用。它只能在直接给出链接时工作，例如：

page = urllib2.urlopen("http://www.frugalrules.com")

我们从另一个脚本调用这个函数，用户在其中给出输入n。出错的原因是什么？

Traceback:

    Traceback (most recent call last):
  File "C:/beautifulsoup4-4.3.2/main.py", line 4, in <module>
    create_data(2)#calls create_data(n) function from create_data
  File "C:/beautifulsoup4-4.3.2\create_data.py", line 14, in create_data
    page=urllib2.urlopen(head)
  File "C:\Python27\lib\urllib2.py", line 127, in urlopen
    return _opener.open(url, data, timeout)
  File "C:\Python27\lib\urllib2.py", line 395, in open
    req.timeout = timeout
AttributeError: 'list' object has no attribute 'timeout'

2、解决方案

head是一个列表：

head = [blogs.next() for x in xrange(n)]

列表由整数索引（或切片）索引。当head是一个列表时，不能使用head[‘href’]：

page = urllib2.urlopen(head['href'])

我们很难确切地说如何修复这个问题，因为不知道blog.txt的内容。如果blog.txt的每一行都包含一个URL，那么可以使用：

with open("blog.txt") as blogs:
    for url in list(blogs)[:n]:
        page = urllib2.urlopen(url)
        soup = BeautifulSoup(page.read())
        ...
        with open('data.txt', 'a') as f:
            f.write(...)

请注意，file是open的弃用形式（它在Python3中被删除）。不要使用f=file(“data.txt”,“wt”)，而是使用更现代的with-statement语法（如上所示）。

例如：

import urllib2
import bs4 as bs

def create_data(n):
    with open("data.txt", "wt") as f:
        pass
    with open("blog.txt") as blogs:
        for url in list(blogs)[:n]:
            page = urllib2.urlopen(url)
            soup = bs.BeautifulSoup(page.read())

            link = soup.find('link', type='application/rss+xml')
            print(link['href'])

            rss = urllib2.urlopen(link['href']).read()
            souprss = bs.BeautifulSoup(rss)
            description_tag = souprss.find('description')

            with open('data.txt', 'a') as f:
                f.write('{}\n'.format(description_tag))

create_data(2)

我们假设你在循环中打开、写入和关闭data.txt，因为你想保存部分结果——也许是为了防止程序被迫过早终止。否则，只需在最开始打开一次文件会更简单：

with open("blog.txt") as blogs, open("data.txt", "wt") as f:

这个脚本会读取 blog_data.txt 文件中的数据，提取每个博客数据块的标题、作者、日期和正文内容，然后将这些数据写入到 extracted_blog_data.txt 文件中。

大家可以根据实际情况修改输入文件和输出文件的文件名，以及文件路径。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1811274.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

从文本文件中读取博客数据并将其提取到文件中

相关文章

如何压缩jpg图片到200k以下？跟着我操作！

鸿蒙轻内核M核源码分析系列二十 Newlib C

什么是AIGC？AIGC是否会颠覆未来的内容生产模式？普通人如何利用好AI提高内容生产效率？

【机器学习】基于3D CNN通过CT图像分类预测肺炎

金智易表通流程设置的若干问题

汇编：数组数据传送

Mimio安装

HTML，CSS，JavaScript实例 —— 齿轮，按钮

如何在Bing搜索进行广告推广？2024年必应广告投放怎么做？【附开户攻略】

Redis 7.2.x 主从复制+哨兵模式

时间处理基础：Rust 的 chrono 库教程

Nature | 百年未变？博士评定机制该改改了！

成功学为何如此迷人……上瘾……

计量校准证书和检定证书区别，企业仪器校准要哪种证书好？

【Java】解决Java报错：UnsupportedOperationException

如何快速掌握 Java 枚举类型的定义和使用场景！

大模型训练的10个调试技巧

程序猿大战Python——流程控制——其他控制语句

基于PHP+MySQL组合开发的商城小程序源码系统附带完整的安装代码包以及搭建教程

Java | Leetcode Java题解之第141题环形链表