【NLP】自动化计算文本文件TTR的bash脚本

news2024/11/25 11:46:58

自动化计算文本文件TTR的bash脚本

简介

这是一个可以计算文本文件TTR的bash脚本,文件名为:calculate_TTR.sh。它会接收一个文件名作为参数,并输出总单词数、特异单词数和TTR

TTR是什么

TTR(Type-Token Ratio)是用来衡量文章复杂程度的,计算方法很简单,就是一篇文章中用了多少单词(种类,去重后的)比上总共的单词数量。

T T R = U n i q u e T o t a l TTR=\frac{Unique}{Total} TTR=TotalUnique

如果TTR越大就认为这篇文章的复杂性越高。

脚本代码

#!/bin/bash

# 读取文件
filename="$1"
if [ ! -f "$filename" ]; then
    echo "文件不存在或无法读取!"
    exit 1
fi

# 去除标点符号和空格,只保留单词
words=$(cat "$filename" | tr -cs '[:alnum:]' '[\n*]' | tr '[:upper:]' '[:lower:]')

# 计算总单词数量和不同单词数量
total_words=$(echo "$words" | wc -w)
unique_words=$(echo "$words" | sort | uniq | wc -w)
# -w或--words 只显示词数。
# -l或--lines 显示行数。

# 计算TTR
ttr=$(echo "scale=4; $unique_words/$total_words" | bc)
# -c或--bytes或--chars 只显示Bytes数。

# 输出结果
echo "Total: $total_words"
echo "Unique: $unique_words"
echo "TTR: $ttr"

非脚本程序

这可以帮助理解脚本程序:

cat pubmed-a.txt |tr -cs "[:alnum:]" "\n" |tr [:upper:] [:lower:] >pubmed.a.pure.txt
wc pubmed.a.pure.txt
sort pubmed.a.pure.txt |uniq |wc

这是一些代码片段的具体作用:

  1. cat pubmed-a.txt: 显示文件pubmed-a.txt的内容。
  2. tr -cs "[:alnum:]" "\n":使用tr命令将pubmed-a.txt中的非字母数字字符替换为换行符,保留字母数字字符。
  3. tr [:upper:] [:lower:]:使用tr命令将pubmed-a.txt中的大写字母转换为小写字母。
  4. > pubmed.a.pure.txt:将上一条命令的输出结果重定向到pubmed.a.pure.txt文件中。
  5. wc pubmed.a.pure.txt:统计pubmed.a.pure.txt文件中的行数、单词数和字符数。
  6. sort pubmed.a.pure.txt | uniq | wc:将pubmed.a.pure.txt文件中的内容按字典序排序,去重后再统计行数、单词数和字符数。

这些命令的目的是将pubmed-a.txt文件中的文本处理成纯文本格式,并统计其中的单词数、行数和字符数。其中,排序和去重操作可以用来查看pubmed-a.txt文件中不同单词的数量。

计算代码

chmod 777 calculate_TTR.sh
./calculate_TTR.sh BROWN_A.txt
./calculate_TTR.sh pubmed-a.txt

结果

image-20230303152440054

d-a.txt


## 结果

[外链图片转存中...(img-nhbxYC5u-1677841449710)]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/385261.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

javaweb期末复习重点

2022.12.12javaweb复习重点 10个选择题10个填空题10个判断2-3简答题2个程序题(15分一个) 1.HTML、Javascript、divcss ? 详细解释 HTML HTML(Hyper Text Mark-up Language)即超文本标记语言,是用于描述网页的一种标记语言。简单来说&…

九龙证券|全面推进技术研发,6G概念爆火!多家上市公司表示已布局

据商场研讨组织估计,2040年全球6G商场规划逾越3400亿美元。 6G概念指数逆市大涨5.61% 3月2日,6G概念指数逆市上涨5.61%。成份股中,本川智能、沃特股份、邦本科技、我国卫通涨停;信科移动-U大涨14.61%,亚光科技、信维通…

html常用标签2和语法练习

目录 1.表单标签 form标签 input标签 选择框 复选框:checkbox 按钮框:button 文件选择框 多行编辑框:textarea 2.html语法练习 展示简历信息 填写简历信息 ​编辑 3.HTML特殊字符 1.表单标签 表单是让用户输入信息的重要途径 表单域:包含表单元素的区域,重点是form…

手把手教你用js实现手机通讯录功能(附源码)

js实现手机通讯录效果图需求需求一:锚点通过#id配合a标签使用css中scroll-behavior属性的使用需求二需求三获取汉字拼音的首字母方法1:使用插件,这里推荐pinyin-pro方法2:使用unicode去重数组中冗余的对象法一:用Map去…

abap MODIFY常用语法解析

MODIFY 是既可以操作数据又可以操作内表的一个语法, 实现的逻辑都一样. 如果你内表或数据库中存在该行数据会对该行数据进行更新. 如果不存在,就会插入数据. , 1.如果it_tab是带有标题行的内表,是可以忽略FROM wa_tab工作区的 MODIFY it_tab .2.把工作区wa_tab中的数据更新…

中高级前端面试宝典之浏览器篇

中高级前端面试宝典 作为一名前端开发工程师,要掌握的知识点是多而杂的,在面试刷题阶段,经常没头没脑的,我将面试题系统化,分了好几个系列,祝愿大家(包括我)在这个疫情刚过去的互联网…

高通平台开发系列讲解(摄像头篇)QCM6490 上摄像头驱动开发

文章目录 一、Camera 硬件简介二、内核驱动移植2.1、确定设备树2.2、增加 camera 节点2.3、配置相关 GPIO沉淀、分享、成长,让自己和他人都能有所收获!😄 📢本篇将介绍 qcm6490 摄像头驱动开发。 一、Camera 硬件简介 摄像头连接器一般会包含 Mipi 信号、mclk、供电、re…

从业者必读,一篇文章轻松掌握DevOps核心概念和最佳技能实践!

文章目录前言一. DevOps的定义及由来二. DevOps的价值三. devops工具有哪些3.1 devops工程师的硬实力3.2 devops工程师的软实力总结前言 大家好,又见面了,我是沐风晓月,本文是对DevOps的总结,一篇文章告诉你什么是DevOps. 对很多…

Windows+CLion+Opencv+NCNN笔记

一、下载protobuf和ncnn在腾讯优图的github上下载ncnn,下载链接为https://github.com/Tencent/ncnn。在安装NCNN之前需要编译安装protobuf,protobuf3.4.0下载链接为https://github.com/google/protobuf/archive/v3.4.0.zip。下载后解压,将ncn…

什么是决策能力?HR人才测评

什么是决策能力?决策能力是一项多种能力的综合,指的是能够认识、理解、并且综合分析后得出判断,从而采取行动的能力。如:对当前形势的分析,对相关人员的判断,能做出合理的,适当的行动来应对。决…

【MyBatis】篇一.

文章目录1、MyBatis概述2、环境搭建1、MyBatis概述 认识: JavaEE开发的一个套件SSM,即: MyBatis是一个持久层的框架,是对JDBC的一个封装,是一个半自动的ORM框架。 ORM即实体类对象和数据库中的数据的一个映射关系&am…

关于Facebook Messenger CRM,这里有你想要知道的一切

关于Facebook Messenger CRM,这里有你想要知道的一切!想把Facebook Messenger与你的CRM整合起来吗?这篇博文是为你准备的! 我们将介绍有关获得Facebook Messenger CRM整合的一切信息。然后,我们将解释为什么你需要像SaleSmartly&a…

Git使用:常用命令汇总

前言 Git对于程序猿来说并不陌生,它是一款非常好用的项目管理工具,无论是前端开发还是后台开发,只要项目里面可以使用Git来管理,就会涉及代码的提交和合并操作,主要是常用的Git操作命令的使用,虽然目前有好…

CA-SSL:用于检测和分割未知类的半监督学习

论文作者 | Lu Qi, Jason Kuen , Zhe Lin, and etal论文来源 | CVPR2022文章解读 | William1、摘要为了提高检测/分割的性能,现有的自监督和半监督方法从未标记的数据中提取任务相关或任务特定的训练标签,但这两种方法对于任务性能都是次优的&#xff0c…

【JeecgBoot-Vue3】第1节 源码下载和环境安装与启动

目录 一. 资料 1. 源码下载 2. 官网启动文档 二、 前端开发环境安装 2.1 开发工具 2.2 前后端代码下载 2.3 前端启动 Step 1:安装nodejs npm Step 2:配置国内镜像(这里选阿里) Step 3:安装yarn Step 4&…

python的 ping 网络状态监测方法(含多IP)

ping 基本概念 ping (Packet Internet Groper)是一种因特网包探索器,用于测试网络连接量的程序。Ping是工作在 TCP/IP网络体系结构中应用层的一个服务命令, 主要是向特定的目的主机发送 ICMP(Internet Control Messag…

九、Bean的循环依赖问题

1 什么是Bean的循环依赖 A对象中有B属性。B对象中有A属性。这就是循环依赖。我依赖你,你也依赖我。 比如:丈夫类Husband,妻子类Wife。Husband中有Wife的引用。Wife中有Husband的引用。 2 singleton下的set注入产生的循环依赖 丈夫类 pac…

RabbitMQ的使用

1.初识MQ1.1.同步和异步通讯微服务间通讯有同步和异步两种方式:同步通讯:就像打电话,需要实时响应。异步通讯:就像发邮件,不需要马上回复。两种方式各有优劣,打电话可以立即得到响应,但是你却不…

Python3,好看的外(shen)表(cai)千篇一律,炫彩的日志万里挑一。

炫彩日志输出1、引言2、代码实战2.1 库介绍2.2 库安装2.3 代码示例2.3.1 demo2.3.2 实战3、总结1、引言 小屌丝:鱼哥, 我今天被炫到了。 小鱼:怎么了,你还能被旋到了? 小屌丝对啊, 被炫到了,很…

python SDK打包

什么是SDK 先放一段专业性的文字来解释: SDK即“软体开发工具包”,一般是一些被软件工程师用于为特定的软件包、软件框架、硬件平台、操作系统等建立应用软件的开发工具的集合。通俗点是指由第三方服务商提供的实现软件产品某项功能的工具包。 开发者不…