谷歌新作:AI 检测文件内容类型,5ms 即可完成 | 开源日报 No.192

news2025/1/19 23:17:24

picture

google/magika

Stars: 5.0k License: Apache-2.0

picture

magika 是一个利用深度学习来检测文件内容类型的工具。

  • 使用自定义、高度优化的 Keras 模型,仅约 1MB 大小,在单个 CPU 上能够在毫秒内实现精确的文件识别。
  • 在超过 1M 文件和 100 种内容类型(包括二进制和文本文件格式)的评估中,达到了 99% 以上的准确率和召回率。
  • 可作为 Python 命令行工具、Python API 和实验性 TFJS 版本使用,并支持批处理以加快推理速度。
  • 推理时间大约为每个文件 5ms,且独立于文件大小而保持近恒定。

karpathy/minbpe

Stars: 4.3k License: MIT

minbpe 是用于 LLM 分词中常用的字节对编码(BPE)算法的最小、干净代码。

  • 实现了基本 BPE 算法,直接在文本上运行。
  • 实现了 RegexTokenizer,通过正则表达式模式进一步拆分输入文本,在标记化之前将输入文本按类别(如:字母、数字、标点符号)进行分割。确保不会跨越类别边界进行合并。
  • 实现了 GPT4Tokenizer,是 RegexTokenizer 的轻量级包装器,完全复制了 tiktoken 库中 GPT-4 的标记化过程。

facebookresearch/DiT

Stars: 2.7k License: NOASSERTION

picture

DiT 是 “Scalable Diffusion Models with Transformers” 的官方 PyTorch 实现。
该项目的主要功能、关键特性、核心优势:

  • 提供了基于 PyTorch 的 DiT 模型定义和预训练权重
  • 支持训练和采样代码
  • 分析了通过 Transformer 进行操作的潜在扩散模型(DiTs)的可扩展性
  • 在 ImageNet 512×512 和 256×256 基准测试中,DiT-XL/2 模型表现出色,取得最先进 FID 结果

ajeetdsouza/zoxide

Stars: 15.6k License: MIT

picture

zoxide 是一个更智能的 cd 命令,支持所有主要的 shell。
主要功能是记住您经常使用的目录并快速跳转。

smartcontractkit/chainlink

Stars: 6.1k License: MIT

picture

chainlink 是一个去中心化预言机网络的节点,连接了链上和链下计算。

  • 扩展智能合约功能,实现对真实世界数据和链下计算的访问
  • 保持区块链技术固有的安全性和可靠性保证
  • 包含 Chainlink 核心节点和合约
  • 提供预构建 Docker 镜像以供下载使用
  • 活跃社区支持,并提供 Discord 作为主要沟通渠道
  • 提供详细文档指导、Solidity 开发资源等信息

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1496143.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

供应链管理(SCM):界面设计全面扫盲,得供应链者得天下

大家伙,我是大千UI工场,专注UI分享和项目接单,本期带来供应链系统的设计分享,欢迎大家关注、互动交流。 一、什么是SCM SCM系统是供应链管理(Supply Chain Management)系统的缩写。供应链管理是指协调和管…

立式学习灯哪个牌子好?教你6个挑选窍门,甩掉坑货!

很多用户对立式学习灯的理解存在偏差,认为只要选择昂贵的、热度高的台灯就能万事大吉,实测不然!要知道,目前的市场上充斥着各类不专业立式学习灯,其中就包括不少所谓的网红品牌、跨界品牌,它们普遍通过造型精致、明星代…

Vue+SpringBoot打造考研专业课程管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 数据中心模块2.2 考研高校模块2.3 高校教师管理模块2.4 考研专业模块2.5 考研政策模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 考研高校表3.2.2 高校教师表3.2.3 考研专业表3.2.4 考研政策表 四、系统展示五、核…

CTP-API开发系列之三:柜台系统简介

CTP-API开发系列之三:柜台系统简介 CTP-API开发系列之三:柜台系统简介中国金融市场结构---交易所柜台系统通用柜台系统极速柜台系统主席与次席 CTP柜台系统CTP组件名称对照表CTP柜台系统程序包CTP柜台系统架构图 CTP-API开发系列之三:柜台系统…

实现粘性布局position:sticky

对于粘性定位这个概念,很多人都没有注意到,所以写这篇文章总结一下。 粘性定位它基于用户的滚动位置来定位。 粘性定位的元素是依赖于用户的滚动,在 position:relative 与 position:fixed 定位之间切换。 它的行为就像 position:relative;…

查看Linux文件的所有者、用户组等所属信息

在Linux系统中,要查看文件或目录的所有者、用户组以及其他权限信息,可以使用以下命令: ls 命令: 使用 -l(长格式)选项来查看详细信息,包括所有者、用户组、大小、修改时间以及权限等。 ls -l /p…

【JavaScript 漫游】【031】window 对象总结

文章简介 本篇文章为【JavaScript 漫游】专栏的第 030 篇文章,记录了浏览器模型中 window 对象的相关知识点。 window 对象概述 浏览器里面,window 对象(注意,w 为小写)指当前的浏览器窗口。它也是当前页面的顶层对…

【开发工具】Git模拟多人开发场景理解分支管理和远程仓库操作

我们来模拟一个多人多分支的开发场景。假设你有一个新的空白远程仓库,假设地址是 https://github.com/user/repo.git。 克隆远程仓库到本地 $ git clone https://github.com/user/repo.git这会在本地创建一个 repo 目录,并自动设置远程主机为 origin。 创建本地开发分支并推送…

安卓部分手机使用webview加载链接后白屏(Android低版本会出现的问题)

前言 大爷:小伙我这手机怎么打开你们呢这个是白屏什么都不显示。 大娘:小伙我这也是打开你们呢这功能,就是一个白屏什么也没有,你们呢的应用不会有病毒吧。 小伙:我的手机也正常; 同事:我的也正…

使用RabbitMQ实现延时消息自动取消的简单案例

一、流程图 二、导包 <!--消息队列 AMQP依赖&#xff0c;包含RabbitMQ--> <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-amqp</artifactId> </dependency> 三、配置文件 #消息队列 …

Python PyQt5 多Tab demo

参考&#xff1a; https://cloud.tencent.com/developer/news/388937 importsysfromPyQt5.QtWidgetsimportQVBoxLayout,QWidget,QFormLayout,QHBoxLayout,QLineEdit,QRadioButton,QCheckBox,QLabel,QGroupBox,QApplication,QTabWidgetclassTabDemo(QTabWidget):def__init__(se…

C++内存泄漏检测

C进阶专栏&#xff1a;http://t.csdnimg.cn/aTncz 相关系列文章 C技术要点总结, 面试必备, 收藏起来慢慢看 C惯用法之RAII思想: 资源管理 C智能指针的自定义销毁器(销毁策略) 目录 1.内存泄漏概述 1.1.内存泄漏产生原因 1.2 内存泄漏导致的后果 1.3 内存泄漏解决思路 2.宏…

Linux——线程(2)

在上一篇博客中我介绍了Linux中的线程是什么样的&#xff0c;就如同进程可以通过 fork创建&#xff0c;可以被终止&#xff0c;可以退出一样&#xff0c;线程也可以被我们用户控制&#xff0c;这 篇博客我会介绍线程的控制&#xff0c;并且基于线程的控制所产生的一些问题进行 …

安装系统后,如何单个盘空间扩展多个盘空间?

1、计算机-管理-存储-磁盘空间 2、压缩C盘符&#xff0c;分出多余空间 3、将多余空间扩展&#xff0c;然后修改盘符名称

为什么会不断出现低价窜货链接

品牌在做控价的过程中&#xff0c;会进入一个怪圈&#xff0c;就是不管如何治理&#xff0c;低价、乱价、窜货链接都在不断出现&#xff0c;甚至有些低价链接会占据电商首页的位置&#xff0c;其实这些在一定程度上讲是正常的&#xff0c;品牌在不断发展&#xff0c;链接也是动…

Cyber RT 开发工具

在Cyber RT中还提供了一些工具&#xff0c;这些工具可以拓展Cyber RT功能、提高开发调试效率&#xff0c;本章主要介绍这些工具的使用。 本章内容: 1.cyber record工具的应用&#xff1b; 2.常用命令工具的使用&#xff1b; 学习收获: 1.可以通过cyber record将发布的话题消息…

基础50刷题之一(交替合并字符串)

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、题目二、力扣官方题解&#xff08;双指针&#xff09;三、文心一言解释总结 前言 刚上研一&#xff0c;有人劝我好好学C&#xff0c;当时用的不多就没学&a…

Javascript进阶课程——大纲

JavaScript进阶教程_哔哩哔哩_bilibili

Windows下 OracleXE_21 数据库的下载与安装

Oracle 数据库的下载与安装 数据库安装包下载数据库安装访问数据库进行测试Navicat连接数据库 1. 数据库安装包的下载 1.1 下载地址 Oracle Database Express Edition | Oracle 中国 1.2 点击“下载 Oracle Database XE”按钮&#xff0c;进去到下载页面&#xff08;选择对…

图论练习5

Going Home Here 解题思路 模板 二分图最优匹配&#xff0c;前提是有完美匹配&#xff08;即存在一一配对&#xff09;左右集合分别有顶标&#xff0c;当时&#xff0c;为有效边&#xff0c;即选中初始对于左集合每个点&#xff0c;选择其连边中最优的&#xff0c;然后对于每…