[streamlit]数据科学科研工作者的神器,必须要推荐一下

news2025/1/30 15:59:26

1. 前言

做科研当然要有过硬的专业知识,但是也少不了一些辅助,才能最大程度发挥我们的能力。因此,除去我们模型性能优秀,结果良好以外,如何进行一个好的展示,也是非常有必要的。那么今天,我们就隆重介绍,这个几乎可以替代掉Flask作为构建demo首选的streamlit。(这次不是chatGPT了,毕竟chatGPT只会描述,不会感受。)

2. streamlit能干什么

我们为什么要用streamlit呢?
第一,我们想要做个展示我们模型的Demo页面。
第二,自己就只会python,不懂啥三剑客(Html,css,js),但我就想自己去做个界面,怎么整?
第三,不能太复杂,太复杂的光学起来就很吃力了,我就想要个简单的Demo就行。

于是,于是streamlit来了,不仅可以完全满足以上要求,而且还能更加的强大。完全可以由python编写的网页,你想象过长什么样吗?

再给你看看它的一些组件,你就大概知道它能够做什么了。

2.1 普通输出

首先它是可以输出普通文本的,而且支持部分Markdown语法,即使你啥都不写,你就想做一个纯文本的BLOG,它也能够完全满足你。
在这里插入图片描述
在这里插入图片描述

2.2 数据展示

如果你有一堆数据要展示,但是想展示的好看点,Streamlit也可以满足你,比如列表、或者评价指标,甚至是json也可以很好看的展示出来。
在这里插入图片描述

2.3 展示图片

光展示文字或者表格不太直观啊,我们最终还是希望能够用图来展示我们的结果,哦对了,图有两种,一种是Picture一种是Chart,streamlit都可以完美支持,甚至是音频或者视频都可以完美的嵌套在这里面。
在这里插入图片描述
在这里插入图片描述

2.4 交互控件

是的是的,如果你说这上面不就是个静态展示页面么,我用个jekyll更能轻量式的搭建啊,但是下面的交互控件,则是我最看重的地方。话不多说,大家可以看一看效果。从普通的点击按钮,到上传下载文件,甚至是直接调用摄像头拍摄照片都能够很轻松的使用,看起来是不是心动了。
在这里插入图片描述
在这里插入图片描述

2.4 布局

作为网页好不好看,最重要的是布局,streamlit也帮助我们快速搭建美观的布局了。
在这里插入图片描述

2.5 高级功能

当然,streamlit的功能远不于此,还有一个高级功能等待我们去探索,例如使用命令行,主题啊,或者性能优化等等。
在这里插入图片描述

2.6 云发布

最重要的是,streamlit可以有偿云发布,这才是重点,也就是它为什么能够一直做下去的原因,是因为它有盈利点,也有开放性。

streamlit自己构建了关于自己展示的一个demo,其样子和其他网站看起来没什么区别,甚至更好看一些。(不过有一点我自己偷偷吐槽一下,就是构建复杂的网站后,它的响应速度还是需要一定的耐心的。)

3. streamlit该怎么做

光说不练假把式,既然都能吸引我到半夜还在倒腾的东西,那肯定要真正能实践起来才行。当然,我就做了一些简单的demo,主要是为了呈现功能,具体细节还需要进行二次加工。这次,我主要实践了两个比较重要的也比较有用的功能,至于绘图功能,大家可以参考官方文档,讲述的很细致哦。

因此如果想使用streamlit的话,也非常容易,只需要遵循以下3步就可以了。

  1. 使用命令安装streamlit
pip install streamlit
  1. 在自己的项目里增加一个app.py(其实叫啥名字都行),负责整个界面的设计和渲染,大致只包含4个部分。
# 导入包
# 设定运行环境
# 写一个主函数writer()
# 执行函数main
  1. 通过下面命令启动它:
streamlit run app.py # 默认端口8501
or
streamlit run app.py --server.port your_port # 指定端口
  1. 打开浏览器,就可以享用了
http://localhost:8501

3.1 模型demo

我们做人工智能的,模型做的那肯定都是非常优秀的,但是很难让别人能够感受到我们模型的优越性,这是因为我们没有让别人所见即所得,让他们感受一下模型的性能比冷冰冰的数字更加有效。但是我们之前的技能点都点在了科研上了,而如何展示我们的工作则成为我们头疼的事情,因为这是一个偏工程而非科研的工作。

不过好在,streamlit能够帮助我们快速构建一个看起来还可以的demo,大家可以先看一下效果。
在这里插入图片描述
可以看到,很容易生成了一个看起来还可以的界面。左边菜单是用来调节一些模型的参数的,而右边则是主界面。主界面上面是我们的输入栏,下面有一个一键生成摘要按钮,点击后,我们就能够通过我们的模型生成相应的摘要了。最下面还有一些和基准系统的性能比较,看起来是不是美观多了?

如果要从头开始构建这样一个界面,那必然是非常复杂的一个工程。但是streamlit让我们一个py文件就可以解决,主要代码如下:

import streamlit as st
import os
import torch
import time

from e2e import predict_one_sample
from module.model import MT5PForSequenceClassification
from module.tokenizer import T5PegasusTokenizer

st.set_page_config(page_title="Demo", initial_sidebar_state="auto", layout="wide")


@st.cache(allow_output_mutation=True)
def get_model(device, vocab_path, model_path):
    tokenizer = T5PegasusTokenizer.from_pretrained(vocab_path)
    model = MT5PForSequenceClassification(model_path)
    #model.load_state_dict(torch.load(model_path))
    model.to(device)
    model.eval()
    return tokenizer, model


device_ids = 7
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = str(device_ids)
device = torch.device("cuda" if torch.cuda.is_available() and int(device_ids) >= 0 else "cpu")
tokenizer, model = get_model(device, "t5_pegasus_torch/vocab.txt", "t5_pegasus_torch/")


def writer():
    st.markdown(
        """
        ## CAIL 2022 涉法舆情摘要demo
        """
    )
    st.sidebar.subheader("配置参数")
    max_length = st.sidebar.slider("生成摘要长度", min_value=50, max_value=250, value=200, step=1)
    top_k = st.sidebar.slider("top_k", min_value=0, max_value=10, value=3, step=1)
    num_beams = st.sidebar.slider("num_beams", min_value=1, max_value=10, value=3, step=1)
    top_p = st.sidebar.number_input("top_p", min_value=0.0, max_value=1.0, value=0.95, step=0.01)
    do_sample = st.sidebar.checkbox('do_sample')
    content = st.text_area("输入新闻正文", max_chars=1024,height=400)
    if st.button("一键生成摘要"):
        start_message = st.empty()
        start_message.write("正在抽取,请等待...")
        start_time = time.time()
        title = predict_one_sample(model, device, tokenizer, content, max_length=max_length,do_sample=do_sample,
                                       num_beams=num_beams, top_k=top_k, top_p=top_p)
        end_time = time.time()
        start_message.write("抽取完成,耗时{}s".format(end_time - start_time))
        st.text_area("摘要如下",title)
        st.markdown(
            """
            ## 与基准系统T5生成的摘要性能比较
            """
        )
        col1, col2, col3,col4,col5 = st.columns(5)
        col1.metric("Rouge-1", "48.5", "16%")
        col2.metric("Rouge-2", "24.6", "-8%")
        col3.metric("Rouge-L", "34.9", "4%")
        col4.metric("BLEU", "24.0", "0%")
        col5.metric("BertScore", "64.7", "-3%")
    else:
        st.stop()

if __name__ == '__main__':
    writer()

可以看到

3.2 性能评估

另一个比较能用得上的是性能评估,这里我们也不多说,直接上图。
在这里插入图片描述
这样的一个网页更加的容易了,下面是其app.py中的主要代码:

import json

import streamlit as st
import time
from evaluate import Evaluator

st.set_page_config(page_title="Evaluate", initial_sidebar_state="auto", layout="wide")


@st.cache(allow_output_mutation=True)
def get_evaluator():
    evaluator = Evaluator()
    return evaluator


evaluator = get_evaluator()


def get_sources_targets(baseline_data):
    objects=json.loads(baseline_data)
    sources = objects["sources"]
    targets = objects["targets"]
    return sources, targets


def compute_diff(baselines, system):
    results = zip(baselines, system)
    diff_list = []
    for result in results:
        diff = round((result[1] - result[0]) / result[0], 2)
        diff_list.append(diff)
    return diff_list


def set_metric(container, baselines, system=None):
    col_name_list = ["Rouge-1", "Rouge-2", "Rouge-L", "BLEU", "BertScore"]
    cols = container.columns(5)
    if system != None:
        diff_list = compute_diff(baselines, system)
        for i in range(5):
            cols[i].metric(col_name_list[i], str(round(system[i],4)), str(diff_list[i]) + "%")
    else:
        for i in range(5):
            cols[i].metric(col_name_list[i], str(round(baselines[i],4)))


def writer():
    st.markdown(
        """
        ## 摘要评估
        """
    )
    st.sidebar.subheader("上传/下载")
    st.sidebar.write("请上传基准系统文件")
    baseline_uploaded_file = st.sidebar.file_uploader("基准系统")
    uploaded_files = st.sidebar.file_uploader("测试文件", accept_multiple_files=True)
    if st.button("一键评估"):
        start_message = st.empty()
        start_message.write("正在评估,请等待...")
        start_time = time.time()
        baseline_data = baseline_uploaded_file.read().decode('UTF-8')
        sources, targets = get_sources_targets(baseline_data)
        baseline_performance = evaluator.compute_all_score(sources, targets)
        baseline_container = st.container()
        baseline_container.write("基准系统性能表现")
        set_metric(baseline_container, baseline_performance)
        for index, uploaded_file in enumerate(uploaded_files):
            bytes_data = uploaded_file.read().decode('UTF-8')
            sources, targets = get_sources_targets(bytes_data)
            system_performance = evaluator.compute_all_score(sources, targets)
            container = st.container()
            container.write(uploaded_file.name + "系统的性能表现")
            set_metric(container, baseline_performance, system_performance)
        end_time = time.time()
        start_message.write("评估完成,耗时{}s".format(end_time - start_time))
    else:
        st.stop()


if __name__ == '__main__':
    writer()

以上代码我都会整理后发布在hub里,大家记得关注。

4. 小结

这次我们主要讲述了如何利用streamlit制作我们模型展示的Demo,以及利用它进行一个性能展示和比较。对于曾经开发过网页或者移动端App的人来说,这个半天就学会了。如果是0基础的,根据刘聪大神的说法,最多1天就能学会。不过官方给出的建议是,你可以花30天去学会它,而且给出了教程了《30天学会streamlt》。大家感兴趣的可以自己去尝试,非常实用的一款工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/104823.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

推荐系统:基于ConvNCF推荐算法的推荐系统实现 代码+数据详细教程

1.案例知识点 推荐系统任务描述:通过用户的历史行为(比如浏览记录、购买记录等等)准确的预测出用户未来的行为;好的推荐系统不仅如此,而且能够拓展用户的视野,帮助他们发现可能感兴趣的却不容易发现的item;同时将埋没在长尾中的好商品推荐给可能感兴趣的用户。ConvNCF推…

西瓜书-决策树

决策树 决策树划分时,当前属性集为空,或所有样本在所有属性上取值相同,将结点标记为叶节点,其类别标记为当前样本集中样本数最多的类。 决策树算法的核心在于:选择最优划分属性 判别分类的三种情形: 当前…

[前端攻坚]:详解call、apply、bind的实现

call apply bind 的实现的面试中几乎必定出现的一些内容,今天来用一篇文章整理一下这里的内容,加深一下JS基础知识体系。同时文章也被收录到我的《JS基础》专栏中,欢迎大家点击收藏加关注。 call的实现 call() 方法使用一个指定的 this 值和单…

Oracle Ask Tom分区学习系列: 面向开发者的分区(Partitioning)教程

Oracle Partitioning: A Step-by-Step Introduction for Developers是Oracle数据库开发者课程之一。 Development with Oracle Partitioning/使用 Oracle 分区进行开发 Partitioning in the database reflects the same way we handle large tasks in the real world. When a t…

Redis分布式锁的10个坑

前言 大家好,我是田螺。 日常开发中,经常会碰到秒杀抢购等业务。为了避免并发请求造成的库存超卖等问题,我们一般会用到Redis分布式锁。但是使用Redis分布式锁,很容易踩坑哦~ 本文田螺哥将给大家分析阐述,Redis分布式…

如何优化 MySQL 服务器

有一些数据库服务器的优化技术,主要是管理系统配置而不是调整 SQL 语句。它适用于那些希望确保服务器的性能以及可伸缩性的 DBA,以及适用于启动安装脚本建立数据库和运行 MySQL 自己进行开发、测试等以提生产力的开发人员。 系统因素 一些系统级方面也会…

推荐几个方法教你学会怎样制作视频剪辑

随着时代的发展,新媒体行业的壮大,应该不少小伙伴每天都需要制作视频剪辑吧,有些可能是因为从事短视频行业,每天就需要发送视频内容,才能吸引观众,也有些可能只是想单纯分享一些生活视频。那你知道如何制作…

List接口-ArrayList、LinkedList和Vector

1.List 接口和常用方法 1.1List 接口基本介绍 import java.util.ArrayList; import java.util.List;public class List_ {SuppressWarnings({"all"})public static void main(String[] args) {//1. List集合类中元素有序(即添加顺序和取出顺序一致)、且可重复 [案例]…

Linux网络编程之socket通信

Linux网络编程之socket通信 一、socket相关函数使用 1.1 IP地址转换函数: 小端法:(pc本地存储) 高位存高地址,低位存低地址。 大端法:(网络存储) 高位存低地址,低位存…

13基于多目标粒子群算法的微电网优化调度(matlab程序)

参考文献 基于多目标粒子群算法的微电网优化调度——王金全(2014电网与清洁能源) 主要内容 针对光伏电池、风机、微型燃气轮机、柴油发电机以及蓄电池组成的微电网系统的优化问题进行研究,在满足系统约束条件下,建立了包含运行…

day25【代码随想录】左叶子之和、找树左下角的值、从中序与后序遍历序列构造二叉树、从中序与前序遍历序列构造二叉树、最大二叉树

文章目录前言一、左叶子之和(力扣404)1、递归遍历2、非递归遍历二、找树左下角的值(力扣513)1、迭代法(层序遍历)2、递归法三、从中序与后序遍历序列构造二叉树(力扣106)四、从中序与…

微服务框架 SpringCloud微服务架构 微服务面试篇 54 微服务篇 54.1 SpringCloud常见组件有哪些?

微服务框架 【SpringCloudRabbitMQDockerRedis搜索分布式,系统详解springcloud微服务技术栈课程|黑马程序员Java微服务】 微服务面试篇 文章目录微服务框架微服务面试篇54 微服务篇54.1 SpringCloud常见组件有哪些?54 微服务篇 54.1 SpringCloud常见组…

【验证码逆向专栏】某片滑块、点选验证码逆向分析

声明 本文章中所有内容仅供学习交流使用,不用于其他任何目的,不提供完整代码,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! 本文章未…

30岁了想转行学Python,来得及吗?

是否来得及要看决心有多大,行动力有多强。一般来说,只要目标明确,足够自律,心理强大,做任何事情都是来得及的,当下就是最好的开始。30岁真的不算啥,有人四五十岁才开始奋斗,依然能过…

C语言之内存管理(十七)(转世灵童现世)

上一篇: C语言入门篇之轮回法器(十六)(指针第五卷) 逐梦编程,让中华屹立世界之巅。 简单的事情重复做,重复的事情用心做,用心的事情坚持做; 文章目录前言一、内存管理具体介绍1.作用域2.生命周期的定义3.局…

为什么说学人工智能一定要学Python?

有很多人在问博主,为什么人工智能学习要用Python?运行速度慢不好之类的,今天就让博主谈谈自己的感受。 先来说说前景 随着“大数据”“云计算”“人工智能”等等科技的兴起,IT行业在今后三到五年将会迎来一个高速发展期。这也就意…

QT调用python传递图像和二维数组,并接受python返回值(图像)

任务目的: 用QT调用python代码,将QT读取的图像(Mat矩阵)作为参数传入python中,将QT的二维数组作为参数传递给python,python接收QT传入的图像进行计算,将结果返回给QT。 实现过程 1.新建QT项目 说明:QT的…

[Cortex-M3]-5-cache uncache

目录 1 cache的引入 2 cache的工作原理 3 cache使用限制 1 cache的引入 程序运行的流程(很简单): 程序编译:存放在flash;程序加载:程序加载到内存;程序运行:指令从内存复制到CP…

【产品人卫朋】自媒体运营的5个阶段,以及增长策略

本篇内容以微信公众号为例讲解自媒体的运营策略。 建立一个快速发展的微信公众号,需要多长时间呢? 有些人在一年内就可以建立一个蓬勃发展的公众号,而其他人则可能需要两年、三年甚至是五年的时间。 在发展的过程中,你的公众号将经…

阿里工程师告诉你,0基础如何自学python进大厂

大概一年前这个朋友就想学习Python了,但因为工作比较忙,而且觉得Python肯定不太好学,所以一直搁置在那里。 宅家学Python 到了今年1月28日也就是大年初三的时候,眼看新冠肺炎疫情不会短时间结束了,全国各地都在严控&…