大数据能力提升项目|学生成果展系列之五

news2025/1/10 1:49:18

327de63763a89d1ca558554c99631f41.png

导读

为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。

回首2022年,清华大学大数据能力提升项目取得了丰硕的成果,同学们将课程中学到的数据思维和技能成功地应用在本专业的学习和科研中,在看到数据科学魅力的同时,也将自己打造成为了交叉复合型的创新型人才。下面让我们通过来自8个院系的10位同学代表一起领略他们的风采吧!

支持自动规则解译的智能审图系统

一、研究背景与课题来源

建筑环境的整个生命周期(设计、审查、施工、运维)受各种法规、规范和标准的约束。然而长期以来,建筑设计与审查过程高度依赖人工、自动化程度低,致使设计“错漏碰缺”及合规性问题突出,且往往存在施工条件冲突、可施工性差等问题(如图1所示),工期、成本损失最高分别可达9%和20%以上。

e5e4c150631abf5b60decb731e759de4.png

图1 建筑工程设计常见问题及其直接损失分析

传统人工核对的审查方式具有耗时长、易出错等缺点。一方面,传统设计审查方式高度依赖审查人员知识储备与经验积累,规范解读主观性大、尺度不一,严重影响设计审查的客观性与可靠性。另一方面,面对内容庞杂的工程设计图纸及繁琐、复杂的规范条文要求,审查人员肩负巨大压力,往往出现审查错误、纰漏等问题,且效率低下,严重影响设计审查的准确性和效率。

因此,自动规则审查(Automated Rule/Compliance Checking, ARC/ACC)应用而生。ARC系统需要将以自然语言表达的法规文本转化为计算机能够运行的代码,此过程称为规则解译。现有ARC的规则解译方法通常都是聘请土木-计算机复合人才将规范硬编码为可执行代码(称为硬编码),该方法得到的规则很难进行有效维护和修改。因此,亟需提出一种支持自动规则解译(Automated Rule Interpretation, ARI)的智能审图系统。

我受到大数据实践课程《深度学习》以及《自然语言处理与文本挖掘》两门课程的启发,提出了一种基于自然语言处理(Natural Language Processing, NLP)与领域知识的ARC框架,旨在利用领域知识与NLP提升语义对齐的能力更好地支持规则自动解译。最终构建支持自动规则解译的智能审图系统。

二、技术路线与实验效果

2.1 整体技术架构

我提出了一种基于NLP技术与领域知识支持自动规则解译的ARC框架,如图2所示。该框架由四个部分组成:(1)基于本体的知识建模、(2)模型准备、(3)规则解译和(4)模型检查。模型准备旨在将存储在IFC格式的BIM模型数据自动转换为Turtle(Terse RDF Triple Language)格式。本体知识建模旨在为系统提供领域共性知识。模型检查采用GraphGB提供的推理机进行检查。后文内容的介绍重点放在自动规则解译(ARI)。

0af0a479314c34147f2508f04149bcfd.png

图2 基于 NLP 和知识通知的自动规则审查框架

2.2 自动规则解译(ARI)算法

规则解译旨在基于NLP技术自动将用自然语言表达的强制条文解译为计算机可处理的代码。所提出的方案的处理流程如图3所示。

首先采用BERT模型对规范进行命名实体识别(语义标注),然后采用CFG文法对标注后的语句进行语句解析,从自然语言规范生成语法树(解析);采用维基百科中文语料和中文规范语料库训练词向量模型,从而计算文本表达的概念与本体概念的语义相似度,实现初步语义对齐。随后提出两类冲突消解方法(域-值冲突消解方法和等价类冲突解决方法),根据土木工程领域知识修改语义对齐结果(如图4)。在语义对齐和冲突解决之后是代码生成环节,本文采用一种基于领域关键词与规则的条文分类方法,以识别出适合不同条文的SPARQL函数;最后执行代码生成步骤以将语法树转换为计算机可处理的格式(如图5)。

8acf6b63f3bea272a8f3c29b411f96e1.png

图3 自动规则解译的示例

6b6b9d5bf3a07c6ffd89741817500ea3.png

图4 冲突消解的示例

e38d8250b6a1f13bcf82b9945c478cb4.png

图5 代码生成过程中需要考虑的SPARQL语法

2.3 实验验证

首先对不同语义对齐方法的性能进行评估,以准确率和运行时间作为评价指标,结果如图6所示。所提出的语义相似度和冲突消解算法(W2VavgCR)达到了90.1%的最佳准确率。

09e1875a040cb00a118dcda7b001d158.png

图6 所提出的算法的准确率

选择 4 个直接属性简单条文(Class 1)和 8 个间接属性复杂条文(Classes 2.1 & 2.2)。将所提出的方法所消耗的时间与专家人工解译所消耗的时间进行比较,结果如图7所示。与专业人士手工编写代码对比,自动解译方法效率平均提升5倍以上。

7146a6437919784077a0236fe8f44e30.png

图7  规则解译效率提升5倍以上

编辑:文婧

校对:程安乐

b4935cf9fa044455f975ac8e79cb6665.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/417683.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JavaScript【十】JavaScript事件

文章目录🌟前言🌟事件🌟绑定事件的方式:🌟标签绑定事件:🌟Document对象来绑定事件:on事件type🌟 事件监听:使同一个对象的同一事件绑定多个事件处理程序。兼容IE9及以上。…

Zephyr RTOS应用开发(nrf5340)

目录 概述 开发环境安装 创建一个新的Zephyr应用 构建应用并刷写到开发板 概述 Zephyr™项目是一个采用Apache 2.0协议许可,Linux基金会托管的协作项目。针对低功耗、小型内存微处理器设备开发的物联网嵌入式小型、可扩展的实时操作系统,支持多种硬件…

redis哨兵机制详解

文章目录前言监控(Monitoring)自动故障转移(Automatic failover)配置提供者(Configuration provider)通知(Notification)哨兵集群的组建哨兵监控Redis库主库下线的判定主观下线客观下…

ORB-SLAM2原理分析

原理分析 ORB-SLAM2是一种基于单目、双目和RGB-D相机的实时视觉SLAM系统,用于在无GPS信号或有限的传感器信息情况下,构建三维地图并定位相机的位置和姿态。ORB-SLAM2采用了ORB特征点提取和描述符匹配技术,以及图优化和闭环检测算法&#xff…

分布式系统监控zabbix安装部署及使用

目录 一、zabbix监控 1、什么是zabbix 2、zabbix功能 3、zabbix运行机制 4、zabbix的3种架构 ①C/S架构 ②zabbix-proxy-client架构 ③master-zabbix-client架构 5、zabbix工作原理及数据走向 6、zabbix监控模式 7、zabbix部署 8、zabbix图形化页面显示设置 二、Z…

技术复盘(3)--ElasticSearch

技术复盘--ElasticSearch技术复盘(3)--ElasticSearch资料地址概述对比solrwindows下使用esIK分词器介绍es基本命令集成springboot以及调用api技术复盘(3)–ElasticSearch ElasticSearch7.x 资料地址 ElasticSearch官网:https://www.elastic.co/ ElasticSearch-he…

unity3d:网络同步,状态同步,源码,C#服务器demo

协议数据单元 网络同步包最小单元PDU // 预测的基础数据类型 public class PDU { public uint UID; //玩家的唯一id public PDUType type; //PDU类型 public Vector3 position; // 位置 public Vector3 forward; // 朝向 public float speed; // 速度: 速度为…

【STL十一】无序容器(哈希容器)—— unordered_map、unordered_set

【STL十一】无序容器(哈希容器)—— unordered_map、unordered_set一、简介1、关联容器和无序容器不同2、无序容器特点二、头文件三、模板类四、无序容器的内部结构1、管理桶2、内部结构五、unordered_map成员函数1、迭代器2、元素访问3、容量4、修改操作…

CV大模型应用:Grounded-Segment-Anything实现目标分割、检测与风格迁移

Grounded-Segment-Anything实现目标分割、检测与风格迁移 文章目录Grounded-Segment-Anything实现目标分割、检测与风格迁移一、Segment-Anything介绍二、Grounded-Segment-Anything1、简介2、测试一、Segment-Anything介绍 代码链接:https://github.com/facebookr…

Direct3D 12——混合——雾

实现雾化效果的流程如下:如图所示,首先指明雾的颜色、由摄像机到雾气的最近距离以及雾 的分散范围(即从雾到摄像机的最近距离至雾能完全覆盖物体的这段范围),接下来再将网格三角形上点 的颜色置为原色与雾色的加权平均值: foggedC…

Python爬虫之多线程加快爬取速度

之前我们学习了动态翻页我们实现了网页的动态的分页,此时我们可以爬取所有的公开信息了,经过几十个小时的不懈努力,一共获取了 16万 条数据,但是软件的效率实在是有点低了,看了下获取 10 万条数据的时间超过了 56 个小…

【技巧】Word“只读方式”的设置与取消

如果你担心在阅读Word文档的时候,不小心修改并保存了内容,那就给文档设置“只读方式”吧,这样就算不小心做了修改也不能随意保存。 Word文档的“只读方式”有两种模式,对此不清楚的小伙伴,来看看如何设置和取消吧。 模…

第一次作业

作业内容:1,atd和crond的区别 2,指定在2023/08/26 09:00将时间写入testmail.txt文件中 3,指定在每天凌晨4:00将该时间点之前的系统日志信息备份到个目录下(/var/log/messages )&…

华为手表开发:WATCH 3 Pro(17)传感器订阅指南针

华为手表开发:WATCH 3 Pro(17)传感器订阅指南针初环境与设备指南针传感器介绍与说明鸿蒙开发文件夹:文件新增展示的文本标记index.hmlindex.cssindex.js初 希望能写一些简单的教程和案例分享给需要的人 鸿蒙可穿戴开发 环境与设…

二 、Locust自定义用户(场景)

二 、自定义用户(场景) 一个用户类代表了你系统中的一种用户/场景。当你做一个测试运行时,你指定你想模拟的并发用户的数量,Locust将为每个用户创建一个实例。你可以给这些类/实例添加任何你喜欢的属性,但有一些属性对…

蹭ChatGPT热点有风险,昆仑万维蹭热点被发监管函

‍数据智能产业创新服务媒体——聚焦数智 改变商业要说2023年互联网行业最火爆的概念,ChatGPT绝对当仁不让。国外有微软,国内有百度、阿里、商汤、三六零等,各大互联网巨头都对这个概念青睐有加。众多企业纷纷宣布投身赛道,誓要做…

帮助企业应对不确定性,Serverless时代正在来临

近年来层出不穷的“黑天鹅”事件,让越来越多的企业和组织开始高度关注市场的不确定性。为了增强抵御风险的能力,企业纷纷从开拓业务创新、降低生产成本、提高运营效率、提升用户体验及满意度等方面着手,努力提高自身的核心竞争力。在这样的时…

Java集合——List接口学习总结

一、ArrayList实现类 1. 常用方法 增加:add(int index, E element)删除:remove(int index) remove(Object o)修改:set(int index, E element)查看:get(int index)判断:常用遍历方式://List集合 遍历&…

2023MathorCup数模C题思路数据代码论文【全网最全分享】

文章目录赛题思路赛题详情参赛建议(个人见解)选择队友及任务分配问题(重要程度:5星)2023MathorCup数模C题思路数据论文代码【最新】赛题思路 (赛题出来以后第一时间在CSDN分享) 最新进度在文章最下方卡片,…

Atlassian后Server时代 | Server版vs.数据中心版,二者的区别在哪里?

2024年2月,也就是一年不到,Atlassian将终止对Server产品及插件的所有支持。 此公告发布后,许多用户需要了解怎样的前进方向才是最适合企业的。为此,Atlassian提供了本地部署的数据中心(Data Center)版以及云…