python解析帆软cpt及frm文件(xml)获取源数据表及下游依赖表

news2024/9/22 19:38:56
#!/user/bin/evn python
import os,re,openpyxl
'''
    输入:帆软脚本文件路径
    输出:帆软文件检查结果Excel
'''
#获取来源表
def table_scan(sql_str):
    # remove the /* */ comments

    q = re.sub(r"/\*[^*]*\*+(?:[^*/][^*]*\*+)*/", "", sql_str)
    # remove whole line -- and # comments
    lines = [line for line in q.splitlines() if not re.match("^\s*(--|#)", line)]
    # print(q)
    # remove trailing -- and # comments
    q = " ".join([re.split("--|#", line)[0] for line in lines])

    # split on blanks, parens and semicolons
    tokens = re.split(r"[\s)(;]+", q)

    # scan the tokens. if we see a FROM or JOIN, we set the get_next
    # flag, and grab the next one (unless it's SELECT).

    result = []
    get_next = False
    for token in tokens:
        if get_next:
            if token.lower() not in ["", "select"]:
                result.append(token)
            get_next = False
        get_next = token.lower() in ["from", "join"]

    return result

#【文件扫描,使用正则解析第一版,准确性不太高!】
def file_scan(path):
    f_content=open(path,'r',encoding='utf-8').read()

    #1、数据集查询
    sqlgpat=re.compile('<TableDataMap>(.*?)</TableDataMap>',re.S)
    if_has_sqlg=re.findall(sqlgpat,f_content)
    rs_sql_list=[]
    if if_has_sqlg:
        #获取数据集名称以及数据集查询语句
        sqlspat=re.compile('<TableData name="(.*?)".*?<DatabaseName>\n<!\[CDATA\[(.*?)]]></DatabaseName>.*?<Query>\n<!\[CDATA\[(.*?)]]></Query>.*?</TableData>',re.S)
        rs1=re.findall(sqlspat,if_has_sqlg[0])
        for rsv in rs1:
            from_tables=[]
            if '"*/"' in rsv[1]:
                sql=rsv[1].split('*/')
                for ss in sql:
                    from_tables.extend(table_scan(ss))
            else:
                from_tables.extend(table_scan(rsv[2]))
            rs_sql_list.append([rsv[0],rsv[1],rsv[2],set(from_tables)])
            # print(rsv[1])

    #2、js获取
    if_has_jsgpat=re.compile('<NameJavaScript name="(.*?)</NameJavaScript>',re.S)
    if_has_jsg=re.findall(if_has_jsgpat, f_content)
    rep_list = []  # 报表列表,去重
    if if_has_jsg:
        for jscon in if_has_jsg:
            # conturlpat=re.compile('<Content>.*?var\surl\s=.*?viewlet=(.*?.[cptfrm]{3})&.*?</Content>',re.S)
            conturlpat = re.compile('<Content>.*?viewlet=(.*?[cptfrm]{3})[&?].*?</Content>', re.S)

            if '<JavaScript class="com.fr.js.ReportletHyperlink">' in jscon:
                # rlpat=re.compile('<ReportletName extendParameters="true" showPI="true">\s<!\[CDATA\[(.*?)]]></ReportletName>',re.S)
                rlpat = re.compile( '<ReportletName .*?\[CDATA\[(.*?)]]></ReportletName>', re.S)

                rl=re.findall(rlpat,jscon)[0]
                # print(re.findall(rlpat,jscon))
                if rl not in rep_list:
                    rep_list.append(rl)
            elif '<JavaScript class="com.fr.js.WebHyperlink">' in jscon:
                wlpat=re.compile('<URL>\s<!\[CDATA\[(.*?)]]></URL>',re.S)
                wl=re.findall(wlpat,jscon)[0]
                if wl not in rep_list:
                    rep_list.append(wl)
            elif re.search(conturlpat,jscon):
                frl=re.findall(conturlpat,jscon)[0]
                print(frl)
                if not frl.startswith('/'):
                    frl='/'+frl
                if frl not in rep_list:
                    rep_list.append(frl)
            # elif '<JavaScript class="com.fr.js.JavaScriptImpl">'in jscon and('.cpt' in jscon or '.frm' in jscon) :
            #     print(jscon)

    if_has_cljpat=re.compile(r'<RHIframeSource.*?<Attr path="(.*?[cptfrm]{3}).*?</RHIframeSource>',re.S)
    f_has_clj=re.findall(if_has_cljpat,f_content)
    if f_has_clj:
        for v in f_has_clj:
            if v not in rep_list:
                rep_list.append(v)
    # print(rep_list)
    return rep_list,rs_sql_list

#使用xml解析精准获取,解析升级版
def xml_scan(path):
    import xml.etree.ElementTree as ET
    tree = ET.parse(path)  # 打开xml文件

    dataset_iters = []  # 数据集名称,数据集数据库链接名,数据集查询语句,数据集来源sql表
    if list(tree.getroot().iter("TableDataMap")):
        # 数据集TableDataMap父节点
        table_map_content = list(tree.getroot().iter("TableDataMap"))[0]
        # 获取数据集查询名称
        dataset_iters_map = table_map_content.iter('TableData')
        for val in dataset_iters_map:
            # print('查询名称--',val.attrib.get("name"))
            dataset_name = val.attrib.get("name").strip()
            if len(list(val.iter("DatabaseName"))):
                # 帆软目前一个数据集查询框只能链接单个数据库,所以获取数据库链接名只有1个
                # print('查询数据库链接名--', list(val.iter("DatabaseName"))[0].text.strip())
                dataset_connect_name = list(val.iter("DatabaseName"))[0].text.strip()
            else:
                # print('查询数据库链接名--',None)
                dataset_connect_name = None
            if len(list(val.iter("Query"))):
                # 帆软目前一个数据集查询框只能链接单个数据库,所以获取数据库链接名只有1个,且只有一个sql查询窗口内容
                # print('查询数据查询语句--', list(val.iter("Query"))[0].text.strip())
                dataset_query = list(val.iter("Query"))[0].text.strip()
                from_tables = []
                if '"*/"' in dataset_query:
                    sql = dataset_query.split('*/')
                    for ss in sql:
                        from_tables.extend(table_scan(ss))
                else:
                    from_tables.extend(table_scan(dataset_query))

            else:
                # print('查询数据查询语句--', None)
                dataset_query = None
                from_tables=[]
            dataset_iters.append([dataset_name, dataset_connect_name, dataset_query,from_tables])

    urls = set()  # 报表全体下游调用URL集合
    js_contents = []  # js内容,内容清洗出来的URL,用于核对数据清洗是否准确

    # print(len(list(tree.iter("ReportletName"))))#js链接报表-网格报表-本地服务器
    local_url = [v.text.strip() for v in tree.iter("ReportletName")]
    if local_url:
        urls.update(local_url)

    # print(len(list(tree.iter("URL"))))  # js链接报表-网格报表-远程web链接
    web_url = [v.text.strip() for v in tree.iter("URL")]
    if web_url:
        urls.update(web_url)

    # print(len(list(val.iter("RHIframeSource"))))# js链接报表-tab框架挂载报表
    for v in tree.iter("RHIframeSource"):
        webframe_url = list(v.iter("Attr"))[0].attrib.get("path")
        # 去除URL尾巴参数
        if webframe_url and not webframe_url.endswith("frm") and not webframe_url.endswith("cpt"):

            rpat = re.compile(r'.*?[cptfrm]{3}', re.I)
            webframe_url = re.findall(rpat, webframe_url)[0]
            urls.update([webframe_url])
        elif webframe_url:
            urls.update([webframe_url])

            # print(len(list(val.iter("Content"))))
    for cv in list(tree.iter("Content")):
        contents = cv.text
        temp_url = []
        # print(contents)
        http_ul_pat = re.compile(r'"(http.*?)"') #js内容里面挂载web超链接
        local_ul_pat = re.compile(r'viewlet=(.*?[cptfrm]{3})')#js内容里面挂载服务器本地绝对路径报表链接
        # print(re.findall(http_ul_pat,contents))
        # print(re.findall(local_ul_pat, contents))
        if re.findall(http_ul_pat, contents):
            urls.update(re.findall(http_ul_pat, contents))
            temp_url.extend(re.findall(http_ul_pat, contents))


        if re.findall(local_ul_pat, contents):
            # print(re.findall(local_ul_pat, contents))
            #处理挂载服务器本地链接路径,有些挂载绝对目录不规范a/b/c.cpt处理后输出/a/b/c.cpt
            for vl in re.findall(local_ul_pat, contents):
                if vl.startswith('/'):
                    urls.update([vl])
                    temp_url.append(vl)
                else:
                    urls.update(['/'+vl])
                    temp_url.append('/'+vl)

        js_contents.append([contents, temp_url])
    # print(js_contents)
    return dataset_iters,urls,js_contents

def write_excel(list_tar,file_path):
    wb = openpyxl.Workbook()  # 新建工作簿
    sheet0=wb[wb.sheetnames[0]]
    sheet0.title=('引用报表列表')
    sheet1 = wb.create_sheet('来源mysql表')
    sheet2 = wb.create_sheet('帆软数据集查询及依赖明细')
    sheet3 = wb.create_sheet('帆软JS内容明细')

    sheet0['A1'] = '文件名'
    sheet0['B1'] = '依赖报表'
    sheet1['A1'] = '文件名'
    sheet1['B1'] = '依赖mysql表'

    sheet2['A1'] = '文件名'
    sheet2['B1'] = '数据集查询名称'
    sheet2['C1'] = '数据库链接名称'
    sheet2['D1'] = '数据集查询语句'
    sheet2['E1'] = '数据来源mysql表'

    sheet3['A1'] = '文件名'
    sheet3['B1'] = 'JS内容'
    sheet3['C1'] = 'JS解析URL'

    r=1
    k=1
    d=1
    x=1
    for index,item in enumerate(list_tar):
        print(('开始处理第 '+str(index+1)+' 个文件结果,共 '+str(len(list_tar))+' 个').center(50,'-'))
        # filename,dataset_iters, urls, js_contents
        # dataset_iters = []  # 数据集名称,数据集数据库链接名,数据集查询语句,数据集来源sql表
        target_file_name=item[0]
        cpt=item[2]
        sql=item[1]
        jsc=item[3]

        for id1,value in enumerate(sorted(cpt)):
            r=r+1
            sheet0.cell(row=r, column=1, value=target_file_name)
            sheet0.cell(row=r, column=2, value=value)

        sql_set=set()
        for id1,val in enumerate(sql):
            k = k + 1
            sql_set.update(val[3])
            sheet2.cell(row=k, column=1, value=target_file_name)
            sheet2.cell(row=k, column=2, value=val[0])
            sheet2.cell(row=k, column=3, value=val[1])
            sheet2.cell(row=k, column=4, value=val[2])
            sheet2.cell(row=k, column=5, value='\n'.join(val[3]))

        for id1,value in enumerate(sorted(sql_set)):
            d = d + 1
            sheet1.cell(row=d, column=1, value=target_file_name)
            sheet1.cell(row=d, column=2, value=value)

        for id1, value in enumerate(sorted(jsc)):
            if value[0] or value[1]:
                x = x +1
                sheet3.cell(row=x, column=1, value=target_file_name)
                sheet3.cell(row=x, column=2, value=value[0])
                sheet3.cell(row=x, column=3, value='\n'.join(value[1]))

    wb.save(file_path)
    wb.close() # excel使用完成需要关闭,否则会报错

def main_scan(fr_path,result_path):
    rs_list=[]
    for index,file_name in enumerate(os.listdir(fr_path)):
        print(('正在扫描第 '+str(index+1)+' 个文件,共 '+str(len(os.listdir(fr_path)))+' 个文件').center(50,'-'))
        try:
            dataset_iters,urls,js_contents = xml_scan(os.path.join(fr_path,file_name))
            rs_list.append([file_name,dataset_iters,urls,js_contents])
        except:
            print('【文件扫描失败】:',file_name)
    print('文件扫描完毕,正在写入Excel'.ljust(50,'-'))
    write_excel(rs_list, result_path)


if __name__ == '__main__':
    #帆软扫描文件夹绝对路径
    fr_path=r'C:\FineReport_10.0\webapps\webroot\WEB-INF\reportlets\mytest\'
   

    #帆软扫描结果文件绝对路径
    result_path=r'C:\FineReport_10.0\webapps\webroot\WEB-INF\reportlets\scaning_result.xlsx'
    main_scan(fr_path, result_path)

运行结果

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/823967.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux中的file命令:查看文件类型

2023年8月1日&#xff0c;周二上午 目录 简要说明使用方法MIME类型举例说明 简要说明 在Linux中&#xff0c;file命令用于识别文件类型。 file命令可以识别各种类型的文件&#xff0c;包括普通文件、目录、符号链接、设备文件、压缩文件、二进制可执行文件等。 它是一个非常…

Vue 入门和基础语法(一)

一、入门 Vue 不支持 IE8 及以下的版本&#xff0c;因为 Vue 使用了 IE8 无法模拟的 ECMAScript 5 特性&#xff0c;但它支持所有兼容 ECMAScript 5 的浏览器。 1.1、创建 Hello Vue Vue.js 的核心是实现了 MVVM 模式&#xff0c;它扮演的角色就是 ViewModel 层&#xff0c;那…

ChatGPT安全技术

前言 近期&#xff0c;Twitter 博主 lauriewired 声称他发现了一种新的 ChatGPT"越狱"技术&#xff0c;可以绕过 OpenAI 的审查过滤系统&#xff0c;让 ChatGPT 干坏事&#xff0c;如生成勒索软件、键盘记录器等恶意软件。 他利用了人脑的一种"Typoglycemia&q…

Github Pages自定义域名

Github Pages自定义域名 当你想在网上发布内容时&#xff0c;配置Github Pages是一个很好的选择。如果你想要在自己的域名上发布&#xff0c;你可以使用Github Pages来创建自己的网站。本文将介绍如何使用Github Pages自定义域名。 这里呢先列出前置条件&#xff1a; 您的Gi…

【二进制安全】堆漏洞:Double Free原理

参考&#xff1a;https://www.anquanke.com/post/id/241598 次要参考&#xff1a;https://xz.aliyun.com/t/6342 malloc_chunk 的源码如下&#xff1a; struct malloc_chunk { INTERNAL_SIZE_T prev_size; /*前一个chunk的大小*/ INTERNAL_SIZE_T size; /*当前chunk的…

偶数科技亮相第十届中国中小企业投融资交易会

第十届中国中小企业投融资交易会暨2023“小企业 大梦想”高峰论坛近日在北京举办。本届大会以“金融活水精准滴灌 专精特新体制增量”为主题&#xff0c;通过展览展示、论坛活动、项目路演、产融对接等形式&#xff0c;搭建了专精特新企业与金融机构之间、与地方政府之间的产融…

深入理解CountDownLatch计数器

入理解CountDownLatch计数器 其他知识点 Java 多线程基础 深入理解aqs ReentrantLock用法详解 深入理解信号量Semaphore 深入理解并发三大特性 并发编程之深入理解CAS 深入理解CountDownLatch Java 线程池 使用用法 CountDownLatch用法详解 CountDownLatch实现原理 下面例子来…

vscode 前端开发插件 2023

自己记录 安装vscode后必装插件 chinesegit 必装没啥可说 随时更新 1.CSS Navigation CTRL点击类名可跳转到对应样式位置。 如果是scss less的话。css peak插件无法生效 2.GitLens — Git supercharged 可以看到每一行的git提交记录。 3.Auto Rename Tag 可以同步更新…

阿里云服务器上通过宝塔面板部署SpringBoot+vue项目并添加ssl证书实现https加密传输

前言&#xff1a;如果只想要实现域名访问&#xff0c;不必添加ssl证书的话可以看我上一篇文章前期工作&#xff1a; 一台服务器一个已经备案的域名&#xff08;需要大概一周才能备案完成&#xff0c;可提前准备&#xff09;域名映射到服务器申请两份ssl证书(我的方案:阿里云腾…

Xilinx A7开发板LVDS IO无输出问题解决方法

使用A7-35T FGG484的FPGA开发板bank16上的IO作为差分LVDS的输入输出&#xff0c;搭建输入输出测试工程发现LVDS可以输入、无法输出。查阅UG471&#xff0c;找到如下信息&#xff1a; 手册中已经针对A7的LVDS做了明确的应用说明&#xff1a; &#xff08;1&#xff09;HP bank上…

通向架构师的道路之apache性能调优

一、总结前一天的学习 在前两天的学习中我们知道、了解并掌握了Web Server结合App Server实现单向Https的这样的一个架构。这个架构是一个非常基础的J2ee工程上线布署时的一种架构。在前两天的教程中&#xff0c;还讲述了Http服务 器、App Server的最基本安全配置&#xff08;…

PDM系统有什么好处之数据高效管理

在当今信息化时代&#xff0c;企业面对海量的产品数据和信息&#xff0c;如何高效地管理这些数据成为了关键问题。而PDM系统&#xff08;Product Data Management&#xff0c;产品数据管理&#xff09;以其强大的数据高效管理功能&#xff0c;为企业带来了诸多好处。我们以最新…

使用DeferredResult来设计异步接口

文章目录 DeferredResult 介绍思路Demo搭建1.定义一个抽象的请求体2.定义一个接口返回体3.定义一个接口请求体继承抽象类AsynTaskBaseRequest<T<T>>4.定义seveice类&#xff0c;并声明一个异步方法&#xff08;Async注解&#xff09;5.定义一个返回DeferredResult的…

助力618-Y的混沌实践之路 | 京东云技术团队

一、写在前面 1、混沌是什么&#xff1f; 混沌工程&#xff08;Chaos Engineering&#xff09;的概念由 Netflix 在 2010 年提出&#xff0c;通过主动向系统中引入异常状态&#xff0c;并根据系统在各种压力下的行为表现确定优化策略&#xff0c;是保障系统稳定性的新型手段。…

【简单认识rsync远程同步】

文章目录 一.rsync1、简介2.rsync应用场景3、 rsyncinotify的应用场景4、 rsynccron的应用场景 二.配置rsync备份源&#xff08;同步方式&#xff09;1.rsync同步源2.同步方式3.备份的方式 三.常用rsync命令3.配置源的两种表达 四、配置rsync实现同步1.使用ip表达式同步2.使用u…

【WebRTC---序篇】(七)RTC多人连麦方案

服务端可以选择mediasoup&#xff0c;作为SFU服务器&#xff0c;只负责转发数据 下图举例三个Client (browser或者客户端)同时加入一个房间&#xff0c;每个app同时发布一路视频和一路音频&#xff0c;并且接受来自其他app的音视频流&#xff0c;mediasoup内部的结构如下&…

Docker快速入门笔记

Docker快速入门 前言 当今软件开发领域的一股热潮正在迅速兴起&#xff0c;它融合了便捷性、灵活性和可移植性&#xff0c;让开发者们欣喜若狂。它就是 Docker&#xff01;无论你是一个初学者&#xff0c;还是一位经验丰富的开发者&#xff0c;都不能错过这个引领技术浪潮的工…

【Git】多人协作-多分支协作

文章目录 准备工作多人协作场景2-多分支协作补充&#xff1a;关于建立连接 远程分⽀删除后&#xff0c;本地依然能看到的解决办法 准备工作 在windosw环境下&#xff0c;再克隆同一个项目仓库&#xff0c;模拟一起协作开发的小伙伴 到此&#xff0c;相当于有了两个⽤⼾&#x…

344.翻转字符串+387.字符串中的第一个唯一字符

目录 一、翻转字符串 二、字符串中的第一个唯一字符 一、翻转字符串 344. 反转字符串 - 力扣&#xff08;LeetCode&#xff09; class Solution { public:void reverseString(vector<char>& s) {int start0;int end s.size()-1;while(start < end){swap(s[sta…

超详细!Jmeter性能测试

前言 性能测试是一个全栈工程师/架构师必会的技能之一&#xff0c;只有学会性能测试&#xff0c;才能根据得到的测试报告进行分析&#xff0c;找到系统性能的瓶颈所在&#xff0c;而这也是优化架构设计中重要的依据。 测试流程&#xff1a; 需求分析→环境搭建→测试计划→脚…