基于大数据技术对基金分析-python

news2025/1/22 8:31:12

提示:本文为个人原创,仅供技术探讨与交流,对实际投资并不造成建议。

基于大数据技术对基金分析-python

  • 前言
  • 一、数据获取:python爬虫
    • 1).从天天基金数据接口获取数据
    • 2).爬虫前期准备
    • 3).爬虫具体实现
  • 二、数据清洗及计算指标
    • 1.过滤数据
    • 2.数据字段格式统一
    • 3.计算得出字段now_down、all_win
    • 4.数据清洗具体实现
    • 4.保存数据库
  • 三、数据分析:SQL
    • 1.昨日涨跌幅、近一月涨跌幅、近一年涨幅、仅三年涨幅 top20 => 当前主题行情分析
    • 2.金额总值top50=> 截至2023-6-29最热门抱团方向
    • 3. 3月份后涨跌幅为“- -” => 新发基金封闭期3个月=> 当前基金机构看好的行业板块方向 => 未来抱团方向(?)
    • 4.now_down最小前20 => 数值越小,跌幅越大
    • 5.all_win =>中长期正收益,值得长期持有
  • 总结


前言

在当下热销的基金市场中,有着茫茫多的基金,本文希望能以科学的角度,以数据作为依托,更好地挑选基金
本文共用到以下技术:Python爬虫、SQL分析


本文切入角度:
1.希望做到在相对低的净值买入值得长期持有的基金并定投
2.通过已有的数据了解到当下及未来3个月市场热门的板块(抱团)
3.通过基金的表现及近期情况判断市场方向
基金是T+1交易制度,存在明显的市场时间滞后,不适合像股票一样频繁操作。

一、数据获取:python爬虫

1).从天天基金数据接口获取数据

接入天天基金数据接口(所有基金名称列表代码):http://fund.eastmoney.com/js/fundcode_search.js
部分数据截图:
在这里插入图片描述
从图中数据可以看出,js文件中的数据以列表格式存放,且按照 => (编号、拼音缩写、基金名称、基金类型、拼音 )的顺序排列,因为信息并不完善,所以还需要再爬取每个基金的详细信息

2).爬虫前期准备

通过观察,天天基金的robots规则为:
在这里插入图片描述
每个基金详情页面为
http://fund.eastmoney.com/+基金代号,如下图:
在这里插入图片描述

3).爬虫具体实现

获取唯一编号列表

import requests

def get_req_data(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:100.0) Gecko/20100101 Firefox/100.0',
    }
    res = requests.get(url=url, headers=headers)
    res.encoding = 'utf-8'
    return res.text

def get_code():
    data = get_req_data('http://fund.eastmoney.com/js/fundcode_search.js')
    data_list = data.replace("var r = [", "").replace("];", "").replace("],", "];").split(";")
    mf_codes = []
    for a in data_list:
        mf_list = a.split(",")
        mf_code = mf_list[0].replace("[", "").replace("\"", "")
        mf_codes.append(mf_code)
    return mf_codes

二、数据清洗及计算指标

1.过滤数据

据观察,数据中存在已终止基金或已不更新数据的基金 仅保留:昨日涨跌幅、近一月涨跌幅、近三月涨跌幅、近六月涨跌幅、近一年涨跌幅、近三年涨跌幅%、成立以来涨跌幅 共7个字段中为 “–”(基金运作时间未久会以“–”表示,为正常)和存在“%”的数据

2.数据字段格式统一

(便于后续SQL查询)金额字段统一为:仅保留数值(以亿元为单位)

(便于后续SQL查询)统一涨幅字段:百分比 => double小数,“–” => 0.0

3.计算得出字段now_down、all_win

all_win:将3个月、半年、一年、三年、历史总涨幅为正的基金标记为1 => 从数据层面上看,该基金中长期正收益,值得长期持有并定投
now_down:将同时满足昨日涨跌幅<0,仅一月涨跌幅<0,近半年涨跌幅>0,仅一年涨跌幅>0的基金标记,并计算出昨日跌幅+ 仅一月跌幅作为参数 => 数据层面上判断:该基金长期持有为正收益且当前属于回撤调整期,属于相对低值可入手
在这里插入图片描述

4.数据清洗具体实现

def parse(codes):
    t = len(codes)
    for i in range(0, t, 1000):
        sqlInfo, end = [], i + 1000
        if end > t:
            end = t
        for j in range(i, end):
            url = 'http://fund.eastmoney.com/'+str(codes[j])+'.html'
            response = etree.HTML(get_req_data(url))
            mf_name =response.xpath('//div[@class="fundDetail-tit"]/div[1]/text()')
            check_day = response.xpath('//dl[@class="dataItem02"]/dd[1]/span[1]/text()')
            if len(mf_name) == 0 or len(check_day) == 0:
                continue
            mf_name, mf_num = mf_name[0], codes[j]
            mf_type = response.xpath('//td[contains(text(),"基金类型")]/a/text()')[0]
            mf_money = check_data(response.xpath('//td[contains(text(),"亿元")]/text()')[0].replace(":", "").split("亿")[0])
            mf_manager = response.xpath('//td[contains(text(),"基金经理")]/a/text()')[0]
            mf_all = response.xpath('//div[@class="dataOfFund"]/dl[3]/dd[3]/span[2]/text()')
            worth, rate, day7, all_win, now_down = 0.0, 0.0, 0.0, 0, 0.0
            if len(mf_all) != 0:
                worth = check_data(check_day[0])
                if(worth == 0.0):
                    continue
                rate = check_data(response.xpath('//dl[@class="dataItem02"]/dd[1]/span[2]/text()')[0].replace("%", "")) * 0.01
                mon1 = check_data(response.xpath('//div[@class="dataOfFund"]/dl[1]/dd[2]/span[2]/text()')[0].replace("%", "")) * 0.01
                mon3 = check_data(response.xpath('//div[@class="dataOfFund"]/dl[2]/dd[2]/span[2]/text()')[0].replace("%", "")) * 0.01
                mon6 = check_data(response.xpath('//div[@class="dataOfFund"]/dl[3]/dd[2]/span[2]/text()')[0].replace("%", "")) * 0.01
                mon12 = check_data(response.xpath('//div[@class="dataOfFund"]/dl[1]/dd[3]/span[2]/text()')[0].replace("%", "")) * 0.01
                mon36 = check_data(response.xpath('//div[@class="dataOfFund"]/dl[2]/dd[3]/span[2]/text()')[0].replace("%", "")) * 0.01
                mon_all = check_data(mf_all[0].replace("%", "")) * 0.01
            else:
                day7 = check_data(check_day[0].replace("%", "")) * 0.01
                mon1 = check_data(response.xpath('//div[@class="dataOfFund"]/dl[1]/dd[1]/span[2]/text()')[0].replace("%", "")) * 0.01
                mon3 = check_data(response.xpath('//div[@class="dataOfFund"]/dl[2]/dd[1]/span[2]/text()')[0].replace("%", "")) * 0.01
                mon6 = check_data(response.xpath('//div[@class="dataOfFund"]/dl[3]/dd[1]/span[2]/text()')[0].replace("%", "")) * 0.01
                mon12 = check_data(response.xpath('//div[@class="dataOfFund"]/dl[1]/dd[2]/span[2]/text()')[0].replace("%", "")) * 0.01
                mon36 = check_data(response.xpath('//div[@class="dataOfFund"]/dl[2]/dd[2]/span[2]/text()')[0].replace("%", "")) * 0.01
                mon_all = check_data(response.xpath('//div[@class="dataOfFund"]/dl[3]/dd[2]/span[2]/text()')[0].replace("%", "")) * 0.01
            # all_win:将3个月、半年、一年、三年、历史总涨幅为正的基金标记为1 => 从数据层面上看,该基金中长期正收益,值得长期持有并定投
            if mon3 > 0.0 and mon6 > 0.0 and mon12 > 0.0 and mon36 > 0.0 and mon_all > 0.0:
                all_win = 1
            # now_down:将同时满足昨日涨跌幅 < 0,仅一月涨跌幅 < 0,近半年涨跌幅 > 0, 仅一年涨跌幅 > 0
            # 的基金标记,并计算出昨日跌幅 + 仅一月跌幅作为参数 => 数据层面上判断:该基金长期持有为正收益且当前属于回撤调整期,属于相对低值可入手
            if rate < 0.0 and mon1 < 0.0 and mon6 > 0.0 and mon12 > 0.0 and mon36 > 0.0:
                now_down = (rate + mon1) * 0.01
            sqlInfo.append((mf_name, mf_num, mf_type, float(mf_money), mf_manager, worth, rate, day7, mon1, mon3, mon6, mon12, mon36, mon_all, all_win, now_down))
            print(sqlInfo[-1])
        insert_data(sqlInfo)
      
def check_data(mf):
    if mf == "--":
        mf = 0.0
    return float(mf)

4.保存数据库

def insert_data(sqlInfo):
    # 批量写入数据库, 打开数据库连接
    conn = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='123456', db='fund_money', charset='utf8')
    sql = 'INSERT INTO `fund`(mf_name, mf_num, mf_type, mf_money, mf_manager, mf_worth, mf_rate, mf_day7, mf_mon1 , mf_mon3 , mf_mon6 , mf_mon12, mf_mon36, mf_all, all_win, now_down) ' \
          'VALUES(%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)'

    # 使用 cursor() 方法创建一个游标对象 cursor
    cursor = conn.cursor()
    cursor.executemany(sql, sqlInfo)
    conn.commit()  # 提交
    cursor.close()
    conn.close()

三、数据分析:SQL

1.昨日涨跌幅、近一月涨跌幅、近一年涨幅、仅三年涨幅 top20 => 当前主题行情分析

2.金额总值top50=> 截至2023-6-29最热门抱团方向

在这里插入图片描述

3. 3月份后涨跌幅为“- -” => 新发基金封闭期3个月=> 当前基金机构看好的行业板块方向 => 未来抱团方向(?)

4.now_down最小前20 => 数值越小,跌幅越大

SELECT * FROM `fund` ORDER BY now_down, mf_mon1 LIMIT 20;

在这里插入图片描述

5.all_win =>中长期正收益,值得长期持有

总结

完整代码
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/699988.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

高性能计算工程师工资一般多少?

由于近两年深度学习的迅速崛起&#xff0c;超算互联网的普及以及AIGC的大规模应用&#xff0c;各行各业对高性能计算工程师的需求大涨&#xff0c;因此高性能计算工程师的工资也在逐年上涨中&#xff0c;并频频爆发抢人大战。 甚至年薪百万依然难以招到合适的人才。 有很多大厂…

Android JetPack 深入分析ViewModel源码

文章目录 前言源码分析ViewModel是如何创建的&#xff1f;ViewModelProvider(this)做了什么&#xff1f;小结 get(MyViewModel::class.java)做了什么&#xff1f;小结 ViewModel是如何实现配置更改后数据恢复的&#xff1f;整体时序图 结语 前言 本文主要分析ViewModel相关源码…

如何提高项目估算精准度 关键看3方面

项目估算非常重要&#xff0c;这直接关系着项目的成本和收入&#xff0c;如果估算不准确&#xff0c;将为项目带来较大风险。一般软件规模可以用多种方式进行估算&#xff0c;但是用功能点估算方式更准确&#xff0c;而自动估算让估算更快速&#xff0c;我们以CoCode需求分析工…

ChatGpt能够用来做什么

作为计算机从业人员&#xff0c;chatgpt能够从多方面提高大家的工作效率&#xff0c;主要包括以下几点&#xff1a; 技术问题解答&#xff1a;当遇到技术问题时&#xff0c;可以向ChatGPT提问并获取解答。ChatGPT可以提供相关的知识、文档和示例代码&#xff0c;帮助程序员快速…

vue2封装单张图片上传(常用于身份证正反面)

一.实现效果 二.入参 props: {defaultImg: {//默认位置的照片type: String,default: "",},uploadWidth: {//照片框的宽度type: String,default: "148px",},}, 另外如果修改了宽度的话&#xff0c;在外部组件需要用scss重写一下样式 /deep/ .el-upload-lis…

芯片中的上百亿个晶体管是如何设计的?

2021年4月21日&#xff0c;在芯片界的顶级会议Hot Chips大会上&#xff0c;Cerebras Systems公司发布了一款晶圆级引擎芯片——Wafer Scale Engine 2。 这款芯片采用台积电7纳米工艺制程&#xff0c;拥有85万个AI核心&#xff0c;包含2.6万亿个晶体管&#xff0c;面积为46225平…

Linux8.进程(中)(状态)

1.grep -v 关键字a :不显示关键字a匹配的信息。 2.进程状态 :新建&#xff0c;就绪&#xff0c;阻塞&#xff0c;挂起&#xff0c;执行&#xff0c;终止。 运行 : task_struct结构体在运行队列中排队&#xff0c;这就叫做运行态。 阻塞 :等待非CPU资源(磁盘&#xff0c;网卡…

科技云报道:公有云内卷时代,青云的新想象力在哪?

科技云报道原创。 2023年接踵而至的价格战&#xff0c;将国内公有云的竞争力度再次拉满。阿里云、腾讯云、京东云、移动云带头降价&#xff0c;也将寒意传导给了更多腰部云服务商。毫无疑问&#xff0c;这是一场对云服务商的残酷考验。 在公有云高度内卷的阶段&#xff0c;以…

kaggle新赛:肾脏血管分割大赛赛题解析(CV)

用AI为医疗贡献一份力量&#xff0c;从加入本次竞赛开始&#xff01; 赛题名称&#xff1a;HuBMAP - Hacking the Human Vasculature 从人肾组织切片中分割微血管结构 赛题链接&#xff1a;https://www.kaggle.com/competitions/hubmap-hacking-the-human-vasculature 赛题背…

java 正则表达式总结

目录 一、简介 二、源码分析 1.简单实例 : 2.底层实现 : 1 fund()方法 2 group(0/1)方法 (1)group(0): (2)group(1): 三、 基本语法 1.元字符介绍 : 2.元字符—字符匹配符 : Δ代码演示 3.关于字母大小写问题 : Δ代码演示 4.元字符—定位符 : 1 定义 2 常用定位符 3…

图简介-数据结构和算法教程

介绍 图是由顶点和边组成的非线性数据结构。顶点有时也被称为节点&#xff0c;并且边是连接图中的任何两个节点的线或弧。更正式地说&#xff0c;一个图是由一组顶点&#xff08;V&#xff09;和一组边&#xff08;E&#xff09;组成的。该图表示为G&#xff08;V&#xff0c;…

Win11的两个实用技巧系列之亮度条消的解决办法

Win11更新后无法调节亮度怎么办 Win11亮度条消的解决办法 Win11更新后无法调节亮度怎么办&#xff1f;win11系统升级以后&#xff0c;发现屏幕亮度不能调节&#xff0c;没有亮度调节按钮了&#xff0c;下面我们就来看看Win11亮度条消的解决办法 电脑更新后&#xff0c;亮度条消…

如何设计可以动态扩容缩容的分库分表方案?

对于分库分表来说&#xff0c;主要是面对以下问题&#xff1a; 选择一个数据库中间件&#xff0c;调研、学习、测试&#xff1b;设计你的分库分表的一个方案&#xff0c;你要分成多少个库&#xff0c;每个库分成多少个表&#xff0c;比如 3 个库&#xff0c; 每个库 4 个表&am…

SpringSecurity(五):前后端分离认证总结案例。

前后端分离认证总结案例 前言难点分析Controller层eneity层RoleUser dao层service层config层LoginFilterSecurityConfig resourcesmapper propertiespom.xml结尾 前言 和上一篇一样&#xff0c;从上倒下复制粘贴&#xff0c;所有代码贴完再运行&#xff0c;代码没有问题&#…

初步学习使用SpringBoot框架(手动插入数据模拟访问数据库)

对于SpringBoot框架介绍大家可以看看这个这篇文章&#xff0c;SpringBoot优缺点以及如何安装使用 以下我是按照老师给的安装方法进行安装使用SpringBoot框架&#xff1a; 大家安装SpringBoot框架时候&#xff0c;最好安装3.0以下的&#xff0c;不然需要对应较高版本的JDK版本&…

【Axure教程】拖动调整行高列宽的表格

表格是在系统软件中非常常用的工具。表格通常由行和列组成&#xff0c;用于以结构化的方式显示和组织数据。它们在各种场景中都有广泛的应用&#xff0c;包括数据分析、数据录入、报表生成、项目管理和数据可视化等领域。 今天作者就教大家如何在Axure里制作一个能通过鼠标拖动…

阿里巴巴最新 SpringCloudAlibaba 学习笔记,全程通俗易懂,一套搞懂!

Spring Cloud Alibaba 致力于提供微服务开发的一站式解决方案。此项目包含开发分布式应用微服务的必需组件&#xff0c;依托 Spring Cloud Alibaba&#xff0c;只需要添加一些注解和少量配置&#xff0c;就可以将 Spring Cloud 应用接入阿里微服务解决方案&#xff0c;通过阿里…

Visual C++中函数的覆盖和函数的隐藏

我是荔园微风&#xff0c;作为一名在IT界整整25年的老兵&#xff0c;今天来聊聊Visual C中函数的覆盖和函数的隐藏。 Visual C中函数的覆盖和函数的隐藏与JAVA有很大不同&#xff0c;有些容易搞错的点和概念&#xff0c;我们要特别注意。 首先&#xff0c;先满足一下急性子的…

【刷题笔记——链表专栏】牛客网:合并两个排序链表

【刷题笔记——链表专栏】牛客网&#xff1a;合并两个排序链表 一、题目描述 二、思路分析 1、创建新的头节点newHead&#xff08;注意这一步&#xff09; 2、循环遍历pHead1和pHead2并进行链表并进行合并&#xff0c;直到pHead1和pHead2其中有一个为null时结束循环 3、合并完…

Win10,Win11玩游戏找不到d3dx9怎么解决

相信有些朋友遇到了d3dx9_42.dll丢失的情况不知道怎么解决&#xff0c;而今日小编带来的这篇文章就是讲解关于d3dx9_42.dll丢失进行修复的操作内容&#xff0c;d3dx9_42.dll丢失怎么解决&#xff1f;&#xff08;修复方法&#xff09;d3dx9 42.dll文件是DirectX中必备文件,许多…