通过 Python 爬虫提高股票选股胜率

news2025/3/18 19:31:28

此贴为Python爬虫技术学习贴

在股票中,即便有了选股规则,从5000多只股票中筛选出符合规则的股票也是十分困难的,于是想通过爬虫来实现自动化的快速选股。全文用GP代替股票

实现方案

1、指定两套规则,第一套弱约束,第二套强约束

2、每天3点收盘后,使用弱约束条件,筛一次全量的GP池,筛出的GP作为第二天的GP筛选池使用

3、集合竞价结束,9点25分,使用强约束,从前一天收盘后选出的GP池中进一步筛选,选出当日股票(通过不断优化强弱约束条件,此时选出的GP拥有高胜率)

我的约束(自己研究的规则,因人而异)

弱约束:收盘后,整体趋势向上,筹码集中度高

强约束:当天竞价完成后,竞价强势,交易量大,竞价涨跌幅大,等规则

爬虫实现

用到的是python中的akshare,ak中有很多数据接口,调用出来很方便,作为ak的补充,如果有些功能ak不具备,就需要手写请求,从东财、新浪财经等这些网站上抓取数据,手写请求一般会用到selenium,模拟通过浏览器访问(因为数据在这些网站上都是动态的,无法直接通过request请求到数据,使用selenium更方便)

运行环境

Python 3.10

requests~=2.32.3
akshare~=1.15.83
pandas~=2.2.3
selenium~=4.28.1
bs4~=0.0.2
beautifulsoup4~=4.12.3
APScheduler~=3.11.0

实现代码(部分)

1、通过selenium配置浏览器

# 设置 Chrome 配置
chrome_options = Options()
chrome_options.add_argument("--headless")  # 无头模式,不打开浏览器窗口
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

# 启动 Chrome 浏览器
service = Service(CHROME_DRIVER_URL)  # 替换为 chromedriver 的路径
driver = webdriver.Chrome(service=service, options=chrome_options)

2、获取筹码集中度

# 取90%筹码集中度
def get_ChouMa_Jizhongdu(driver, code):
    url = 'https://quote.eastmoney.com/concept/' + exchange_detector(code) + code + '.html#chart-k-cyq'

    # 打开网页
    driver.get(url)

    # 获取整个页面的文本
    try:
        # 获取分钟竞价情况
        app_element = driver.find_element(By.ID, 'app')
        maincharts_ele = app_element.find_element(By.CLASS_NAME, 'maincharts').text
        match = re.search(r'90%成本:.*?集中度:\s*(\d+\.\d+)%', maincharts_ele, re.DOTALL)
        if match:
            concentration_value = match.group(1)
            return float(concentration_value)
        else:
            return -1
    except Exception as e:
        print(f"发生错误: {e}")
        return -1

3、获取某只GP所在行业

def get_hangye(code):
    try:
        # test = ak.stock_individual_info_em(symbol=code)
        hy = ak.stock_individual_info_em(symbol=code).value[6]
        return hy
    except Exception as e:
        print(f"发生错误: {e}")
        return "未获取"

4、获取均线,用于判断整体走势

def get_today_ma(stock_code="000001", ma_periods=[5, 10, 20, 60]):
    """
    获取股票当日均线价格
    :param stock_code: 股票代码(默认示例代码为平安银行 "000001")
    :param ma_periods: 均线周期列表(默认计算 5、10、20、60 日均线)
    :return: 当日均线值的字典(若当日无数据,返回前一个交易日均线)
    """
    # 获取股票历史行情数据(调整为最近 120 个交易日,确保足够计算长期均线)
    df = ak.stock_zh_a_hist(symbol=stock_code, period="daily", adjust="qfq", timeout=(5, 10)).iloc[-120:]

    # 检查数据是否为空
    if df.empty:
        raise ValueError("未获取到股票数据,请检查代码或网络连接")

    # 计算均线
    for period in ma_periods:
        df[f'MA{period}'] = df['收盘'].rolling(window=period).mean()

    # 获取最新数据(当日或最近交易日)
    latest_data = df.iloc[-1]

    # 提取均线值
    ma_values = {
        f'MA{period}': round(latest_data[f'MA{period}'], 2)
        for period in ma_periods
    }

    return ma_values

5、获取某只GP今日开盘、昨日收盘情况

def get_today_open_and_yesterday_close(stock_code="000001"):
    """
    获取股票今日开盘价和昨日收盘价
    :param stock_code: 股票代码(默认示例代码为平安银行 "000001")
    :return: 今日开盘价和昨日收盘价的字典
    """

    # 获取历史行情数据(最近两个交易日)
    hist_data = ak.stock_zh_a_hist(symbol=stock_code, period="daily", adjust="qfq", timeout=(5, 10)).iloc[-2:]

    # 检查历史数据是否为空
    if hist_data.empty:
        raise ValueError(f"未找到股票代码为 {stock_code} 的历史数据")

    # 获取昨日收盘价
    yesterday_close = hist_data.iloc[0]["收盘"]
    today_open = hist_data.iloc[1]["开盘"]
    ratio = hist_data.iloc[1]["涨跌幅"]
    today_close = hist_data.iloc[1]["收盘"]

    return {
        "今开": today_open,
        "昨收": yesterday_close,
        "涨跌幅": ratio,
        "今收": today_close
    }

6、获取实时委差

def get_weicha(code, driver):
    symbol = code
    url = f'https://finance.sina.com.cn/realstock/company/{exchange_detector(symbol)}{symbol}/nc.shtml'
    # 打开网页
    driver.get(url)
    # 获取整个页面的文本
    try:
        # 获取竞价情况
        tabfive_element = driver.find_element(By.ID, 'fiveAmt')
        value = tabfive_element.text
        return int(value)
    except Exception as e:
        print(f"发生错误: {e}")
        return -1

7、获取9:25分的竞价量能

def get_ln(code, driver, today_date):
    symbol = code
    url = 'https://vip.stock.finance.sina.com.cn/quotes_service/view/vMS_tradedetail.php?symbol=' + exchange_detector(
        symbol) + symbol + '&date=' + today_date + '&page=' + str(get_page_num(symbol, today_date))
    # 打开网页
    driver.get(url)
    # 获取整个页面的文本
    try:
        # 获取竞价情况
        tbody_element = driver.find_element(By.CLASS_NAME, 'dataOuter').find_element(By.TAG_NAME, 'tbody')
        last_tr = tbody_element.find_elements(By.TAG_NAME, 'tr')[-1].get_attribute('innerHTML')
        print(last_tr)
        # 使用字符串的split方法分割数据
        parts = last_tr.split("<td>")
        # 获取第5个<td>中的数据(索引为4,因为索引从0开始)
        value = parts[4].split("</td>")[0]
        return int(value)
    except Exception as e:
        print(f"发生错误: {e}")
        return -1

8、获取实时GP涨跌幅排序

def get_page(url):
    try:
        response = requests.get(url)
        return response.text
    except requests.ConnectionError as e:
        print('', e.args)


# 获取股票代码、名称、PE,最高价,最小价,市净率,市盈率
def get_stock_data(text):
    # .* ?"f9": (?P < pe >.+?) 匹配市盈率  .*?"f23":(?P<pb>.+?) 匹配市净率 ,注意需要按照f1,f2...这样的顺序
    com = re.compile(
        '"f2":(?P<end>.+?),.*?"f6":(?P<volume>.+?),.*?"f9":(?P<pe>.+?),.*?"f12":(?P<number>.+?),.*?"f14":(?P<name>.+?)'
        ',.*?"f15":(?P<max>.+?),.*?"f16":(?P<min>.+?),.*?"f17":(?P<start>.+?),.*?"f23":(?P<pb>.+?),.*?"f24":(?P<a>.+?)',
        re.S)

    ret = com.finditer(text)
    for i in ret:
        yield {
            'number': i.group('number'),
            'name': i.group('name'),
            'start': i.group('start'),
            'max': i.group('max'),
            'min': i.group('min'),
            'end': i.group('end'),

            'pe': i.group('pe'),  # 解析获取市盈率
            'pb': i.group('pb'),  # 解析市净率

            'a': i.group('a'),
            'volume': i.group('volume')

        }


# 开始页码,和结束解码
def get_code_pe(start=1, end=1):
    # 将所有的股票代码放入列表中
    b = []
    for i in range(start, end + 1):
        url = 'http://60.push2.eastmoney.com/api/qt/clist/get?cb=jQuery112408744624686429123_1578798932591&pn=' \
              '%d&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&fid=f3&fs=m:0+t:6,m:0+t:13,m:' \
              '0+t:80,m:1+t:2,m:1+t:23&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,' \
              'f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1586266306109' % i
        content = get_page(url=url)
        data = get_stock_data(text=content)

        for j in data:
            # 定义获取股票代码,名字列表
            a = []
            number = j.get('number')
            # 加入股票代码
            a.append(number)

            name = j.get('name')
            # 加入股票名字
            a.append(name)

            start = j.get('start')
            max_price = j.get('max')
            min_price = j.get('min')
            end = j.get('end')
            volume = j.get('volume')
            pe = j.get('pe')
            # 加入市盈率
            a.append(pe)

            pb = j.get('pb')
            # 加入市盈率
            a.append(pb)
            if start == '"-"':
                start, max_price, min_price, end, volume, pe, pb = '0', '0', '0', '0', '0', '0', '0'

            b.append(a)
    print(len(b))
    return b


# 返回:所有GP列表,列表按实时涨跌幅排序
def get_stock_codes(end):
    lt = get_code_pe(1, end)
    return lt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2317386.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大数据学习(68)- Flink和Spark Streaming

&#x1f34b;&#x1f34b;大数据学习&#x1f34b;&#x1f34b; &#x1f525;系列专栏&#xff1a; &#x1f451;哲学语录: 用力所能及&#xff0c;改变世界。 &#x1f496;如果觉得博主的文章还不错的话&#xff0c;请点赞&#x1f44d;收藏⭐️留言&#x1f4dd;支持一…

Fastdata极数:中国民宿行业发展趋势报告2025

2024年&#xff0c;中国游客出行次数大幅上涨&#xff0c;旅游相关支出也复苏强劲。2025年中国旅游业还将持续稳健的复苏及增长。同时&#xff0c;中国旅游业将见证一场深刻的变革&#xff0c;这场变革的推动力是消费者对旅游期望的转变&#xff0c;经济因素和年轻人全新价值观…

图论——广度优先搜索实现

99. 岛屿数量 题目描述 给定一个由 1(陆地)和 0(水)组成的矩阵,你需要计算岛屿的数量。岛屿由水平方向或垂直方向上相邻的陆地连接而成,并且四周都是水域。你可以假设矩阵外均被水包围。 输入描述 第一行包含两个整数 N, M,表示矩阵的行数和列数。 后续 N 行,每行…

鸿蒙路由 HMrouter 配置及使用一

1、学习链接 HMRouter地址 https://gitee.com/hadss/hmrouter/blob/dev/HMRouterLibrary/README.md 2、工程配置 下载安装 ohpm install hadss/hmrouter 添加编译插件配置 在工程目录下的build-profile.json5中&#xff0c;配置useNormalizedOHMUrl属性为true (我这项目创…

各省水资源平台 水资源遥测终端机都用什么协议

各个省水资源平台 水资源遥测终端机 的建设大部分从2012年开始启动&#xff0c;经过多年建设&#xff0c;基本都已经形成了稳定的通讯要求&#xff1b;河北瑾航科技 遥测终端机&#xff0c;兼容了大部分省市的通讯协议&#xff0c;如果需要&#xff0c;可以咨询和互相学习&…

需求分析、定义、验证、变更、跟踪(高软47)

系列文章目录 需求分析、定义、验证、变更、跟踪 文章目录 系列文章目录前言一、需求分析二、需求定义三、需求验证四、需求变更五、需求跟踪六、真题总结 前言 本节讲明需求分析、定义、验证、变更、跟踪相关知识。 一、需求分析 二、需求定义 三、需求验证 四、需求变更 五、…

从零开始 | C语言基础刷题DAY3

❤个人主页&#xff1a;折枝寄北的博客 目录 1.打印3的倍数的数2.从大到小输出3. 打印素数4.打印闰年5.最大公约数 1.打印3的倍数的数 题目&#xff1a; 写一个代码打印1-100之间所有3的倍数的数字 代码&#xff1a; int main(){int i 0;for (i 1; i < 100; i){if (i % …

docker入门篇

使用docker可以很快部署相同的环境,这也是最快的环境构建,接下来就主要对docker中的基础内容进行讲解.Docker 是一个用于开发、交付和运行应用程序的开源平台&#xff0c;它可以让开发者将应用程序及其依赖打包到一个容器中&#xff0c;然后在任何环境中运行这个容器&#xff0…

Unity Shader - UI Sprite Shader之简单抠图效果

Sprite抠图效果&#xff1a; 前言 在PhotoShop中我们经常会用到抠图操作&#xff0c;现在就用Shader实现一个简单的抠图效果。 实现原理&#xff1a; 使用当前像素颜色与需要抠掉的颜色相减作比较&#xff0c;然后与一个指定的阈值比较以决定是否将其显示出来&#xff1b; U…

vllm-openai多服务器集群部署AI模型

服务器配置是两台ubantu系统电脑,每台电脑安装两张4090-48G显存的显卡,共计192G显存。 服务器1 服务器2 准备工作: 1.两台电脑都已经安装了docker 2.两台电脑都已经安装了nvidia驱动 参考vllm官方资料 https://docs.vllm.ai/en/latest/serving/distributed_serving.html…

在Spring Boot项目中接入DeepSeek深度求索,感觉笨笨的呢

文章目录 引言1. 什么是DeepSeek&#xff1f;2. 准备工作2.1 注册DeepSeek账号 3.实战演示3.1 application增加DS配置3.2 编写service3.3 编写controller3.4 编写前端界面chat.html3.5 测试 总结 引言 在当今快速发展的数据驱动时代&#xff0c;企业越来越重视数据的价值。为了…

STM32---FreeRTOS事件标志组

一、简介 事件标志位&#xff1a;用一个位&#xff0c;来表示事件是否发生 事件标志组&#xff1a;一组事件标志位的集合&#xff0c;可以简单的理解时间标志组&#xff0c;就是一个整体。 事件标志租的特点&#xff1a; 它的每一个位表示一个时间&#xff08;高8位不算&…

Word 小黑第40套

对应大猫43 主题 -浏览主题 -选择W样式标准文件就行 1级段落和2级段落&#xff08;用项目符号不影响原本段落文字符号 颜色修改为自动&#xff09; 整段变红的 不是把光标定位到红色字体那里 要选择几个红色字体 再创建样式 插入的空白页一定要是下一页&#xff0c;不能插空白…

【Linux我做主】浅谈Shell及其原理

浅谈Linux中的Shell及其原理 Linux中Shell的运行原理github地址前言一、Linux内核与Shell的关系1.1 操作系统核心1.2 用户与内核的隔离 二、Shell的演进与核心机制2.1 发展历程2.2 核心功能解析2.3 shell的工作流程1. 用户输入命令2. 解析器拆分指令3. 扩展器处理动态内容变量替…

数据结构篇——二叉树的存储与遍历

一、引入 书接上文&#xff0c;文于此续。上文我们学到了树的存储结构&#xff0c;那么今天&#xff0c;我们来学习下几种特殊的二叉树以及关于它的各种遍历&#xff0c;让我们一起加油吧。 二、特殊的二叉树 二叉树的特殊形式这里介绍3种&#xff0c;其中需要着重记忆的有…

分而治之:用于 RGB-T 显著目标检测的 Confluent Triple-Flow 网络(问题)

摘要 问题一&#xff1a;RGB-thermal显著对象检测这是什么&#xff1f; RGB图像是可见光的三通道图像&#xff0c;而thermal是热红外图像&#xff0c;通常为单通道&#xff0c;记录物体的热辐射信息。结合RGB和thermal两种模态的数据&#xff0c;可以利用两者的互补信息&…

求职招聘网站源码,找工作招工系统,支持H5和各种小程序

招聘找活招工平台系统源码 招聘求职找工作软件 发布信息积分充值招聘系统,里面带纤细教程 功能介绍: 招工小程序主要针对工地招工工人找工作,工地可以发布招工信息,工人可以发布找活信息,招工信息可以置顶,置顶需要积分,积分可以通过签到、分享邀请好友、充值获取,后…

企业微信群聊机器人开发

拿到机器人hook 机器人开发文档 https://developer.work.weixin.qq.com/document/path/91770

基于Python的tkinter开发的一个工具,解析图片文件名并将数据自动化导出为Excel文件

文章目录 一、开发背景与业务价值二、系统架构设计1. 分层架构图解2. 核心类结构3. 文件解析流程 三、关键技术实现详解1. 高性能文件名解析引擎2. 可视化数据展示3. 智能Excel导出模块 四、完整代码五、行业应用展望 一、开发背景与业务价值 在零售行业会员管理场景中&#x…

Flutter_学习记录_状态管理之GetX

1. 状态管理、Flutter Getx介绍 1.1 状态管理 通俗的讲&#xff1a;当我们想在多个页面&#xff08;组件/Widget&#xff09;之间共享状态&#xff08;数据&#xff09;&#xff0c;或者一个页面&#xff08;组件/Widget&#xff09;中的多个子组件之间共享状态&#xff08;数…