TowardsDataScience 博客中文翻译 2018~2024(一百二十三)

news2024/12/25 20:26:04

TowardsDataScience 博客中文翻译 2018~2024(一百二十三)

引言

从 2018 年到 2024 年,数据科学的进展超越了许多技术领域的速度。Towards Data Science 博客依然是这个领域的关键平台,记录了从基础工具到前沿技术的多方面发展。本文将对 2018 至 2024 年间的 123 篇精选文章进行整理与翻译,系统梳理数据科学的进化轨迹。

文章目录

    • TowardsDataScience 博客中文翻译 2018~2024(一百二十三)
      • 引言
      • 第一部分:人工智能与自动化
        • 1. 自动化机器学习(AutoML)新时代
        • 2. 强化学习的商业应用
      • 第二部分:大语言模型与生成式 AI
        • 3. 大语言模型的核心原理
        • 4. 文本生成的伦理与挑战
      • 第三部分:可解释性与透明化
        • 5. 可解释机器学习(XAI)工具
        • 6. 透明 AI 的政策与趋势
      • 总结与展望

在这里插入图片描述


第一部分:人工智能与自动化

1. 自动化机器学习(AutoML)新时代

原文标题:“The New Era of AutoML”

摘要

  • AutoML 工具的普及降低了数据科学的门槛。
  • 流行工具:Google AutoML、H2O.ai、DataRobot。
  • 使用 AutoML 的典型工作流。
from h2o.automl import H2OAutoML
import h2o
h2o.init()

# 导入数据
data = h2o.import_file("data.csv")
train, test = data.split_frame(ratios=[.8])

# 自动化建模
aml = H2OAutoML(max_models=10, seed=42)
aml.train(y="target", training_frame=train)

# 输出最佳模型
print(aml.leaderboard)
2. 强化学习的商业应用

原文标题:“Reinforcement Learning in Real-World Business”

摘要
强化学习(RL)从理论走向实际的典型案例:

  • 电商个性化推荐。
  • 供应链优化。
  • 游戏 AI。

常用框架

  • OpenAI Gym
  • Stable Baselines
import gym
import stable_baselines3 as sb3

# 创建环境
env = gym.make("CartPole-v1")
model = sb3.PPO("MlpPolicy", env, verbose=1)

# 训练模型
model.learn(total_timesteps=10000)

# 测试模型
obs = env.reset()
for _ in range(1000):
    action, _states = model.predict(obs)
    obs, rewards, done, info = env.step(action)
    env.render()

第二部分:大语言模型与生成式 AI

3. 大语言模型的核心原理

原文标题:“The Principles of Large Language Models”

摘要

  • Transformer 架构的崛起。
  • BERT、GPT 系列模型的对比。
  • 应用场景:机器翻译、文本生成、对话机器人。

代码示例:使用 Hugging Face 加载 GPT 模型。

from transformers import GPT2LMHeadModel, GPT2Tokenizer

tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
model = GPT2LMHeadModel.from_pretrained("gpt2")

# 文本生成
def generate_text(prompt):
    inputs = tokenizer.encode(prompt, return_tensors="pt")
    outputs = model.generate(inputs, max_length=50, num_return_sequences=1)
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

print(generate_text("人工智能的未来是"))
4. 文本生成的伦理与挑战

原文标题:“Ethics and Challenges in Text Generation”

摘要

  • 偏见与歧视问题。
  • 生成内容的真实性验证。
  • 开源与商业模型的平衡。

温馨提示
“在部署生成式 AI 应用时,务必考虑多样性与公平性。”


第三部分:可解释性与透明化

5. 可解释机器学习(XAI)工具

原文标题:“Explainable AI: Tools and Techniques”

摘要

  • 可解释性方法:SHAP、LIME、Integrated Gradients。
  • 具体案例:银行业的信用评分模型。
import shap
import xgboost

# 数据加载
X, y = shap.datasets.boston()
model = xgboost.XGBRegressor().fit(X, y)

# SHAP 分析
explainer = shap.Explainer(model, X)
shap_values = explainer(X)
shap.summary_plot(shap_values, X)
6. 透明 AI 的政策与趋势

原文标题:“Policies and Trends for Transparent AI”

摘要

  • 全球政策框架:欧盟的 AI 法规、美国的 NIST 指南。
  • 企业实践案例:Google、Microsoft、OpenAI。

未来展望:透明化将成为 AI 系统发展的核心竞争力。


总结与展望

Towards Data Science 博客 2018-2024 系列文章不仅反映了数据科学的快速迭代,也展示了从基础技术到行业实践的全面发展。本系列中文翻译希望帮助更多国内开发者理解和应用这些技术。

技术趋势

  • 生成式 AI 的主流化。
  • 数据科学的行业标准化与规范化。
  • 新兴领域如量子机器学习的探索。

期待您持续关注下一阶段的翻译内容!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2265452.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

GitHub 桌面版配置 |可视化界面进行上传到远程仓库 | gitLab 配置【把密码存在本地服务器】

🥇 版权: 本文由【墨理学AI】原创首发、各位读者大大、敬请查阅、感谢三连 🎉 声明: 作为全网 AI 领域 干货最多的博主之一,❤️ 不负光阴不负卿 ❤️ 文章目录 桌面版安装包下载clone 仓库操作如下GitLab 配置不再重复输入账户和密码的两个方…

今天最新早上好问候语精选大全,每天问候,相互牵挂,彼此祝福

1、朋友相伴,友谊真诚永不变!彼此扶持绿树荫,共度快乐雨后天!一同分享的表情,愿我们友情长存,一生相伴永相连! 2、人生几十年,苦累伴酸甜,风华不再茂,雄心非当…

Verdi -- 打开Consol,创建和执行tcl命令举例

1.Verdi打开Console的步骤: For ref: 2创建tcl脚本. tcl脚本路径: 在Makefile下,与.v文件在同一个目录8_demo这个文件夹下。 font.tcl代码内容: verdiSetFont -monoFont "Courier" -monoFontSize "24" 作用…

基于java博网即时通讯软件的设计与实现【源码+文档+部署讲解】

目 录 1. 绪 论 1.1. 开发背景 1.2. 开发意义 2. 系统设计相关技术 2.1 Java语言 2.2 MySQL数据库 2.3 Socket 3. 系统需求分析 3.1 可行性分析 3.2 需求分析 3.3 系统流程图 3.4 非功能性需求 4. 系统设计 4.1 系统功能结构 4.2 数据库设计 5. 系统实现 5.…

视频汇聚融合云平台Liveweb一站式解决视频资源管理痛点

随着5G技术的广泛应用,各领域都在通信技术加持下通过海量终端设备收集了大量视频、图像等物联网数据,并通过人工智能、大数据、视频监控等技术方式来让我们的世界更安全、更高效。然而,随着数字化建设和生产经营管理活动的长期开展&#xff0…

Hadoop集群(HDFS集群、YARN集群、MapReduce​计算框架)

一、 简介 Hadoop主要在分布式环境下集群机器,获取海量数据的处理能力,实现分布式集群下的大数据存储和计算。 其中三大核心组件: HDFS存储分布式文件存储、YARN分布式资源管理、MapReduce分布式计算。 二、工作原理 2.1 HDFS集群 Web访问地址&…

文本的AIGC率检测原理

背景 你可能在学生群里或者视频中看过这样的消息:“我们学校要求论文AI率不能超过30%!”、“你们学校查AI率吗?”之类的,这些消息到底是真是假? 随着人工智能的快速发展和广泛应用,不论是工作中还是学生学…

PODS:2024-12-21由麻省理工学院 和 OpenAI联合创建一个专门为个性化对象识别任务设计的数据集.

2024-12-21,由MIT和OpenAI联合创建的个性化视觉数据集,为细粒度和数据稀缺的个性化视觉任务提供了新的解决方案,推动了个性化模型的发展,具有重要的研究和应用价值。 一、研究背景: 在计算机视觉领域,现代…

OpenFeign快速入门 示例:黑马商城

使用起因 之前我们利用了Nacos实现了服务的治理,利用RestTemplate实现了服务的远程调用。这样一来购物车虽然通过远程调用实现了调用商品服务的方法,但是远程调用的代码太复杂了: 解决方法 并且这种调用方式比较复杂,一会儿远程调用,一会儿本地调用。 因…

YOLOv11模型改进-模块-引入多尺度大核注意力Multi-scale Large Kernel Attention

MLKA 的提出源于图像超分辨率任务的挑战性,该任务需重建低质量图像缺失的高频信息,但因 LR 与 HR 图像对应关系复杂,寻找像素相关性困难。此前模型扩展容量的方法增加了训练负担和数据收集成本,而采用的注意力机制无法同时获取局部…

学习思考:一日三问(学习篇)之匹配VLAN

学习思考:一日三问(学习篇)之匹配VLAN 一、学了什么(是什么)1.1 理解LAN与"V"的LAN1.2 理解"V"的LAN怎么还原成LAN1.3 理解二层交换机眼中的"V"的LAN 二、为何会产生需求(为…

国际网络专线怎么申请开通?

随着国内企业在国际市场中的活跃度逐年提升,国际网络专线逐渐成为保障企业高效运营的重要基础设施。稳定且高效的网络不仅能够提升工作效率,还能为海外业务的顺利开展提供可靠保障。那么,国际网络专线如何开通?其申请流程是怎样的…

Ubuntu20.04安装openMVS<成功>.colmap<成功>和openMVG<失败(已成功)>

一、安装openMVS 参考官方文档 sudo apt-get -y install git mercurial cmake libpng-dev libjpeg-dev libtiff-dev libglu1-mesa-dev eigen git clone https://gitlab.com/libeigen/eigen --branch 3.4 mkdir eigen_build cd eigen_build &&\cmake . ../eigen -…

【magic-dash】01:magic-dash创建单页面应用及二次开发

文章目录 一、magic-dash是什么1.1 安装1.2 使用1.2.1 查看内置项目模板1.2.2 生成指定项目模板1.2.3 查看当前magic-dash版本1.2.4 查看命令说明1.2.5 内置模板列表二、创建虚拟环境并安装magic-dash三、magic-dash单页工具应用开发3.1 创建单页面项目3.1.1 使用命令行创建单页…

重温设计模式--原型模式

文章目录 原型模式定义原型模式UML图优点缺点使用场景C 代码示例深拷贝、浅拷贝 原型模式定义 用原型实例指定创建对象的种类,并且通过拷贝这些原型创建新的对象; 核心中的核心就是 克隆clone ,后面讲 原型模式是一种创建型设计模式,它的主要…

Kibana8.17.0在mac上的安装

1、Kibana是什么 Kibana是与elasticsearch配套使用的数据分析与可视化工具,通过Kibana可以轻松与es中存储的数据进行高效的交互,包括数据写入、检索、删除等操作,并可以通过编写部分代码将数据做成各种报表,从而进行非常直观的统…

61.基于SpringBoot + Vue实现的前后端分离-在线动漫信息平台(项目+论文)

项目介绍 随着社会互联网技术的快速发展,每个行业都在努力与现代先进技术接轨,通过科技手段提高自身的优势;对于在线动漫信息平台当然也不能排除在外,随着网络技术的不断成熟,带动了在线动漫信息平台,它彻底…

【python】银行客户流失预测预处理部分,独热编码·标签编码·数据离散化处理·数据筛选·数据分割

数据预处理 通过网盘分享的文件:银行流失预测数据和代码 链接: https://pan.baidu.com/s/1loiB8rMvZArfjJccu4KW6w?pwdpfcs 提取码: pfcs 非数值特征处理 目的:将非数值特征转换为数值型,以便模型能够处理。方法: 地理位置&am…

从零开始使用MaxKB打造本地大语言模型智能问答系统与远程交互

文章目录 前言1. 下载运行Ollama2. 安装大语言模型3. 安装Cpolar工具4. 配置公网地址5. 固定公网地址6. MaxKB 添加Olama7.创建问答应用 前言 目前大语言模型(LLM)已经成为了人工智能领域的一颗璀璨明星,从自然语言处理到智能问答系统&#…

neo4j无法导入csv文件

文章目录 问题解决方案1. 检查Neo4j的neo4j.conf配置文件2. 确保文件路径正确3. 将CSV文件放置到import目录4. 重启Neo4j服务器 问题 neo4j browser中导入csv文件报错无法导入 具体:输入下列语句LOAD CSV WITH HEADERS FROM “file:///D:/KG/relation.csv” AS lin…