有人可能觉得软件数据分析门槛很高,自学也坚持不下来,
其实分解成一个小的功能和任务,对零基础自学者非常有帮助。
今天用python中最好用的数据分析包pandas为例:
用最简单的代码完成全流程
构建投资组合 → 获取数据 → 进行分析 → 输出结果
文章结尾我们会总结python的pandas对比Excel更强大的理由。
第一步
先上代码(用pandas中的数据表结构DataFrame,生成你的投资组合)
import pandas as pd
#你可以把pd定义为pandas的缩写,每次引用函数将变得简洁
# Stock prices obtained from Yahoo Finance
portfolio_df = pd.DataFrame({'company name': ['Alphabet', 'Netflix', 'Bank of America', 'Boeing', 'Apple'],
'stock ticker symbol':['GOOG', 'NFLX', 'BOA', 'BA', 'AAPL'],
'price per share [$]':[99, 245, 33, 136, 142],
'number of shares':[2, 7, 15, 30, 22]})
portfolio_df
可以对照输出的结果(之前还有同学问我灰色白色相间的表格如何做出来,python默认的表格输出界面还挺好看的)
第二步
简单的“.describe“ 就可以一键生成股价和投资数量的样本量、均值、方差、分位数等常用统计量。
第三步
对表格中的数据进行运算:生成新变量也很方便,比如生成每只股票的投资额
# Multiply the "price per share" by the "number of stocks"
stocks_dollar_value = portfolio_df['price per share [$]'] * portfolio_df['number of shares']
stocks_dollar_value
第四步
对计算得出的数据进行汇总 “”,并且让程序自动输出结果
# Sum up all values
stocks_dollar_value.sum()
# Print the output
print('The total value of the portfolio = ${}'.format(stocks_dollar_value.sum()))
在输出结果的时候,print函数搭配.format()非常好用。
print(' = ${}'.format())
最后总结一下跟excel的对比,
python的pandas可以更自动化处理,也可以处理更大量的数据(excel甚至连表格都打不开),
数据格式转换、表格合并等也更方便,
对于时间序列的处理也是优势,
pandas还可以处理多种数据格式的数据(包括excel),包括输入和输出。