量化交易吧 / 数理科学帖子：3383525 新帖：5

DataFrame的速度测试

谎言梦发表于：6 月 13 日 00：00回复(1)

在写一个策略时，DataFrame是常用的一种数据结构，当数据量大时，数据操作将会占用非常多的时间。当我们使用得当时，有时会让工作事半功倍，特别是在写高频策略时更加明显。这些都是在看过一编这样的文章后产生的想法
实践出真知，就让我来扒一扒DataFrame常用操作的速度。

先import需要用到的库, 并初始化一个dataframe, 用于测试¶

import pandas as pdimport timedef timmer(func):def warpper(*args,**kwargs):start_time = time.time()func()stop_time = time.time()print ("the func run time is %s"%(stop_time - start_time))return warpperdef add(num):return num+2df = pd.DataFrame(columns=['a','b','c','d','e','f'],index=['date','value'],data=[['1/1/13 0:00','1/1/13 1:00','1/1/13 2:00','1/1/13 3:00','1/1/13 4:00','1/1/13 5:00'],[0.1,0.2,3,4,5,0.6]]).Tdf

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	date	value
a	1/1/13 0:00	0.1
b	1/1/13 1:00	0.2
c	1/1/13 2:00	3
d	1/1/13 3:00	4
e	1/1/13 4:00	5
f	1/1/13 5:00	0.6

确认我们使用的pandas版本

pd.__version__

'0.23.4'

先测试了字符串转换成datatime的时间，如文章中所说，加入format的确有帮助，速度提升明显，但是也并没有文中描述那么多，我想应该是pandas版本的差异，所以说还是需要自已动手验证一下啊¶

@timmerdef test_1():for x in range(1000):df['date'] = df['date'].apply(lambda x:'1/1/13 1:00')     df['date'] = pd.to_datetime(df['date'])                 test_1()@timmerdef test_2():for x in range(1000):df['date'] = df['date'].apply(lambda x:'1/1/13 1:00')df['date'] = pd.to_datetime(df['date'], format='%d/%m/%y %H:%M')test_2()

the func run time is 3.329446315765381
the func run time is 2.2600209712982178

再来测试数据改写的速度，在这里我们使用了6种不同的方法:¶

从结果中可以发现, 矢量化test_8和.apply排名靠前, 是最佳选择, itertuples和iterrows排在第2梯队, loc速度最慢排在第3

@timmerdef test_3():for x in range(1000):for x in df.index:                  
             df.loc[x, 'value'] = df.loc[x, 'value'] + 0.002@timmerdef test_4():for x in range(1000):for index,row in df.iterrows():                             row['value'] = row['value'] + 0.002@timmerdef test_5():for x in range(1000):for index,date,value in df.itertuples():                       value = value + 0.002@timmerdef test_6():for x in range(1000):df['value'] = df['value'].apply(add)    @timmerdef test_7():for x in range(1000):df['value'] = df['value'].apply(lambda x:x+2)        @timmerdef test_8():for x in range(1000):df['value']+=0.002      
        test_3()test_4()test_5()test_6()test_7()test_8()

the func run time is 5.793862819671631
the func run time is 1.096304178237915
the func run time is 0.9203734397888184
the func run time is 0.5614016056060791
the func run time is 0.5276052951812744
the func run time is 0.534296989440918

经过一些简单测试，了解了更多，相信可以在应用中更加得心应手了，也许程序不再慢如龟速了，哇哈哈哈哈。¶

只是这些是远远不够的，这只是展示了一个方法，在程序运行速度有比较高要求的情况下，可以多做一些此类试验，找到最优方案。

全部回复

0/140

本社区仅针对特定人员开放

查看需注册登录并通过风险意识测评

5秒后跳转登录页面...

达人推荐

关注
FX168投资英雄

粉丝:914

帖子数:0

FX168投资英雄

0帖子30关注914粉丝

关注拉黑私信
关注
财神爷_刘磊

粉丝:473

帖子数:0

财神爷_刘磊

0帖子0关注473粉丝

关注拉黑私信
关注
玉兔呈祥

粉丝:555

帖子数:3

玉兔呈祥:2019年08月23日操盘计划(1)...

玉兔呈祥:2019年07月26日操盘计划(1)...

玉兔呈祥

3帖子0关注555粉丝

关注拉黑私信

量化课程

移动端课程

量化交易吧 / 数理科学 帖子：3383525 新帖：5

DataFrame的速度测试

谎言梦发表于：6 月 13 日 00：00回复(1)

先import需要用到的库, 并初始化一个dataframe, 用于测试¶

先测试了字符串转换成datatime的时间，如文章中所说，加入format的确有帮助，速度提升明显，但是也并没有文中描述那么多，我想应该是pandas版本的差异，所以说还是需要自已动手验证一下啊¶

再来测试数据改写的速度，在这里我们使用了6种不同的方法:¶

经过一些简单测试，了解了更多，相信可以在应用中更加得心应手了，也许程序不再慢如龟速了，哇哈哈哈哈。¶

全部回复

0/140

粉丝:914

帖子数:0

粉丝:473

帖子数:0

粉丝:555

帖子数:3

量化课程

热门标签

删除回复

确认要删除这篇文章么？

举报用户

信息提示

该文章已删除

设置置顶

完成设置【置顶】！

设置置顶

已取消设置【置顶】！

设置精华

完成设置【精华】！

设置精华

已取消设置【精华】！

审核信息

该文章已审核通过

审核信息

您已设置该文章审核不通过

举报成功

您已举报成功

用户登录

移动帖子

创建私信

屏蔽提示

确认要屏蔽该用户么？

屏蔽回复

您已对该用户实现屏蔽

信息回复

已发送成功

量化交易吧 / 数理科学帖子：3383525 新帖：5