使SQLite更快地运行SELECT

黄（Timothy Wong）

情况：我的SQLite数据库中的一个表中有大约4000万行，3列无组织的数据（约300MB）。我的数据示例如下：

|  filehash  |  filename  |  filesize  |
|------------|------------|------------|
|   hash111  |    fileA   |    100     |
|   hash222  |    fileB   |    250     |
|   hash333  |    fileC   |    380     |
|   hash111  |    fileD   |    250     |  #Hash collision with fileA
|   hash444  |    fileE   |    520     |
|     ...    |     ...    |    ...     |

问题：一条SELECT语句可能需要3到5秒。我正在运行的应用程序必须快速。单个查询耗时3至5秒太长。

#calculates hash
md5hash = hasher(filename)
#I need all 3 columns so that I do not need to parse through the DB a second time
cursor.execute('SELECT * FROM hashtable WHERE filehash = ?', (md5hash,))
returned = cursor.fetchall()

问题：如何使SELECT语句运行更快（我知道这听起来很疯狂，但我希望速度低于0.5秒）？

附加信息1：我正在RPi 3B（1GB RAM，默认100MB SWAP）上的Python 2.7程序上运行它。我之所以这样问，主要是因为恐怕它会因为“ RAM不足”而使RPi崩溃。

作为参考，在正常运行我的应用程序的情况下从数据库读取数据时，我们正在寻找最大55MB的可用内存，以及几百MB的缓存数据-我不确定这是否是SQLite缓存（未触及SWAP）。

附加信息2：我愿意使用其他数据库来存储表（我一直在寻找PyTables或ZODB作为替代品-只是说我有些绝望了）。

附加信息3：没有唯一键，因为该SELECT语句将在列中查找匹配项，这些匹配项只是哈希值，显然存在冲突。

CL。

当前，数据库必须扫描整个表以查找所有匹配项。要加快搜索速度，请使用索引：

CREATE INDEX my_little_hash_index ON hashtable(filehash);

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-29

我来说两句

0 条评论

登录后参与评论

更快地进行 SQLITE 查询

更快地运行 bash 脚本

优化 for 循环以更快地运行

加速VBA代码以更快地运行

如何更快地运行循环R程序？

如何更快地在多个计数器上运行更新？

如何更改我的代码以更快地运行它？

如何使模糊动画每次都能更快地运行？

更快地在应用程序中运行 Python 或导入 CSV

C＃如何更快地运行应用程序

按键时更快地运行AppleScript或JXA脚本

首次执行后如何更快地运行linux程序

使用 Run Query at Start 更快地运行应用程序

如何共享CPU资源以更快地运行PHP脚本？

如何使此代码更简单以更快地运行

可以将其线程化以更快地运行吗？

如何使python循环更快地运行成对关联测试

更快地加载图像

更快地安装库

更快地删除列

函数被更快地调用

我想在Powershell上实现缓存存储，以在下次运行时更快地运行

如何更改数据类型以更快地运行程序？

Java-多线程代码无法在更多内核上更快地运行

当 GCP 实例未通过运行状况检查时，如何更快地停止它？

如何使用iterrows和iteritems更快地运行此熊猫循环

如何优化打开和关闭Excel工作簿以提取数据以更快地运行

有没有一种方法可以更快地运行OpenCV的SIFT？

如何修改从pdf生成随机数的功能以更快地运行

TOP 榜单

文章

使SQLite更快地运行SELECT

使SQLite更快地运行SELECT

Android Studio Kotlin：提取为常量

计算数据帧R中的字符串频率

如何使用Redux-Toolkit重置Redux Store

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

如何使用tweepy流式传输来自指定用户的推文（仅在该用户发布推文时流式传输）

TreeMap中的自定义排序

TYPO3：将 Formhandler 添加到新闻扩展

遍历元素数组以每X秒在浏览器上显示

在Ubuntu和Windows中，触摸板有时会滞后。硬件问题？

警告消息：在matrix（unlist（drop.item），ncol = 10，byrow = TRUE）中：数据长度[16]不是列数的倍数[10]>？

无法连接网络并在Ubuntu 14.04中找到eth0

将辅助轴原点与主要轴对齐

我可以ping IPv6但不能ping IPv4

在Jenkins服务器中使用Selenium和Ruby进行的黄瓜测试失败，但在本地计算机中通过

提交html表单时为空

使用C ++ 11将数组设置为零

如果从DB接收到的值为空，则JMeter JDBC调用将返回该值作为参数名称

尝试在Dell XPS13 9360上安装Windows 7时出错

如何在R中转置数据

无法使用 envoy 访问 .ssh/config

未捕获的SyntaxError：带有Ajax帖子的意外令牌u