开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 264|回复: 10
收起左侧

[已解决] 逐字分割 大数据量会卡 大佬帮忙看看

 关闭 [复制链接]
结帖率:96% (68/71)
发表于 3 天前 | 显示全部楼层 |阅读模式   广东省深圳市
15精币
大佬们好,有一个逐字分割源码,测试小数据没问题,但是大数据量,几万几十万数据量时就很卡,直接卡住不动,大佬们帮忙看看可以优化下吗,谢谢各位大哥~

逐字分割文本一行一个字.e (956.71 KB, 下载次数: 7)

最佳答案

查看完整内容

重写了一个版本,不使用数组: [e=1].版本 2 .支持库 RegEx .支持库 spec .支持库 shell .程序集 窗口程序集_启动窗口 .子程序 只取汉字_汇编, 整数型 .参数 文本, 文本型 .参数 结果, 文本型 ' [\xB0-\xF7][\xA1-\xFE]|[\x81-\xA0][\x40-\x7E\x80-\xFE]|[\xAA-\xFE][\x40-\x7E\x80-\xA0] 置入代码 ({ 49, 246, 139, 69, 8, 139, 16, 139, 69, 12, 139, 8, 138, 26, 132, 219, 116, 117, 138, 66, 1, 141, 123, 80, 136, 69, 243, ...

回答提醒:如果本帖被关闭无法回复,您有更好的答案帮助楼主解决,请发表至 源码区 可获得加分喔。
友情提醒:本版被采纳的主题可在 申请荣誉值 页面申请荣誉值,获得 1点 荣誉值,荣誉值可兑换荣誉会员、终身vip用户组。
快捷通道:申请荣誉值

结帖率:100% (1/1)
发表于 3 天前 | 显示全部楼层   浙江省温州市
重写了一个版本,不使用数组:
  
窗口程序集名保 留  保 留备 注
窗口程序集_启动窗口   
子程序名返回值类型公开备 注
只取汉字_汇编整数型 
参数名类 型参考可空数组备 注
文本文本型
结果文本型
' [\xB0-\xF7][\xA1-\xFE]|[\x81-\xA0][\x40-\x7E\x80-\xFE]|[\xAA-\xFE][\x40-\x7E\x80-\xA0]
置入代码 ({ 49, 246, 139, 69, 8, 139, 16, 139, 69, 12, 139, 8, 138, 26, 132, 219, 116, 117, 138, 66, 1, 141, 123, 80, 136, 69, 243, 137, 248, 60, 71, 119, 14, 138, 69, 243, 141, 120, 95, 137, 248, 60, 93, 119, 42, 235, 62, 141, 123, 127, 137, 248, 60, 31, 119, 22, 138, 69, 243, 141, 120, 192, 137, 248, 60, 62, 118, 41, 138, 69, 243, 131, 192, 128, 60, 126, 235, 29, 141, 123, 86, 137, 248, 60, 84, 119, 45, 138, 69, 243, 141, 120, 192, 137, 248, 60, 62, 118, 10, 138, 69, 243, 131, 192, 128, 60, 32, 119, 23, 136, 25, 138, 66, 1, 70, 131, 193, 4, 102, 199, 65, 254, 13, 10, 131, 194, 2, 136, 65, 253, 235, 136, 66, 235, 133, 198, 1, 0, 137, 240, 93, 194, 8, 0 })
' xor esi, esi
' mov eax, DWORD PTR [ebp+8]
' mov edx, DWORD PTR [eax]
' mov eax, DWORD PTR [ebp+12]
' mov ecx, DWORD PTR [eax]
' L2:
' mov bl, BYTE PTR [edx]
' test bl, bl
' je L14
' mov al, BYTE PTR [edx+1]
' lea edi, [ebx+80]
' mov BYTE PTR [ebp-13], al
' mov eax, edi
' cmp al, 71
' ja L3
' mov al, BYTE PTR [ebp-13]
' lea edi, [eax+95]
' mov eax, edi
' cmp al, 93
' ja L5
' jmp L4
' L3:
' lea edi, [ebx+127]
' mov eax, edi
' cmp al, 31
' ja L6
' mov al, BYTE PTR [ebp-13]
' lea edi, [eax-64]
' mov eax, edi
' cmp al, 62
' jbe L4
' mov al, BYTE PTR [ebp-13]
' add eax, -128
' cmp al, 126
' jmp L12
' L6:
' lea edi, [ebx+86]
' mov eax, edi
' cmp al, 84
' ja L7
' L5:
' mov al, BYTE PTR [ebp-13]
' lea edi, [eax-64]
' mov eax, edi
' cmp al, 62
' jbe L4
' mov al, BYTE PTR [ebp-13]
' add eax, -128
' cmp al, 32
' L12:
' ja L7
' L4:
' mov BYTE PTR [ecx], bl
' mov al, BYTE PTR [edx+1]
' inc esi
' add ecx, 4
' mov WORD PTR [ecx-2], 2573
' add edx, 2
' mov BYTE PTR [ecx-3], al
' jmp L2
' L7:
' inc edx
' jmp L2
' L14:
' mov BYTE PTR [ecx], 0
' mov eax, esi
' pop ebp
' ret 8
返回 (0)
子程序名返回值类型公开备 注
只取汉字整数型 
参数名类 型参考可空数组备 注
文本文本型
结果文本型
结果 = 取空白文本 (取文本长度 (文本) × 3 + 1)
返回 (只取汉字_汇编 (文本, 结果))
子程序名返回值类型公开备 注
_按钮1_被单击  
变量名类 型静态数组备 注
文本文本型 
正则正则表达式 
数量整数型 
结果文本型 
路径文本型 
时间整数型 
文本 = 取重复文本 (10000, 编辑框1.内容)
时间 = 取启动时间 ()
数量 = 只取汉字 (文本, 结果)
调试输出 (取启动时间 () - 时间, 数量)
路径 = 取特定目录 ( #系统桌面 )“结果.txt”
如果真 (写到文件 (路径, 到字节集 (结果)))
时间 = 取启动时间 ()
执行 ( #打开文件, 路径, , , )
调试输出 (取启动时间 () - 时间)
时间 = 取启动时间 ()
编辑框2.内容 = 结果
调试输出 (取启动时间 () - 时间)


i支持库列表   支持库注释   
RegEx正则表达式支持库
spec特殊功能支持库
shell操作系统界面功能支持库

开始运行被调试程序
* 0.000000 | 860000
* 500.000000
* 3859.000000
被调试易程序运行完毕


可以看出,取出80万个汉字,耗时0毫秒(小于1毫秒).
瓶颈根本不在于取出这些汉字,而是在于显示这些结果.
这里用最新系统自带的记事本打开,也要0.5秒(文件大小3MB).
只要你执着于用系统自带的编辑框组件显示大文件,那么这个问题一般来说就是无解的.
回复

使用道具 举报

结帖率:100% (49/49)

签到天数: 13 天

发表于 3 天前 | 显示全部楼层   河南省南阳市
你用读入文本一行一行的读,一行一行的分割
回复

使用道具 举报

结帖率:100% (12/12)

签到天数: 14 天

发表于 3 天前 | 显示全部楼层   江苏省盐城市
大数据用线程
回复

使用道具 举报

结帖率:100% (12/12)

签到天数: 14 天

发表于 3 天前 | 显示全部楼层   江苏省盐城市
文本逐字分割源码及优化历程
https://bbs.ijingyi.com/forum.php?mod=viewthread&tid=14751146
(出处: 精易论坛)


参考一下
回复

使用道具 举报

结帖率:100% (75/75)

签到天数: 13 天

发表于 3 天前 | 显示全部楼层   吉林省长春市
在加入文本后面加个  处理事件 ()试试
回复

使用道具 举报

结帖率:100% (1/1)
发表于 3 天前 | 显示全部楼层   浙江省温州市
慢是因为数组成员太多了,使用下面的功能:
【转载·白银】源码合集无需回复_精易论坛
例子:
  
子程序名返回值类型公开备 注
_按钮1_被单击  
变量名类 型静态数组备 注
数组文本型0
整数型 
文本文本型 
快速文本快速文本对象 
内存分配加速优化 ()
文本 = 取重复文本 (2000, 编辑框1.内容)
文本_逐字分割 (文本, 数组)
调试输出 (“数量”, 取数组成员数 (数组))
快速文本.置内存增量 (10 × 1024 × 1024)
计次循环首 (取数组成员数 (数组), 数)
如果真 (文本_是否为汉字2 (数组 []))
快速文本.添加 (数组 []#换行符 )

计次循环尾 ()
编辑框2.内容 = 快速文本.取文本 (, )


i支持库列表   支持库注释   
commobj通用对象支持库
spec特殊功能支持库

20万个数组成员, 1秒左右完成:
* “数量” | 212000
被调试易程序运行完毕

完整例子.zip (1.38 MB, 下载次数: 1)
回复

使用道具 举报

结帖率:33% (1/3)

签到天数: 7 天

发表于 3 天前 | 显示全部楼层   广东省深圳市
这种情况,借助线程池,并发处理,不过数据量太大,肯定会消耗点时间等待,但已经是最优。几年前,我写一个备份软件,比如C盘文件比较多,十几万个文件,每个对比,用普通方法,一天都循环不玩,很卡,用线程池,能缩短到两分钟前后,但已经是无法在缩短了。所以数据量多的情况下,确实无法解决马上就完成这个问题。关于卡住,是因为没加:处理事件(),或本身程序还在处理数据,所以暂时卡主也是正常。
回复

使用道具 举报

结帖率:100% (3/3)

签到天数: 11 天

发表于 3 天前 | 显示全部楼层   贵州省毕节市
正则表达式 [\u4e00-\u9fa5]
回复

使用道具 举报

结帖率:96% (68/71)

签到天数: 5 天

 楼主| 发表于 前天 11:53 | 显示全部楼层   广东省深圳市
zainex 发表于 2025-10-11 20:08
慢是因为数组成员太多了,使用下面的功能:
【转载·白银】源码合集无需回复_精易论坛
例子:

大哥,我用了你的这个例子,复制了50万文本进去,50万行短句,一行5-10个字左右,运行点击开始分割,程序没有反应,分割按钮状态就向没有点击到一样,没有获取到点击焦点似得,重复点击也是一样的,您那边会这样吗?谢谢大哥~

补充内容 (2025-10-12 11:55):
试了小数量15000行数据,软件卡死,然后软件自动退出了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

关闭

精易论坛 - 有你更精彩上一条 /2 下一条

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报QQ: 793400750,邮箱:wp@125.la
网站简介:精易论坛成立于2009年,是一个程序设计学习交流技术论坛,隶属于揭阳市揭东区精易科技有限公司所有。
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备2025452707号) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表