精易论坛

标题: 正则匹配日期时间 [打印本页]

作者: q1472    时间: 昨天 10:03
标题: 正则匹配日期时间
怎么能把以下情况的日期和情况都匹配出来呢,分很多种情况

我用的这个OCR 匹配出来的有日期时间有很多种情况比如

1.今天52609:50-11:48
2.今天5310:50-12:48
3.今天050310:50-12:48
4.今天05月03日10:50-12:48
5.后天0503日10:5012:48
6.今天05月0310:5012:48
7.今天11310:50-12:48
8.明天112310:50-12:48





作者: 1349506524    时间: 昨天 10:24
取出什么?年月日+时间?

作者: 花间一壶酒    时间: 昨天 10:24
正则只能处理有规则的文本  你这只能交给AI处理了
作者: juste    时间: 昨天 10:28
这种 OCR 文本不要直接用一个正则硬拆,先按“时间冒号”反推
原理:
先找第一个时间冒号 :
冒号前最后 2 位 = 开始小时
冒号后 2 位 = 开始分钟
开始时间前面的数字 = 日期
后面再匹配结束时间
比如:
今天5310:50-12:48
冒号前 = 5310
开始小时 = 10
日期数字 = 53
结果 = 5月3日 10:50-12:48
表达式:^(今天|明天|后天)?(?:(\d{1,2})月)?(\d{1,2})日?(\d{1,2}):(\d{2})[--~到至]?(\d{1,2}):?(\d{2})$

建议先归一化再解析

1. 去掉空格
2. 把 “-、—、到、至、~” 统一成 “-”
3. 去掉 “月、日”
4. 提取开头的 今天/明天/后天
5. 找第一个冒号
6. 冒号前最后 2 位是开始小时
7. 冒号前剩下的是日期数字
8. 冒号后 2 位是开始分钟
9. 后面提取结束时间,支持 12:48 和 1248

如果你的 OCR 来源里月份一般是当前月附近,最好结合当前日期判断。比如当前是 2026年5月26日,那 113 更可能不是近期日期,需要按你的业务场景决定
作者: mytiger    时间: 昨天 11:12
zz.png
(?:今天|明天|后天)(1[0-2]|0?[1-9])[\s|月]*?(0?[1-9]|[12][0-9]|3[01])[\s|日]*?(\d{2}:\d{2})-?(\d{2}:\d{2})

作者: 观音    时间: 昨天 14:24
你这就是个伪命题,正则就写不好,111我怎么知道是1月11日 还是 11月1日




欢迎光临 精易论坛 (https://bbs.ijingyi.com/) Powered by Discuz! X3.4