- 主题:很多首发起点中文网的盗版小说文字错版
没明白你啥意思
【 在 jesce 的大作中提到: 】
: 感觉这比OCR容易多了. OCR需要考虑各种字体/大小/颜色/位置. 起点小说自己选个字体
: , 纯色背景, 做个2w个字的字库比对就行了. 了不起碰到识别度低于阈值的生僻字弹窗
: 再加入字库就行.
: ...................
--
FROM 123.147.246.*
OCR基于文字的边/角特征值, 还要考虑不同亮度脏污干扰扭曲变形, 难度是这种静态截
图的N倍. 不晓得盗版网站是怎么做的, 如果先针对起点的字体做一个detector模型, 然
后直接在字库中做逐字识别(直接全像素比对就行了), 应该不存在错别字.
【 在 hhss 的大作中提到: 】
: 没明白你啥意思
--
FROM 113.116.28.*
这么错法,肯定不是ocr呀。
就是个码指针简单转换啥的吧。盗版网站也是一点技术含量都不想出呀。
【 在 jesce 的大作中提到: 】
: 标 题: Re: 很多首发起点中文网的盗版小说文字错版
: 发信站: 水木社区 (Thu Nov 17 17:44:37 2022), 站内
:
:
: OCR基于文字的边/角特征值, 还要考虑不同亮度脏污干扰扭曲变形, 难度是这种静态截
: 图的N倍. 不晓得盗版网站是怎么做的, 如果先针对起点的字体做一个detector模型, 然
: 后直接在字库中做逐字识别(直接全像素比对就行了), 应该不存在错别字.
:
:
: 【 在 hhss 的大作中提到: 】
: : 没明白你啥意思
:
: --
:
: ※ 来源:·水木社区 mysmth.net·[FROM: 113.116.28.*]
--
修改:glsh FROM 114.253.17.*
FROM 114.253.17.*
盗版网站也互相盗版
结果有技术含量的东西没人去做
也是幽默
【 在 glsh (glsh) 的大作中提到: 】
: 这么错法,肯定不是ocr呀。
:
: 就是个码指针简单转换啥的吧。盗版网站也是一点技术含量都不想出呀。
:
--
FROM 213.219.189.*
起点呗
上水木的不会是穷学生了吧
【 在 lgyyuuki (烟波芥舟) 的大作中提到: 】
: 好像是起点的保护机制,对自动获取盗版小说的内容进行了替换,譬如“上”替换为“下”、“高”替换为“低”、全文人名打乱后互相替代。
: 现在还有哪些比较好的盗版网站能看起点的小说吗?
: --
:
--
FROM 213.219.189.*
以前都号称手打,后来发现没一个真的手打
【 在 magicknight 的大作中提到: 】
: 盗版网站也互相盗版
: 结果有技术含量的东西没人去做
: 也是幽默
: ...................
--来自微微水木3.5.12@空白
--
FROM 223.104.38.*
你是不是在看黜龙?
【 在 lgyyuuki 的大作中提到: 】
: 好像是起点的保护机制,对自动获取盗版小说的内容进行了替换,譬如“上”替换为“下”、“高”替换为“低”、全文人名打乱后互相替代。
: 现在还有哪些比较好的盗版网站能看起点的小说吗?
--
FROM 112.97.61.*
这跟我问的问题有啥关系?
【 在 jesce 的大作中提到: 】
: OCR基于文字的边/角特征值, 还要考虑不同亮度脏污干扰扭曲变形, 难度是这种静态截
: 图的N倍. 不晓得盗版网站是怎么做的, 如果先针对起点的字体做一个detector模型, 然
: 后直接在字库中做逐字识别(直接全像素比对就行了), 应该不存在错别字.
: ...................
--
FROM 124.162.200.*