很多首发起点中文网的盗版小说文字错版

水木社区手机版

主题:很多首发起点中文网的盗版小说文字错版
10楼|hhss|2022-11-17 17:33:08|只看此ID
没明白你啥意思
【在 jesce 的大作中提到: 】
: 感觉这比OCR容易多了. OCR需要考虑各种字体/大小/颜色/位置. 起点小说自己选个字体
: , 纯色背景, 做个2w个字的字库比对就行了. 了不起碰到识别度低于阈值的生僻字弹窗
: 再加入字库就行.
: ...................
--
FROM 123.147.246.*
11楼|jesce|2022-11-17 17:37:02|只看此ID
OCR基于文字的边/角特征值, 还要考虑不同亮度脏污干扰扭曲变形, 难度是这种静态截
图的N倍. 不晓得盗版网站是怎么做的, 如果先针对起点的字体做一个detector模型, 然
后直接在字库中做逐字识别(直接全像素比对就行了), 应该不存在错别字.

【在 hhss 的大作中提到: 】
: 没明白你啥意思
--
FROM 113.116.28.*
12楼|glsh|2022-11-17 18:50:56|只看此ID
这么错法，肯定不是ocr呀。

就是个码指针简单转换啥的吧。盗版网站也是一点技术含量都不想出呀。

【在 jesce 的大作中提到: 】
: 标题: Re: 很多首发起点中文网的盗版小说文字错版
: 发信站: 水木社区 (Thu Nov 17 17:44:37 2022), 站内
:
:
: OCR基于文字的边/角特征值, 还要考虑不同亮度脏污干扰扭曲变形, 难度是这种静态截
: 图的N倍. 不晓得盗版网站是怎么做的, 如果先针对起点的字体做一个detector模型, 然
: 后直接在字库中做逐字识别(直接全像素比对就行了), 应该不存在错别字.
:
:
: 【在 hhss 的大作中提到: 】
: : 没明白你啥意思
:
: --
:
: ※ 来源:·水木社区 mysmth.net·[FROM: 113.116.28.*]
--
修改:glsh FROM 114.253.17.*
FROM 114.253.17.*
13楼|magicknight|2022-11-17 19:17:43|只看此ID
盗版网站也互相盗版
结果有技术含量的东西没人去做
也是幽默


【在 glsh (glsh) 的大作中提到: 】
:  这么错法，肯定不是ocr呀。
:
:  就是个码指针简单转换啥的吧。盗版网站也是一点技术含量都不想出呀。
:
--
FROM 213.219.189.*
14楼|magicknight|2022-11-17 19:19:43|只看此ID
起点呗
上水木的不会是穷学生了吧


【在 lgyyuuki (烟波芥舟) 的大作中提到: 】
:  好像是起点的保护机制，对自动获取盗版小说的内容进行了替换，譬如“上”替换为“下”、“高”替换为“低”、全文人名打乱后互相替代。
:  现在还有哪些比较好的盗版网站能看起点的小说吗？
:  --
:
--
FROM 213.219.189.*
15楼|veriloghdl|2022-11-17 19:34:35|只看此ID
以前都号称手打，后来发现没一个真的手打
【在 magicknight 的大作中提到: 】
: 盗版网站也互相盗版
: 结果有技术含量的东西没人去做
: 也是幽默
: ...................
--来自微微水木3.5.12@空白
--
FROM 223.104.38.*
16楼|pyer|2022-11-17 20:38:44|只看此ID
你是不是在看黜龙？
【在 lgyyuuki 的大作中提到: 】
: 好像是起点的保护机制，对自动获取盗版小说的内容进行了替换，譬如“上”替换为“下”、“高”替换为“低”、全文人名打乱后互相替代。
: 现在还有哪些比较好的盗版网站能看起点的小说吗？
--
FROM 112.97.61.*
17楼|hhss|2022-11-17 23:14:36|只看此ID
这跟我问的问题有啥关系？
【在 jesce 的大作中提到: 】
: OCR基于文字的边/角特征值, 还要考虑不同亮度脏污干扰扭曲变形, 难度是这种静态截
: 图的N倍. 不晓得盗版网站是怎么做的, 如果先针对起点的字体做一个detector模型, 然
: 后直接在字库中做逐字识别(直接全像素比对就行了), 应该不存在错别字.
: ...................
--
FROM 124.162.200.*