首页 > 使用说明 : 字符识别

周易原文影印版,使用说明 : 字符识别

互联网 2021-05-17 12:30:17
字符识别字符识别对具体文字记载进行抽象化。

本站主要收录以两种不同模式表示的电子资料:第一是以数位化字符表示,第二是以影印图案的方式表示的内容。数位化字符(如:原典资料库和维基区上的文献)可打字输入、复制、贴上、检索等;影印图案(如:电子图书馆中的影印资料)则虽不能像数位化字符那样处理,但能完整地反映文献实际的原貌。

这两种模式各有其长,只使用其中之一不足以达到所有目的。

所谓字符识别(OCR)指的是把以图案方式表示的文字转换成以文字方式表示的自动程序。本站把字符识别应用到中国历代传世文献(如:四库全书等文献),以便提供更方便的查询方法。

利用字符识别连结影印底本图像和文字之间的关系。

当数位化字符的原典文字版及其相关底本的影印本并存时,电脑可以透过字符识别把已有的文字版中的文字和影印本的对应页面自动作出连结。连结之后,可以提供文字版和影印本之间的图文对照,方便查询影印底本,确认文字版的准确性。

当一段原文有这些讯息时,系统会在段落左手边显示图标。点击此图标就会打开电子图书馆中的相关页面。若要突显其中个别的字词,请先在文字版中检索,再点击影印本图标。

字符识别原始资料

进行字符识别而没有对应的文字版时,可以利用字符识别打造文字版的初稿。一般情况下,尤其是当传世文献影印本的内容不清楚或有损坏、缺漏等情况时,所得出的文字版可能会有不少错字。

尽管如此,透过字符识别而得出的文字版初稿有一个好处,就是文字版的每一行字和影印本底本的相关页面已经有连结。因此虽然文字版初稿包含错字,它仍然可以提供一种方法在影印本中快速地检索文字内容或确定文字版的准确与否。

与上述的情况同样,点击段落左手边所显示的图标就可以进入电子图书馆中的对应页面。若要突显其中个别字词,请先在文字版中检索,再点击影印本图标。

检索具有字符识别连结的原点文献

所有具有连结的原点文献,无论是通过自动连结还是原始文字识别初稿,在本站上都以普通文字版的方式展现,因此其基本检索方法与其他原典相同。已连结文献的优点在于当使用者通过检索或浏览的方法进入到原典的某一特定部分时,即可立即跳至电子图书馆对应页面的扫描版。

检索有字符识别连结的原点时,要先找到原典数据库、维基区或图书馆中的相关资料:例如,图书馆中的资料绝大部分都已经至少有一项已连接的资料。查到资料之后,就可以浏览资料内容:原典数据库或维基区的资料,可按卷、篇等浏览;图书馆中的资料可按页、卷、篇(若有)浏览。在具有影印连结的原典进行全文检索时,检索结果会以一般的方式显示。点击段落左手旁的图标即可跳至图书馆中对应页面,并突显所检索的字词。

例如,假设在维基区中已检索并得出下述结果:

点击图标将会跳至电子图书馆中的对应页面:

纠正错字简单修改模式

当文字版有影印本连结的时候,可以直接从图书馆的相关页面上作出文字版的修正。点击图文对照右下的“简单修改”连结,系统就会以简单化的方式显示该页对应的文字版内容。

在“简单修改”模式中,每一行文字对应于影印本中的一栏文字,而分段号以"

"表示。请不要在“简单修改”模式中增加下面所提及的其它符号或代码。

例如,上面图中页面的对应“简单修改模式”如下:

完整修改模式

经过字符识别而打造的原典初稿存放于网站的维基区,以便使用者集体参与校改和编辑活动。以下会介绍与字符识别相关的编辑情况。如果您没有编辑过本站维基区中的文献,请先参考维基区的使用说明,再阅读下面的介绍。

维基区使用特别的编码把原典文献的文字和对应的影印资料相连结。相关的编码如下:

功能范例说明影印页首代表此编码后出现的文字为影印资料中某一页在电子版中第一个对应的文字。如果有"y"项目,项目值表示第一个对应文字在影印资料中从页首算往下多少汉字的距离。影印页尾代表此编码前出现的文字为影印资料中某一页在电子版中最后一个对应的文字。影印页分栏代表此编码后出现的文字在影印资料中出现在新的一栏。如果有"y"项目,项目值表示第一个对应文字在影印资料中从页首算往下多少汉字的距离。栏中空格代表此编码后出现的文字在影印资料中离前面的文字往下算几个汉字的距离。"y"项目值代表往下多少汉字的距离。一般情况下,没有必要修改这些编码本身的内容,因此除非十分了解编码的细节,请不要编辑编码中的内容。另外,请不要对尚未与影印本自动连结的原典手动增加编码。

假如在维基区中编辑上述所引用的页面,则会显示如下(图案中,使用者已选择了页面对应内容以突显对应部分):

局限性

为了对尽可能多的原典文献达到尽可能高的准确性,在进行字符识别的过程中系统会对影印文献结构做出一些预设。这些预设提高对大部分文献核心内容的准确度,但同时意味著其它几种讯息或页面结构无法正确识别。目前这些无法识别的内容包括:

复杂页面结构(如:内容不完全属于一组栏)封面页或过大文字罕见字或楷书、隶书以外的字体图像、图表、表格因此,影印文献包括此类内容时,文字识别所打造的初稿可能会不正确。大多数情况(如:封面页、图像等),文字版不需要包括这些讯息,因此把识别错误所引入的内容删除即可。首页相关资料字典简介 - Introduction字体试验页 - Font test page协助 - Help us典籍增补 - Submit a text常见问答集 - Frequently Asked Questions隐私权声明 - Privacy policy讨论区规定 - Forum rules目录排序原则 - Indexing rationale汉字标准化 - Normalization赞助者名单 - List of donors引用指南 - Citation文字云 - Word clouds使用说明 - Instructions高级搜索 - Advanced search讨论区 - Discussion forum字典 - Dictionary后设资料系统 - Metadata System图书馆 - Library语意链接 - Semantic linking维基格式及编辑指南 - Wiki style and formatting内容规范 - Content requirements维基区 - Wiki section校勘 - Corrections字符识别 - OCR语意标记 - Semantic annotation工具 - Tools引得、索引讯息 - Concordance and index data古文乱选 - Wenyanwen Roulette相似段落 - Parallel passagesLiteracy Sieve - Literacy Sieve应用程式接口 - API插件 - Plugins学术单位优先服务 - Subscribe链结开放资料 - Linked Open Data系统统计 - System Statistics数位人文 - Digital humanities历史研究基础设施研讨会 - Shanghai conference别殊类,使不相害先秦两汉儒家 - Confucianism相关讨论墨家 - Mohism道家 - Daoism法家 - Legalism名家 - School of Names兵家 - School of the Military算书 - Mathematics杂家 - Miscellaneous Schools史书 - Histories经典文献 - Ancient Classics字书 - Etymology相关讨论医学 - Chinese Medicine相关讨论出土文献 - Excavated texts相关讨论汉代之后相关讨论魏晋南北朝 - Wei, Jin, and North-South隋唐 - Sui-Tang宋明 - Song-Ming清代 - Qing民国 - Republican era[英文][繁体]喜欢我们的网站?请支持我们的发展。网站的设计与内容(c)版权2006-2021。如果您想引用本网站上的内容,请同时加上至本站的链接:https://ctext.org/zhs。请注意:严禁使用自动下载软体下载本网站的大量网页,违者自动封锁,不另行通知。沪ICP备09015720号-3若有任何意见或建议,请在此提出。
免责声明:非本网注明原创的信息,皆为程序自动获取自互联网,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责;如此页面有侵犯到您的权益,请给站长发送邮件,并提供相关证明(版权证明、身份证正反面、侵权链接),站长将在收到邮件24小时内删除。

相关阅读