国内首个楔形文字在线数据库DEMC上线
国内首个楔形文字在线数据库DEMC上线
国内首个楔形文字在线数据库DEMC上线早期两河流域契约数据库(DEMC)作为(zuòwéi)国内首个自主开发的楔形文字在线数据库,是教育部(jiàoyùbù)哲学社会科学研究重大课题攻关项目(23JZD040)的阶段性(jiēduànxìng)研究成果之一。目前其1.0版本(bǎnběn)已经上线(shàngxiàn)(网址:http://wx.xdsxds.com/layout/home),提供免费使用服务以及AI助手服务。
为服务于国内世界古代史、古文字学、经济史、法律(fǎlǜ)史、比较法学、数字人文等领域学者(xuézhě)的(de)研究需求,DEMC旨在对分散于全球各地图书馆、博物馆、档案馆的早期(zǎoqī)两河流域(公元前三千纪)契约文书资源进行数字化采集,这些资源实体的分布广泛、专业性(zhuānyèxìng)强且存在大量未出版内容,其发表渠道也非常(fēicháng)零散,传统纸质期刊与(yǔ)电子资源的割裂造成了文献搜集的难度。DEMC通过数字人文技术整合上述(shàngshù)碎片化资源,以期构建集数据采集、文本挖掘、多标签分类、多模态关联展示(zhǎnshì)及可视化于一体的综合性平台,为上述各领域的研究者提供系统化研究工具。
DEMC数据库主要收录(shōulù)两河流域早期的(de)楔形文字文本资源,具体包含三个时期:古苏美尔时期(又称前萨尔贡、早王朝时期)、阿卡德时期(又名萨尔贡王朝)和新苏美尔时期(即乌尔第三(dìsān)王朝)。在(zài)内容上,DEMC数据库主要收录的契约(qìyuē)文书(wénshū)以买卖契约和借贷契约为主。除契约文书的中英文及拉丁转写文本内容外,数据库还收录与之相关的各类多模态资源,主要包括原始泥板照片、临摹图像等,并记录相关资源实体的馆藏信息,以便提供全方位的研究(yánjiū)材料。
DEMC数据库主要(zhǔyào)包括四种功能,涵盖从数据采集到(dào)知识服务的全过程。
DEMC以技术成熟度较高、通用性较强的(de)FileMaker Pro工具为基础进行开发,该系统支持与MySQL、Oracle等主流的关系数据(shùjù)库进行数据集成和数据共享,其主要功能包括对早期楔形文字契约文书资源进行标准化数据存储,制定统一(tǒngyī)的文本、图像采集与整合标准,并以严格的专业元数据系统进行结构化约束;同时保留动态扩展(kuòzhǎn)能力,在使用过程中可以(kěyǐ)灵活增补(zēngbǔ)所需的新字段。
数据库不仅提供(tígōng)文本的转写与英汉双(yīnghànshuāng)语翻译,还包含多个专业字段,如(rú)契约类型、固定格式、术语、标的物与数量(shùliàng)、缔约方(买卖(mǎimài)契约中的卖方/买方、借贷契约中的贷方/借方)、见证人、誓言、其他关联信息,以及文本的出版信息、年代、出土地点、收藏机构、对应CDLI编号等基础信息。
为在后续(hòuxù)实现(shíxiàn)更专业、高效(gāoxiào)的检索,并(bìng)在此基础(cǐjīchǔ)上提供细粒度的知识服务,DEMC对CDLI的语义知识表示框架进行了扩展(kuòzhǎn),对两河早期契约(qìyuē)(qìyuē)文本的结构(jiégòu)进行深度解析(jiěxī)、并以(yǐ)CIDOC-CRM、FOAF为基础,融合《民法典(mínfǎdiǎn)》索引(suǒyǐn)平台(píngtái)的相关叙词(xùcí)索引 ,实现了对契约文书内容的语义关联构建。扩展后的语义结构除包含CDLI提供的各种元数据之外,增设了Text Information、Historical Document、Visual Item等实体类分别用于表示契约文书文本特征、契约文书的内容结构及相关联的多模态资源进行组织(zǔzhī)和关联。对两河早期契约文书中的主体(subject)、客体(object)、甲方(agent)、乙方(patient)、担保人(guarantor)、见证人(witness)、名义见证人(nominal witness)、签约(signed)、执行(executed)等专有概念进行创新性界定并实现了细粒度的语义关联构建,实现了针对买卖(sale)、借贷(Loan)、租赁(Lease)等不同类型契约文书内容的知识表示(以CDLI/P112333为例)。
URI、契约类型、主体、客体、甲方、乙方、担保人、见证人(jiànzhèngrén)、名义见证人、签署(qiānshǔ)时间、执行时间、关联文本、文物载体
在数据应用环节,DEMC提出在现有语义架构的基础(jīchǔ)上对数据库中的资源进行知识抽取和知识库(zhīshíkù)构建的过程。
例如,对于契约文本中的“主体”角色,可以通过(tōngguò)如下方式(fāngshì)进行自动知识抽取:
# 语义(yǔyì)角色分类示例
roles = ["主体(subject)", "客体(kètǐ)(object)", "甲方(jiǎfāng)(agent)",
"乙方(yǐfāng)(patient)", "担保人(guarantor)", "见证人(jiànzhèngrén)(witness)",
"名义(míngyì)见证人(jiànzhèngrén)(nominal witness)", "签约时间(signed)", "执行时间(executed)"]
在知识(zhīshí)抽取之后(zhīhòu),还可以利用RAG等新兴的人工智能技术对相关资源构建可视化服务框架,并提供检索和智能化问答功能。
通过全面介绍DEMC数据库的核心目标、技术架构、数据流模型及多样化(duōyànghuà)功能模块,并简要概述全栈开发的技术解决方案,以完整呈现该平台的潜力与功能。用户可(kě)通过多字段检索获取全部信息(xìnxī)与数据。
韩牧哲(江苏大学科技(kējì)信息研究所)
(本文来自澎湃新闻,更多(duō)原创资讯请下载“澎湃新闻”APP)
早期两河流域契约数据库(DEMC)作为(zuòwéi)国内首个自主开发的楔形文字在线数据库,是教育部(jiàoyùbù)哲学社会科学研究重大课题攻关项目(23JZD040)的阶段性(jiēduànxìng)研究成果之一。目前其1.0版本(bǎnběn)已经上线(shàngxiàn)(网址:http://wx.xdsxds.com/layout/home),提供免费使用服务以及AI助手服务。
为服务于国内世界古代史、古文字学、经济史、法律(fǎlǜ)史、比较法学、数字人文等领域学者(xuézhě)的(de)研究需求,DEMC旨在对分散于全球各地图书馆、博物馆、档案馆的早期(zǎoqī)两河流域(公元前三千纪)契约文书资源进行数字化采集,这些资源实体的分布广泛、专业性(zhuānyèxìng)强且存在大量未出版内容,其发表渠道也非常(fēicháng)零散,传统纸质期刊与(yǔ)电子资源的割裂造成了文献搜集的难度。DEMC通过数字人文技术整合上述(shàngshù)碎片化资源,以期构建集数据采集、文本挖掘、多标签分类、多模态关联展示(zhǎnshì)及可视化于一体的综合性平台,为上述各领域的研究者提供系统化研究工具。
DEMC数据库主要收录(shōulù)两河流域早期的(de)楔形文字文本资源,具体包含三个时期:古苏美尔时期(又称前萨尔贡、早王朝时期)、阿卡德时期(又名萨尔贡王朝)和新苏美尔时期(即乌尔第三(dìsān)王朝)。在(zài)内容上,DEMC数据库主要收录的契约(qìyuē)文书(wénshū)以买卖契约和借贷契约为主。除契约文书的中英文及拉丁转写文本内容外,数据库还收录与之相关的各类多模态资源,主要包括原始泥板照片、临摹图像等,并记录相关资源实体的馆藏信息,以便提供全方位的研究(yánjiū)材料。
DEMC数据库主要(zhǔyào)包括四种功能,涵盖从数据采集到(dào)知识服务的全过程。
DEMC以技术成熟度较高、通用性较强的(de)FileMaker Pro工具为基础进行开发,该系统支持与MySQL、Oracle等主流的关系数据(shùjù)库进行数据集成和数据共享,其主要功能包括对早期楔形文字契约文书资源进行标准化数据存储,制定统一(tǒngyī)的文本、图像采集与整合标准,并以严格的专业元数据系统进行结构化约束;同时保留动态扩展(kuòzhǎn)能力,在使用过程中可以(kěyǐ)灵活增补(zēngbǔ)所需的新字段。
数据库不仅提供(tígōng)文本的转写与英汉双(yīnghànshuāng)语翻译,还包含多个专业字段,如(rú)契约类型、固定格式、术语、标的物与数量(shùliàng)、缔约方(买卖(mǎimài)契约中的卖方/买方、借贷契约中的贷方/借方)、见证人、誓言、其他关联信息,以及文本的出版信息、年代、出土地点、收藏机构、对应CDLI编号等基础信息。
为在后续(hòuxù)实现(shíxiàn)更专业、高效(gāoxiào)的检索,并(bìng)在此基础(cǐjīchǔ)上提供细粒度的知识服务,DEMC对CDLI的语义知识表示框架进行了扩展(kuòzhǎn),对两河早期契约(qìyuē)(qìyuē)文本的结构(jiégòu)进行深度解析(jiěxī)、并以(yǐ)CIDOC-CRM、FOAF为基础,融合《民法典(mínfǎdiǎn)》索引(suǒyǐn)平台(píngtái)的相关叙词(xùcí)索引 ,实现了对契约文书内容的语义关联构建。扩展后的语义结构除包含CDLI提供的各种元数据之外,增设了Text Information、Historical Document、Visual Item等实体类分别用于表示契约文书文本特征、契约文书的内容结构及相关联的多模态资源进行组织(zǔzhī)和关联。对两河早期契约文书中的主体(subject)、客体(object)、甲方(agent)、乙方(patient)、担保人(guarantor)、见证人(witness)、名义见证人(nominal witness)、签约(signed)、执行(executed)等专有概念进行创新性界定并实现了细粒度的语义关联构建,实现了针对买卖(sale)、借贷(Loan)、租赁(Lease)等不同类型契约文书内容的知识表示(以CDLI/P112333为例)。
URI、契约类型、主体、客体、甲方、乙方、担保人、见证人(jiànzhèngrén)、名义见证人、签署(qiānshǔ)时间、执行时间、关联文本、文物载体
在数据应用环节,DEMC提出在现有语义架构的基础(jīchǔ)上对数据库中的资源进行知识抽取和知识库(zhīshíkù)构建的过程。
例如,对于契约文本中的“主体”角色,可以通过(tōngguò)如下方式(fāngshì)进行自动知识抽取:
# 语义(yǔyì)角色分类示例
roles = ["主体(subject)", "客体(kètǐ)(object)", "甲方(jiǎfāng)(agent)",
"乙方(yǐfāng)(patient)", "担保人(guarantor)", "见证人(jiànzhèngrén)(witness)",
"名义(míngyì)见证人(jiànzhèngrén)(nominal witness)", "签约时间(signed)", "执行时间(executed)"]
在知识(zhīshí)抽取之后(zhīhòu),还可以利用RAG等新兴的人工智能技术对相关资源构建可视化服务框架,并提供检索和智能化问答功能。
通过全面介绍DEMC数据库的核心目标、技术架构、数据流模型及多样化(duōyànghuà)功能模块,并简要概述全栈开发的技术解决方案,以完整呈现该平台的潜力与功能。用户可(kě)通过多字段检索获取全部信息(xìnxī)与数据。
韩牧哲(江苏大学科技(kējì)信息研究所)
(本文来自澎湃新闻,更多(duō)原创资讯请下载“澎湃新闻”APP)





相关推荐
评论列表
暂无评论,快抢沙发吧~
你 发表评论:
欢迎