9月4日,全国哲学社会科学工作办公室发布了《关于2023年国家社科基金年度项目和青年项目立项名单的公示》,学院教师文玉锋喜获国家社科基金一般项目。
文玉锋老师获批的“古籍文本挖掘与知识计算研究”项目,旨在以数字人文为研究视角,借助于自然语言处理等先进信息技术,立足于申请人所在团队针对古籍文献知识组织和数字人文研究所取得的前期研究成果,以及本团队前期已开发的方法与工具,围绕古籍文献文本挖掘与知识计算对古籍整理展开深入研究,为“文史互证”学术理想和“辨章学术,考镜源流”学术传统在更大范围内的落地实践探索新的解决方案。
课题的主要研究内容有以下几个方面:(1)古籍文献语料库建设及前沿技术导入。按照经、史、子、集四部,依托课题组所在机构的丰富馆藏,对拟纳入研究的古籍文献进行系统梳理,初步建成拟分析的古籍文献语料库;(2)古籍文献文本挖掘。使用Python扩展库Jiayan(甲言)、networkx、plotly、dash、pyechartst等工具,借助隐马尔可夫模型,结合TextRank、TF-IDF等算法,对语料库中所涉及文献进行分词、去停、模糊词识别和剔除,构建人物关联矩阵和事件关联矩阵以及人物、事件二模网络并对其进行可视化表征,对文献中的人物、事件的序时进行可视化表征;(3)古籍文献知识计算。基于齐普夫定律,使用AntConc、WordSmith ToolsUcinet、TextRank等工具,进行词频统计、识别高低词频、处理同频词;进行高、中、低频率的人物、事件关系网络特征解析,并结合二模网络和序时结构,探究人物和事件之间的关系,以全面解析古籍文献的知识体系和历史背景;(4)古籍文献知识要素分析的指标体系与理论特性。使用Stata软件、Python-Statsmodels库,结合Latent Dirichlet Allocation和Non-negative Matrix Factorization等算法,构建古籍文献知识要素分析的指标体系,实现对古籍文献知识组织基础理论的发展。
该课题着眼于古籍文献内容挖掘与知识要素提取,从而既传承和吸纳了本领域相关研究的最新成果,又实现了对本领域现有研究的补充和完善,其独特的研究价值具体表现在:着眼于词语级别的古籍文献挖掘,从而使古籍文献数字化建设工作深入到了内容维度;着眼于构建古籍文献知识计算的指标体系,从而为基于大数据的“文史互证”探索了新的路径。
学院一直高度重视国家社科基金项目申报与管理工作,积极发挥学术团队作用,特别是“三抓三促”行动开展以来,学院不断激发教师科研项目培育工作,切实做好国家级项目的摸底、动员、组织、论证、评审等基础工作,为提高学院教师国家级立项率打下了坚实的基础。
撰稿人:薄慧敏
审稿人:和苏超