数字人文研究平台

严谨学术研究的伦理AI

专为历史研究设计的先进RAG和代理式AI架构

超越传统数据库和简单AI查询

语义搜索

基于向量的检索系统，使用语义理解而非关键词匹配来搜索历史文献。每个搜索查询都被转换为嵌入向量，并与我们向量化的古典文本语料库（汉书、史记等）进行匹配，返回语义上最相关的段落，并附带来源引用和置信度分数。

传统关键词搜索的局限：

•需要精确关键词匹配，遗漏概念相关但用词不同的内容
•无法理解古典中文文献中的语义含义
•例如：搜索'皇帝改革'会遗漏语义相近的'天子变法'

智能研究（RAG + 多智能体LLMs）

由先进AI驱动的多智能体对话式研究平台，能够在多轮对话中保持上下文。与简单搜索不同，该系统使用专门的AI智能体协作分析您的问题，检索相关历史资料，交叉引用多个文本，并生成带有详细引用的综合性答案。非常适合深入的历史研究和复杂的研究问题。

为何直接使用LLM无法满足历史研究需求：

•Token限制：ChatGPT的token容量有限，无法全面分析汉代史料
•注意力缺陷：无法聚焦特定历史语境，产生泛泛回答
•幻觉风险：可能在没有来源验证的情况下编造历史事实
•训练数据不透明：无法区分可靠史料和不可靠网络内容
•输出不一致：相同问题产生不同答案，违反学术可重复性

AI Key Fact Extraction Workflow

🤖

代理式AI预处理

专门的AI代理（CrewAI）协同工作，从经过认证的中国古典文献（《史记》、《汉书》、《后汉书》）中提取相关历史数据

CrewAI • Schema-driven Extraction • Protobuf

📊

精选数据投喂

将庞大的文本语料库转化为符合token限制的精选数据集，最大化LLM性能同时保持学术严谨性

Token Optimization • Context Windowing • Data Curation

🔍

检索增强生成（RAG）

将提取的历史数据与生成式AI结合，确保回答来自已验证的来源，提供比直接LLM查询更深入的见解

Qdrant Vector DB • Semantic Search • RAG Pipeline

⚙️

Agentic研究方法论

多轮对话保持对话上下文，支持深度研究探索。多智能体架构使专业智能体协同工作，处理不同研究任务

Multi-Turn Context • Collaborative Agents • Conversational AI

🛠️Advanced Digital Tools

代理式AI（CrewAI）

多代理协作处理复杂历史研究任务

向量搜索与RAG

跨认证历史语料库的语义相似性搜索

知识图谱

基于Neo4j图数据库的关系网络分析

多数据库架构

PostgreSQL、Neo4j、Qdrant、MongoDB实现全面数据管理

📊Research Applications

社交网络分析

图算法揭示汉代朝廷政治中的政治联盟、家族关系和权力动态

实时假设验证

学生可即时跨来源检查证据，而非数周的人工研究

跨来源验证

跨《史记》、《汉书》、《后汉书》的自动一致性验证

地理空间可视化

交互式地图可视化历史行军、战役和行政边界，并展示时间维度

Concrete Extraction & Analysis Examples

👤

人物实体提取

从古典中文文献中提取传记信息

刘邦，字季，沛县丰邑中阳里人 → 人物：刘邦，字：季，籍贯：沛县

项羽者，下相人也，字籍 → 人物：项羽，字：籍，籍贯：下相

萧何为沛主吏掾 → 人物：萧何，职位：主吏掾，地点：沛

🔗

关系分析

从历史文献中识别政治和家族关系

刘邦为汉王，韩信为大将军 → 政治关系：君臣关系

项羽杀义帝 → 政治关系：敌对关系

吕后，高祖皇后也 → 家族关系：夫妻关系

📅

事件时间线重构

关键历史事件的时间顺序排列

秦二世元年九月，陈胜起义 → 事件：陈胜起义，时间：前209年

汉元年十月，沛公至霸上 → 事件：刘邦入关，时间：前206年

垓下之战，项羽自刎 → 事件：项羽败亡，时间：前202年

🗺️

地理信息提取

绘制历史地点和行军路线

从沛县起兵，经砀山，至丰邑 → 路线：沛→砀→丰

楚汉相争于荥阳、成皋 → 战场：荥阳-成皋战区

建都长安，设未央宫 → 都城：长安，宫殿：未央宫