一键总结音视频内容
Attention is All you Need
数据准备 - Python编程基础及应用
为了准确地识别这种关系网络,我们首先对诗以及诗人的数据进行了一系列的预处理,也就是进行筛选。具体的一些实施过程如下。
定义类型
在程序中定义了两个类型,分别是Point类型和Poet类型。这两个类型对象分别用来存储一首诗和一个诗人的信息。
Point类型
Point类型对象用来存储一首诗的ID、标题、作者和内容等信息。同时定义了一个函数用于打印输出这首诗的相关信息。
Poet类型
Poet类型对象用来存储诗人的编号、姓名、出生年和死亡年等信息。同样也定义了一个函数用于打印诗人的相关信息。
数据处理
接下来编写了一个load points函数,用于对唐诗和诗人进行筛选。筛选的规则是只有当一首唐诗的诗人可以在中国历代人物传记中定位到确定的个体时,这首唐诗和诗人才会被纳入统计的范围。
数据迭代
在处理数据时,使用了一个进度条来不断刷新处理进度。通过数据库连接和查询语句,将符合条件的诗和诗人信息添加到对应的列表和字典中。
别名处理
另外还定义了一些函数,用于根据诗人的姓名查找对应的诗人信息,以及获取诗人的别名列表。
通过这些数据准备的操作,实现了对唐代诗人社交网络的数据筛选和准备工作。