数据是数据库中存储的基本对象,是描述事物的符号记录。数据的种类包括文本、图形、图像、音频、视频、学生的档案记录、货物的运输情况等。
数据库(DB)是长期存储在计算机内、有组织的、可共享的大量数据的集合。数据库的基本特征包括数据按一定的数据模型组织、描述和存储;可为各种用户共享;冗余度较小;数据独立性较高;易扩展。
数据库系统(DBS)是一个采用了数据库技术,有组织地、动态地存储大量相关数据,方便多用户访问的计算机系统。其由下面四个部分组成:
数据库管理系统(DBMS)的功能包括:实现对共享数据有效的组织、管理和存取;包括数据定义、数据库操作、数据库运行管理、数据的存储管理、数据库的建立和维护等。
DBMS的分类:关系数据库系统RDBS、面向对象的数据库系统OODBS、对象关系数据库系统ORDBS。
数据库系统的体系结构:集中式数据库系统(所有东西集中在DBMS电脑上)、客户端/服务器体系结构(客户端负责请求和数据表示,服务器负责数据库服务)、并行数据库系统(多个物理上在一起的CPU)、分布式数据库系统(物理上分布在不同地方的计算机)。
以上的数据库系统实际上是一个分层次的设计,从底至上称为物理级数据库(实际为一个数据库文件)、概念级数据库、用户级数据库,各层情况如下:
需求分析:即分析数据存储的要求,产出物有数据流图、数据字典、需求说明书。
概念结构设计:就是设计E-R图,也即实体-联系图,与物理实现无关,说明有哪些实体,实体有哪些属性。
逻辑结构设计:将E-R图,转换成关系模式,也即转换成实际的表和表中的列属性,这里要考虑很多规范化的东西。
物理设计:根据生成的表等概念,生成物理数据库。
数据模型三要素:数据结构(所研究的对象类型的集合)、数据操作(对数据库中各种对象的实例允许执行的操作的集合)、数据的约束条件(一组完整性规则的集合)。
用E-R图来描述概念数据模型,世界是由一组称作实体的基本对象和这些对象之间的联系构成的。在E-R模型中,使用椭圆表示属性(一般没有)、长方形表示实体、菱形表示联系,联系的两端要填写联系类型,示例如下图:
各概念如下:
联系类型:一对一1:1、一对多1:N、多对多M:N。
属性分类:简单属性和复合属性(属性是否可以分割)、单值属性和多值属性(属性有多个取值)、NULL属性(无意义)、派生属性(可由其他属性生成)。
关系模型中数据的逻辑结构是一张二维表,由行列组成。用表格结构表达实体集,用外键标识实体间的联系。
优点:建立在严格的数学概念基础上;概念单一、结构简单、清晰,用户易懂易用;存取路径对用户透明,从而数据独立性、安全性好,简化数据库开发工作。
缺点:由于存取路径透明,查询效率往往不如非关系数据模型。
那么E-R模型如何转换为关系模型呢(实际就是转换为多少张表)?
每个实体都对应一个关系模式;
联系分为三种:1:1联系中,联系可以放到任意的两端实体中,作为一个属性(要保证1:1的两端关联);1:N的联系中,联系可以单独作为一个关系模式,也可以在N端中加入1端实体的主键;M:N的联系中,联系必须作为一个单独的关系模式,其主键是M和N端的联合主键。明确了有多少关系模式,就知道有多少张表,同时,表中的属性也确定了,注意联系是作为表还是属性,若是属性又是哪张表的属性即可。
关系模式在代数运算时可以理解为数据库中的表,两个概念通用。
并:结果是两张表中所有记录数合并,相同记录只显示一次。
交:结果是两张表中相同的记录。
差:S1-S2,结果是S1表中有而S2表中没有的那些记录。
笛卡尔积:S1*S2,产生的结果包括S1和S2的所有属性列,并且S1中每条记录依次和S2中所有记录组合成一条记录,最终属性列为S1+S2属性列,记录数为S1*S2记录数。
投影:实际是按条件选择某关系模式中的某列,列也可以用数字表示。
选择:实际是按条件选择某关系模式中的某条记录。
自然连接的结果显示全部的属性列,但是相同属性列只显示一次,显示两个关系模式中属性相同且值相同的记录。
效率问题:关系代数运算的效率,归根结底是看参与运算的两张表格的属性列数和记录数,属性列和记录数越少,参与运算的次数自然越少,效率就越高。因此,效率高的运算一般都是在两张表格参与运算之前就将条件判断完。
给定一个x,能唯一确定一个Y,就称X确定Y,或者说Y依赖于x,例如Y=x*x函数。函数依赖又可扩展以下两种规则:
函数依赖的公理系统(Armstrong)
设关系模式R<U,F>,U是关系模式R的属性全集,F是关系模式R的一个函数依赖集。对于R<U,F>来说有以下的:
自反律:若Y⊆X⊆U,则X→Y在 R 上成立。
增广律:若X→Y在 R 上成立,且Z⊆U,则XZ→YZ在 R 上成立
传递律:若X→Y和Y→Z在 R 上成立,则X→Z在 R 上成立
合并规则:若X→Y,X→Z,则X→YZ在 R 上成立
伪传递率:若X→Y,WY→Z,则XW→Z在 R 上成立
分解规则:若X→Y,Z⊆Y,则X→Z在 R 上成立
超键:能唯一标识此表的属性的组合。
候选键:超键中去掉冗余的属性,剩余的属性就是候选键。
主键:任选一个候选键,即可作为主键。
外键:其他表中的主键。
候选键的求法:根据依赖集画出有向图,从入度为0的节点开始,找出图中一个节点或者一个节点组合,能够遍历完整个图,就是候选键。
主属性:候选键内的属性为主属性,其他属性为非主属性。
实体完整性约束:即主键约束,主键值不能为空,也不能重复。
参照完整性约束:即外键约束,外键必须是其他表中已经存在的主键的值,或者为空。
用户自定义完整性约束:自定义表达式约束,如设定年龄属性的值必须在0到150之间。
触发器:通过写脚本来规定复杂的约束。本质属于用户自定义完整性约束。
范式总体如下:
关系中的每一个分量必须是一个不可分的数据项。通俗地说,第一范式就是表中不允许有小表的存在。
1NF可能存在的问题:1NF是最低一级的范式,范式程度不高,存在很多的问题。比如用一个单一的关系模式学生来描述学校的教务系统:学生(学号,学生姓名,系号,系主任姓名,课程号,成绩)。
学号 | 学生姓名 | 所在系 | 系主任姓名 | 课程号 | 成绩 |
202205 | 张三 | 计算机系 | 赵丽颖 | 01 | 90 |
202206 | 李四 | 计算机系 | 赵丽颖 | 01 | 80 |
202206 | 李四 | 计算机系 | 赵丽颖 | 02 | 85 |
202207 | 王五 | 机械系 | 杨幂 | 03 | 95 |
这个表满足第一范式,但是存在如下问题:
数据冗余:一个系有很多的学生,同一个系的学生的系主任是相同的,所以系主任名会重复出现。
更新复杂:当一个系换了一个系主任后,对应的这个表必须修改与该系学生有关的每个元组。
插入异常:如果一个系刚成立,没有任何学生,那么这个无法把这个系的信息插入表中。
删除异常:如果一个系的学生都毕业了,那么在删除该系学生信息时,这个系的信息也丢了。
如果关系R属于1NF,且每一个非主属性完全函数依赖于任何一个候选码,则R属于2NF。通俗地说,2NF就是在1NF的基础上,表中的每一个非主属性不会依赖复合主键中的某一个列。
按照定义,上面的学生表就不满足2NF,因为学号不能完全确定课程号和成绩(每个学生可以选多门课)。将学生表分解为:学生(学号,学生姓名,系编号,系名,系主任)、选课(学号,课程号,成绩),每张表均属于2NF。
学生表
学号 | 学生姓名 | 系编号 | 系名 | 系主任姓名 |
202205 | 张三 | 2002 | 计算机系 | 赵丽颖 |
202206 | 李四 | 2002 | 计算机系 | 赵丽颖 |
202207 | 王五 | 3001 | 机械系 | 杨幂 |
选课表
学号 | 课程号 | 成绩 |
202205 | 01 | 90 |
202206 | 01 | 80 |
202206 | 02 | 85 |
202207 | 03 | 95 |
在满足2NF的基础上,表中不存在非主属性对码的传递依赖。继续上面的实例,学生关系模式就不属于3NF,因为学生无法直接决定系主任和系名,是由学号->系编号,再由系编号->系主任,系编号->系名,因此存在非主属性对主属性的传递依赖,将学生表进一步分解为:学生(学号,学生姓名,系编号)、系(系编号,系名,系主任)、选课(学号,课程号,成绩),每张表都属于3NF。
学生表
学号 | 学生姓名 | 系编号 |
202205 | 张三 | 2002 |
202206 | 李四 | 2002 |
202207 | 王五 | 3001 |
系表
系编号 | 系名 | 系主任姓名 |
2002 | 计算机系 | 赵丽颖 |
3001 | 机械系 | 杨幂 |
选课表
学号 | 课程号 | 成绩 |
202205 | 01 | 90 |
202206 | 01 | 80 |
202206 | 02 | 85 |
202207 | 03 | 95 |
是指在第三范式的基础上进一步消除主属性对于码的部分函数依赖和传递依赖。通俗的来说,就是在每一种情况下,每一个依赖的左边决定因素都必然包含候选键,
上图中,候选键有两种情况:组合键(S,T)或者(S,J),依赖集为{SJ—T,T—J},可知,STJ三个属性都是主属性,因此其达到了3NF(无非主属性),然而,第二种情况,即(S,J)为候选键的时候,对于依赖T->J,T在这种情况不是候选键,即T-J的决定因素不包含任意候选码,因此上图不是BCNF。要使上图关系模式转换为BCNF也很简单,只需要将依赖T->J变为TS->J即可,这样其左边决定因素就包含了候选键之一S。
范式之间的转换一般都是通过拆分属性,即模式分解,将具有部分函数依赖和传递依赖的属性分离出来,来达到一步步优化,一般分为以下两种:
对于关系模式R,有依赖集F,若对R进行分解,分解出来的多个关系模式,保持原来的依赖集不变,则为保持函数依赖的分解。另外,注意要消除掉冗余依赖(如传递依赖)。
实例:设原关系模式R(A,B,C),依赖集F(A->B,B->C,A->C),将其分解为两个关系模式R1(A,B)和R2(B,C),此时R1中保持依赖A->B,R2保持依赖B->C,说明分解后的R1和R2是保持函数依赖的分解,因为A->C这个函数依赖实际是一个冗余依赖,可以由前两个依赖传递得到,因此不需要管。
保持函数依赖的判断(补充,第2点不强求):如果F上的每一个函数依赖都在其分解后的某一个关系上成立,则这个分解是保持依赖的(这是一个充分条件)。也即我们课堂上说的简单方法,看函数每个依赖的左右两边属性是否都在同一个分解的模式中。
分解后的关系模式能够还原出原关系模式,就是无损分解,不能还原就是有损。当分解为两个关系模式,可以通过以下定理判断是否无损分解。
定理:如果R的分解为p={R1,R2},F为R所满足的函数依赖集合,分解p具有无损连接性的充分必要条件是R1∩R2->(R1-R2)或者R1∩R2->(R2-R1)。当分解为三个及以上关系模式时,可以通过表格法求解。
事务:由一系列操作组成,这些操作,要么全做,要么全不做,拥有四种特性:
事务是并发控制的前提条件,并发控制就是控制不同的事务并发执行,提高系统效率,但是并发控制中存在下面三个问题:
X锁是排它锁(写锁)。若事务T对数据对象A加上X锁,则只允许T读取和修改A,其他事务都不能再对A加任何类型的锁,直到T释放A上的锁。
S锁是共享锁(读锁)。若事务T对数据对象A加上S锁,则只允许T读取A,但不能修改A,其他事务只能再对A加S锁(也即能读不能修改),直到T释放A上的S锁。
共分为三级封锁协议,如下:
一级封锁协议:事务在修改数据R之前必须先对其加X锁,直到事务结束才释放。可解决丢失更新问题。
二级封锁协议:一级封锁协议的基础上加上事务T在读数据R之前必须先对其加S锁,读完后即可释放S锁。可解决丢失更新、读脏数据问题。
三级封锁协议:一级封锁协议加上事务T在读取数据R之前先对其加S锁,直到事务结束才释放。可解决丢失更新、读脏数据、数据重复读问题。
本文来源:程序之心,转载请注明出处!
知识图谱是较为典型的多学科交叉领域,涉及知识工程、自然语言处理、机器学习、图数据库等多个领域。《知识图谱:方法、实践与应用》系统地介绍知识图谱涉及的关键技术,如知识建模、关系抽取、图存储、自动推理、图谱表示学习、语义搜索、知识问答、图挖掘分析等。此外,本书还尝试将学术前沿和实战结合。
最新内容
© 2016 - 2024 chengxuzhixin.com All Rights Reserved.