建立全文索引中有两项非常重要,一个是如何对文本进行分词,一是建立索引的数据结构。分词的方法基本上是二元分词法、最大匹配法和统计方法。索引的数据结构基本上采用倒排索引的结构。
创新互联拥有网站维护技术和项目管理团队,建立的售前、实施和售后服务体系,为客户提供定制化的成都网站设计、网站建设、外贸网站建设、网站维护、成都多线机房解决方案。为客户网站安全和日常运维提供整体管家式外包优质服务。我们的网站维护服务覆盖集团企业、上市公司、外企网站、购物商城网站建设、政府网站等各类型客户群体,为全球成百上千家企业提供全方位网站维护、服务器维护解决方案。
分词的好坏关系到查询的准确程度和生成的索引的大小。在中文分词发展中,早期经常使用分词方式是二元分词法,该方法的基本原理是将包含中文的句子进行二元分割,不考虑单词含义,只对二元单词进行索引。因此该方法所分出的单词数量较多,从而产生的索引数量巨大,查询中会将无用的数据检索出来,好处是算法简单不会漏掉检索的数据。之后又发展出最大匹配分词方法,该方法又分为正向最大分词和逆向最大分词。其原理和查字典类似,对常用单词生成一个词典,分析句子的过程中最大的匹配字典中的单词,从而将句子拆分为有意义的单词链。最大匹配法中正向分词方法对偏正式词语的分辨容易产生错误,比如“首饰和服装”会将“和服”作为单词分出。达梦数据库采用的是改进的逆向最大分词方法,该分词方法较正向正确率有所提高。最为复杂的是通过统计方式进行分词的方法。该方法采用隐式马尔科夫链,也就是后一个单词出现的概率依靠于前一个单词出现的概率,最后统计所有单词出现的概率的最大为分词的依据。这个方法对新名词和地名的识别要远远高于最大匹配法,准确度随着取样文本的数量的增大而提高。
二元分词方法和统计方法是不依赖于词典的,而最大匹配法分词方法是依赖于词典的,词典的内容决定分词结构的好坏。
全文检索的索引被称为倒排索引,之所以成为倒排索引,是因为将每一个单词作为索引项,根据该索引项查找包含该单词的文本。因此,索引都是单词和唯一记录文本的标示是一对多的关系。将索引单词排序,根据排序后的单词定位包含该单词的文本。
步骤1)读取一整条句子到变量str中,转到步骤2
步骤2)从句子的尾端读取1个字到变量word中,转到步骤3
步骤3)在字典查找word中保存的单词。如果存在则保存word,转到步骤4,否则转到步骤5)
步骤4)如果是字典中最大单词或者超过最大单词数(认定为新词),从句尾去掉该单词,返回步骤2
步骤5)读取前一个字到word中,构成新单词,转到步骤3)
词库的内存数据结构和词库中单词的匹配算法
内存中单词采用层次结构保存
假设字典中有如下的单词:中国 中华民国 国家 人民 民主
在内存中按照如下方式按层排列,其中每一个方块代表一个字,箭头所指向为该单词的前一个字
1、先把数据库数据倒出来(导成.txt格式的),用软件转成unicode格式。
2、把数据库转成unicode格式。
3、把数据倒回。
说明:为了安全起见,在操作过程中一定要注意备份操作。
SqlServer
SQL Server是由Microsoft开发和推广的关系数据库管理系统(DBMS),它最初是由Microsoft、Sybase和Ashton-Tate三家公司共同开发的,并于1988年推出了第一个OS/2版本。
SQL Server 关系数据库简介:
SQL Server是由Microsoft开发和推广的关系数据库管理系统(DBMS),它最初是由Microsoft、Sybase和Ashton-Tate三家公司共同开发的,并于1988年推出了第一个OS/2版本。 SQL Server近年来不断更新版本,1996年,Microsoft 推出了SQL Server 6.5版本;1998年,SQL Server 7.0版本和用户见面;SQL Server 2000是Microsoft公司于2000年推出的最新版本。
Sql Server 区管理(GAM,SGAM)
大家都知道Sql Server 中数据文件存储的最小单位是页面(Page),但实际SQLSERVE并不是以页面为单位给数据分配空间的,Sql Server默认的存储分配单位是盘区(Extend)。这样做的主要原因是为了避免频繁的读写IO,提升性能。在表或其它对象分配存储空间,不是直接分配一个8K的页面,而是以一个盘区(Extend)为存储分配单位,一个盘区为8个页面(Size = 8*8K=64K)。
这样,对区得操作就会非常频繁,也要求Sql Server有自己的一套系统管理着数量众多的区。其中最突出的出一个问题,那就是在存储那些只有少量数据,不足8K的对象,如果也是分配给一个盘区,就会存在存储空间上的浪费,降低了空间分配效率。
为解决上述问题,SQLSERVER提供了一种解决方案,定义了两种盘区类型,统一盘区和混合盘区。
全局分配映射表 (GAM) :统一盘区,GAM 页记录已分配的区。每个 GAM 包含 64,000 个区,相当于近 4 GB 的数据。GAM 用一个位来表示所涵盖区间内的每个区的状态。如果位为 1,则区可用;如果位为 0,则区已分配。
共享全局分配映射表 (SGAM) :由多个对象共同拥有该盘区,SGAM 页记录当前用作混合区且至少有一个未使用的页的区。每个 SGAM 包含 64,000 个区,相当于近 4 GB 的数据。SGAM 用一个位来表示所涵盖区间内的每个区的状态。如果位为 1,则区正用作混合区且有可用页。如果位为 0,则区未用作混合区,或者虽然用作混合区但其所有页均在使用中。
在实际为对象分配存储盘区时,为了提高空间利用率,默认的情况下,如果一个对象一开始大小小于8个页面,就尽量放在混合盘区中,如果该对象大小增加到8个页面后,SQLSERVER会为这个对象重新分配一个统一盘区。
据区当前的使用情况,GAM 和 SGAM 中每个区具有以下位模式:
这将简化区管理算法。若要分配统一区,数据库引擎将在 GAM 中搜索为 1 的位,并将其设置为 0。若要查找具有可用页的混合区,数据库引擎将在 SGAM 中搜索为 1 的位。若要分配混合区,数据库引擎将在 GAM 中搜索为 1 的位,将其设置为 0,然后将 SGAM 中对应的位设置为 1。若要释放区,数据库引擎确保将 GAM 位设置为 1,将 SGAM 位设置为 0。实际上,数据库引擎内部使用的算法比本主题中介绍的更为复杂,因为数据库引擎在数据库中均匀分布数据。但是,由于无需管理区分配信息链,因此即使是实际算法也会被简化。
管理Sql Server可用空间
首先摘录段 MSDN 的一段官方解释:
页可用空间 (PFS) 页记录每页的分配状态,是否已分配单个页以及每页的可用空间量。PFS 对每页都有一个字节,记录该页是否已分配。如果已分配,则记录该页是为空、已满 1% 到 50%、已满 51% 到 80%、已满 81% 到 95% 还是已满 96% 到 100%。
将区分配给对象后,数据库引擎将使用 PFS 页来记录区中的哪些页已分配或哪些页可用。数据库引擎必须分配新页时,将使用此信息。保留的页中的可用空间量仅用于堆和 Text/Image 页。数据库引擎必须找到一个具有可用空间的页来保存新插入的行时,使用此信息。索引不要求跟踪页的可用空间,因为插入新行的点是由索引键值设置的。
在数据文件中,PFS 页是文件头页之后的第一页(页码为 1)。接着是 GAM 页(页码为 2),然后是 SGAM 页(页码为 3)。第一个 PFS 页之后是一个大小大约为 8,000 页的 PFS 页。在第 2 页的第一个 GAM 页之后还有另一个 GAM 页(包含 64,000 个区),在第 3 页的第一个 SGAM 页之后也有另一个 SGAM 页(包含 64,000 个区)。下图显示了数据库引擎用来分配和管理区的页顺序。
看过之后,让人一头雾水,真是不知所云,真佩服这些 MSDN 是如何翻译的,看来中文 MSDN 太不靠谱,最后没办法,只能google了
其实上面说的意思就是:Sql Server 管理可用空间的方法是,查找每个每个页面是否使用,以及使用情况情况。这时就需要一个页面来记录各个页面的使用情况了,这就是 PFS 页。
PFS(Page Free Space),也叫页面自由空间,该页面用来跟踪一个文件中每一个特定的页面的利用率情况。一个文件中第二个页面(页码1)就是PFS页面,该页面的每个字节都记录了相应页面的分配情况、页面类型、是否IAM页、是否包含删除记录、以及空间利用率信息;PFS能够管理和跟踪8088个页面的使用情况,即接近64M的空间,以后每8088个页面将再出现一次。
让我们首先了解一下PFS的页面管理字节的构造,管理单位为字节,每字节管理一个页面。
第0个bit为保留字节,始终为0
第1个bit表示该页面是否已分配,我们知道GAM页用来管理区是否已分配,但一个区包含8个页面,所以用该bit用来准确定位该区的某个页面是否已分配出去了。
第2个bit表示该页面是否混合分区的一个页面。
第3个bit表示该页面是否是一个IAM(索引分配映射)页面。
第4个bit表示该页面中是否包含幻影或已删除记录,这有助于SQL Server定期清理幻影或已删除记录。
第5~7个页面表示该页面的空间使用率情况。
---算法:记录个位数2的数据之间的间距 create by youhaoxinqin 2014-7-8 10:50 update by youhaoxinqin 2014-7-8 13:44
create table demo(
SSCID int identity(1,1),
SSCISSUE nvarchar(200),
SSCNO int
)
--初始数据
insert into demo(SSCISSUE,SSCNO) values('270070401-001',36642)
insert into demo(SSCISSUE,SSCNO) values('270070401-002',12738)
insert into demo(SSCISSUE,SSCNO) values('270070401-003',93873)
insert into demo(SSCISSUE,SSCNO) values('270070401-004',32579)
insert into demo(SSCISSUE,SSCNO) values('270070401-005',93914)
insert into demo(SSCISSUE,SSCNO) values('270070401-006',82309)
insert into demo(SSCISSUE,SSCNO) values('270070401-007',58517)
insert into demo(SSCISSUE,SSCNO) values('270070401-008',98172)
insert into demo(SSCISSUE,SSCNO) values('270070401-009',90320)
insert into demo(SSCISSUE,SSCNO) values('270070401-010',35304)
insert into demo(SSCISSUE,SSCNO) values('270070401-011',96748)
insert into demo(SSCISSUE,SSCNO) values('270070401-012',30941)
insert into demo(SSCISSUE,SSCNO) values('270070401-013',36642)
insert into demo(SSCISSUE,SSCNO) values('270070401-014',12738)
insert into demo(SSCISSUE,SSCNO) values('270070401-015',93872)
insert into demo(SSCISSUE,SSCNO) values('270070401-017',32579)
insert into demo(SSCISSUE,SSCNO) values('270070401-018',93912)
insert into demo(SSCISSUE,SSCNO) values('270070401-019',82302)
insert into demo(SSCISSUE,SSCNO) values('270070401-020',58522)
insert into demo(SSCISSUE,SSCNO) values('270070401-021',98172)
insert into demo(SSCISSUE,SSCNO) values('270070401-022',90320)
insert into demo(SSCISSUE,SSCNO) values('270070401-023',35304)
insert into demo(SSCISSUE,SSCNO) values('270070401-024',96748)
insert into demo(SSCISSUE,SSCNO) values('270070401-025',30922)
--检索数据
select * from demo where SSCNO like'%2'
--创建全局临时表
create table ##remmber_id_no(
remmberkey int identity(1,1),
id int ,
no int
)
--创建全局临时表
create table ##remmber_id_no2(
remmberkey int identity(1,1),
id int ,
no int
)
--创建偏移数据
insert into ##remmber_id_no2(id,no) values(0,0)
--将算法数据存入两个全局临时表
declare demo_cursor cursor for select sscid,sscno from demo
go
open demo_cursor
declare @id int
declare @no int
declare @count int
set @count=0
fetch next from demo_cursor into @id,@no
while @@FETCH_STATUS=0
begin
select @count=COUNT(*) from demo where SSCID=@id and SSCNO like'%2'
if(@count0)
begin
insert into ##remmber_id_no(id,no) values(@id,@no)
insert into ##remmber_id_no2(id,no) values(@id,@no)
end
fetch next from demo_cursor into @id,@no
end
close demo_cursor
deallocate demo_cursor
--得出id距离
select (t.id-t2.id) as ID距离 from
(select * from ##remmber_id_no where remmberkey not in(select top 1 remmberkey from ##remmber_id_no )) as t,
(select * from ##remmber_id_no2 where remmberkey not in(select top 1 remmberkey from ##remmber_id_no2 )) as t2
where t.remmberkey=t2.remmberkey
drop table ##remmber_id_no
drop table ##remmber_id_no2
With T
As
(
Select * From TB Where newNo=103
Union All
Select TB.* From TB Inner Join T on TB.newNo=T.oldNo
)
Select * From T
利用SQL语句分页要看你用的什么数据库。
Oracle数据库可以使用ROWNUM或row_number(),例如:Select * from (select ROWNUM rn, t.* from table t) where rn between 11 and 20;
Select * from (select row_number() over (ORDER BY col1) rn, t.* from table t) where rn between 11 and 20;
SQLServer数据库可以用Top或者row_number()函数,道理同上。
利用SQL分页有局限性,就是针对不同的数据库有不同的写法,所以通常会在应用程序里面做分页通用性比较强。但是对于数据量非常庞大的应用来说,还是用SQL分页比较适合。