2. 什么是NoSQL?
创新互联于2013年开始,是专业互联网技术服务公司,拥有项目网站建设、成都做网站网站策划,项目实施与项目整合能力。我们以让每一个梦想脱颖而出为使命,1280元永福做网站,已为上家服务,为永福各地企业和个人服务,联系电话:028-86922220
2.1 NoSQL 概述
NoSQL(NoSQL = Not Only SQL ),意即“不仅仅是SQL”,
泛指非关系型的数据库。随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题,包括超大规模数据的存储。
(例如谷歌或Facebook每天为他们的用户收集万亿比特的数据)。这些类型的数据存储不需要固定的模式,无需多余操作就可以横向扩展。
2.2 NoSQL代表
MongDB、 Redis、Memcache
3. 关系型数据库与NoSQL的区别?
3.1 RDBMS
高度组织化结构化数据
结构化查询语言(SQL)
数据和关系都存储在单独的表中。
数据操纵语言,数据定义语言
严格的一致性
基础事务
ACID
关系型数据库遵循ACID规则
事务在英文中是transaction,和现实世界中的交易很类似,它有如下四个特性:
A (Atomicity) 原子性
原子性很容易理解,也就是说事务里的所有操作要么全部做完,要么都不做,事务成功的条件是事务里的所有操作都成功,只要有一个操作失败,整个事务就失败,需要回滚。比如银行转账,从A账户转100元至B账户,分为两个步骤:1)从A账户取100元;2)存入100元至B账户。这两步要么一起完成,要么一起不完成,如果只完成第一步,第二步失败,钱会莫名其妙少了100元。
C (Consistency) 一致性
一致性也比较容易理解,也就是说数据库要一直处于一致的状态,事务的运行不会改变数据库原本的一致性约束。
I (Isolation) 独立性
所谓的独立性是指并发的事务之间不会互相影响,如果一个事务要访问的数据正在被另外一个事务修改,只要另外一个事务未提交,它所访问的数据就不受未提交事务的影响。比如现有有个交易是从A账户转100元至B账户,在这个交易还未完成的情况下,如果此时B查询自己的账户,是看不到新增加的100元的
D (Durability) 持久性
持久性是指一旦事务提交后,它所做的修改将会永久的保存在数据库上,即使出现宕机也不会丢失。
3.2 NoSQL
代表着不仅仅是SQL
没有声明性查询语言
没有预定义的模式
键 - 值对存储,列存储,文档存储,图形数据库
最终一致性,而非ACID属性
非结构化和不可预知的数据
CAP定理
高性能,高可用性和可伸缩性
分布式数据库中的CAP原理(了解)
CAP定理:
Consistency(一致性), 数据一致更新,所有数据变动都是同步的
Availability(可用性), 好的响应性能
Partition tolerance(分区容错性) 可靠性
P: 系统中任意信息的丢失或失败不会影响系统的继续运作。
定理:任何分布式系统只可同时满足二点,没法三者兼顾。
CAP理论的核心是:一个分布式系统不可能同时很好的满足一致性,可用性和分区容错性这三个需求,
因此,根据 CAP 原理将 NoSQL 数据库分成了满足 CA 原则、满足 CP 原则和满足 AP 原则三 大类:
CA - 单点集群,满足一致性,可用性的系统,通常在可扩展性上不太强大。
CP - 满足一致性,分区容忍性的系统,通常性能不是特别高。
AP - 满足可用性,分区容忍性的系统,通常可能对一致性要求低一些。
CAP理论就是说在分布式存储系统中,最多只能实现上面的两点。
而由于当前的网络硬件肯定会出现延迟丢包等问题,所以分区容忍性是我们必须需要实现的。
所以我们只能在一致性和可用性之间进行权衡,没有NoSQL系统能同时保证这三点。
说明:C:强一致性 A:高可用性 P:分布式容忍性
举例:
CA:传统Oracle数据库
AP:大多数网站架构的选择
CP:Redis、Mongodb
注意:分布式架构的时候必须做出取舍。
一致性和可用性之间取一个平衡。多余大多数web应用,其实并不需要强一致性。
因此牺牲C换取P,这是目前分布式数据库产品的方向。
4. 当下NoSQL的经典应用
当下的应用是 SQL 与 NoSQL 一起使用的。
代表项目:阿里巴巴商品信息的存放。
去 IOE 化。
ps:I 是指 IBM 的小型机,很贵的,好像好几万一台;O 是指 Oracle 数据库,也很贵的,好几万呢;M 是指 EMC 的存储设备,也很贵的。
难点:
数据类型多样性。
数据源多样性和变化重构。
数据源改造而服务平台不需要大面积重构。
是的,NoSQL(非关系型数据库)简单来说,关系模型指的就是二维表格模型,而一个关系型数据库就是由二维表及其之间的联系组成的一个数据组织。 NoSQL最普遍的解释是“非关系型的”,强调Key-Value Stores和文档数据库的优点,而不是单纯的反对RDBMS。
非关系型数据库特点
1.可以处理超大量的数据。
2.运行在便宜的PC服务器集群上。PC集群扩充起来非常方便并且成本很低,避免了“sharding”操作的复杂性和成本。
3.击碎了性能瓶颈。NoSQL的支持者称,通过NoSQL架构可以省去将Web或Java应用和数据转换成SQL友好格式的时间,执行速度变得更快。
4.没有过多的操作。
5.支持者来源于社区。因为NoSQL项目都是开源的,因此它们缺乏供应商提供的正式支持。这一点它们与大多数开源项目一样,不得不从社区中寻求支持。
企业应用系统架构优化方法
系统优化是一个全面而复杂的工作,很难通过某一方面的提升而获得很好的效果,也很难在一朝一夕完成系统的全面优化,每个系统都有其特性,需要综合分析综合考虑才能获得比较好的效果。 我下面为大家整理了一些企业应用系统架构优化的方法,欢迎阅读参考:
1 实现动静分离
所谓“动静”分离,就是将静态资源如图片、CSS、Js等和动态资源如JSP、Servlet等进行分开的处理,通过使用不同的服务器,从而加快页面的响应速度,这是目前互联网应用最常用的方式之一,但是在企业应用端相对应用较少。
动静分离至少有两个方面的好处,一是提高了静态资源的处理速度,因为应用服务器处理静态资源的速度—般都不如专业的web服务器,第二个好处就是减少了应用服务器的负担,应用服务器专注于处理动态请求,这对系统的稳定运行是有很大的帮助的。
要实现动静分离,有两种方式,一种是在加载静态资源的HTML语言中,将地址指定到不同的IP/域名上,实现彻底的分离。这种方式需要在设计之初进行考虑,并不适合优化项目,因为这种修改会产生很大的工作量。第二种方式是通过分发器,拦截对静态资源的访问,将动态资源转发给后端的应用服务器,实现动静分离。这种方式的好处是不需要改动现有的代码,仅需要做部署方式故调整,增加web服务器进行静态资源的处理。示意图如下:
目前转发器比较多,既有老牌的Apache Web Server、有性能卓越的Zeus,也有目前如日中天的Nainx,不同的项目可以按照各自的需求进行选择。
2 使用缓存技术
缓存技术是巨型项目、超大型项目中最重要的技术,范围也比较广,从前端的页面、应用中的数据、数据库本身等均可以进行缓存,每个方面使用的技术也千差万别。使用缓存可以带来两个方面的好处,一是缓存的数据可以被高速加载,从内存中读取数据比通过数据库或磁盘读取具有更好的效率;二是最重要的,减少了数据库服务器的压力,有利于数据库的稳定,数据库可以使用更多的资源进行查询、统计等工作,有利于提高系统的整体运行速度。对于大中型应用而言,应用中的数据缓存和数据库端的缓存是应该被考虑的。数据库端的缓存在本文数据库章节中进行描述,本节描述应用中数据的缓存。
要使用缓存,首先需要明确缓存的'内容。一般优化项目不建议做全部数据缓存,或者使用内存数据库之类的技术,这种修改工作量巨大,由此带来的安全性、稳定性、数据的一致性都可能存在较大的隐患。所以,缓存的内容需要有所选择,一般的说,应该根据数据的数据量、被读取的次数、增加/更新频率进行选择。如果数据较少、增加/更新频率非常低,那么应该考虑直接缓存在应用服务器端,只有对于重要性较高、读取次数较多、增加/更新频率相对适中的数据,才适合使用独立缓存。 确定缓存的内容之后,就应该确定缓存的方式。对于缓存于应用服务器端的资源,一般选择KEY-ALUE(OBJECT)进行缓存。对于独立缓存,其内容也KEY-VALUE的格式进行存储(如果使用内存数据库实现缓存,那么存储的就是与数据库相同的信息),VALUE可以选择SON或者Java Object,其中JSON占用空间较少,读取的网络流量较少,读取之后需要进行转换为Java对象;JavaXCN占用空间较大,读取的网络流量会较多,读取之后无需进行转化(前提是要求该对象已经系列化),不同系统可以各自特点进行选择。
对于独立缓存,接下来的工作是选择缓存服务器,缓存服务器选择需要具有一定的原则:是否满足已经确定的缓存方式、对操作系统要求如何、稳定性如何、是否支持分布式、是否支持多节点热备、客户端(即JAVA调用接口)接口是否支持漂移(一个节点崩溃是否能转移到另外的节点)、客户端是否高效等等。从目前业界来看,memcached、redis都是应用比较广泛的缓存服务器。
选择完缓存服务器之后,就需要对系统的代码进行一定的改造。改造的内容就是将通过数据库读取的信息改为从缓存服务器获得,而对数据的保存、修改、删除操作,既要操作数据库上的数据,也需要对缓存服务器的信息进行更新,如下图所示:
由于是对系统的优化,那么系统中已经具有很多数据且并未进入缓存,因此还需要将缓存服务器中的数据进行初始化。有两种方式来进行,一种方式是直接将数据库中的数据一次性加载到缓存服务器,另外一种方式是在修改Load数据的方式,先从缓存服务器获取,如果没有,则从数据库获取,然后同步到缓存服务器上。对于优化项目,建议使用第二种方式。第二种方式一个额外的好处就是当缓存服务器全部不可用时,系统也能提供完整的服务。
3 使用异步日志记录
对于企业应用而言,对用户的操作的记录是很重要的,在系统出现某些问题的时候,可以通过日志进行数据恢复。一般系统要么没有进行记录,要么使用数据库进行同步记录。这部分数据会比较庞大,少则百万级,多则数亿,并且随着使用量的增加而逐渐增加。这些表属于使用率最高的表之一,在这些表上进行经常性数据插入,有可能会变成系统的噩梦。
为了解决这个问题,引入异步日志记录,是较为理想的选择。通过在web容器中增加过滤器,拦截用户的请求,然后将用户的请求和表单数据封装为JSON格式的数据,采用异步方式发送到NoSQL数据库,需要恢复的时候,通过对JSON数据进行还原。这种方式有如下好处:
1)不需要改动现有代码而进行了用户操作记录;
2)由于采用异步模式,几乎不会增加用户操作的时间;
3)采用NoSQL+JSON存储,不用为每一类操作特别设置特定的表结构,修改简单。
目前的NoSQL数据库也逐渐显露头角,根据DB Engines在今年10月发布的数据库排名中,MongoDB的NoSQL服务器已经跃居第七位,因此NoSQL服务器目前推荐使用MongoDB。
;
NoSQL,泛指非关系型的数据库。随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题。
虽然NoSQL流行语火起来才短短一年的时间,但是不可否认,现在已经开始了第二代运动。尽管早期的堆栈代码只能算是一种实验,然而现在的系统已经更加的成熟、稳定。不过现在也面临着一个严酷的事实:技术越来越成熟——以至于原来很好的NoSQL数据存储不得不进行重写,也有少数人认为这就是所谓的2.0版本。这里列出一些比较知名的工具,可以为大数据建立快速、可扩展的存储库。
NoSQL(NoSQL = Not Only SQL ),意即“不仅仅是SQL”,是一项全新的数据库革命性运动,早期就有人提出,发展至2009年趋势越发高涨。NoSQL的拥护者们提倡运用非关系型的数据存储,相对于铺天盖地的关系型数据库运用,这一概念无疑是一种全新的思维的注入。
对于NoSQL并没有一个明确的范围和定义,但是他们都普遍存在下面一些共同特征:
不需要预定义模式:不需要事先定义数据模式,预定义表结构。数据中的每条记录都可能有不同的属性和格式。当插入数据时,并不需要预先定义它们的模式。
无共享架构:相对于将所有数据存储的存储区域网络中的全共享架构。NoSQL往往将数据划分后存储在各个本地服务器上。因为从本地磁盘读取数据的性能往往好于通过网络传输读取数据的性能,从而提高了系统的性能。
弹性可扩展:可以在系统运行的时候,动态增加或者删除结点。不需要停机维护,数据可以自动迁移。
分区:相对于将数据存放于同一个节点,NoSQL数据库需要将数据进行分区,将记录分散在多个节点上面。并且通常分区的同时还要做复制。这样既提高了并行性能,又能保证没有单点失效的问题。
异步复制:和RAID存储系统不同的是,NoSQL中的复制,往往是基于日志的异步复制。这样,数据就可以尽快地写入一个节点,而不会被网络传输引起迟延。缺点是并不总是能保证一致性,这样的方式在出现故障的时候,可能会丢失少量的数据。
BASE:相对于事务严格的ACID特性,NoSQL数据库保证的是BASE特性。BASE是最终一致性和软事务。
NoSQL数据库并没有一个统一的架构,两种NoSQL数据库之间的不同,甚至远远超过两种关系型数据库的不同。可以说,NoSQL各有所长,成功的NoSQL必然特别适用于某些场合或者某些应用,在这些场合中会远远胜过关系型数据库和其他的NoSQL。