Skip to content
云风 edited this page Aug 13, 2014 · 28 revisions

skynet 支持两种集群模式。

如果你仅仅是单台物理机的计算能力不足,那么最优的策略是选用更多核心的机器,在同一进程内,skynet 可以保持最高的并行能力,充分利用物理机的多核心,远比增加物理机性价比高得多。

master/slave 模式

当单台机器的处理能力达到极限后,可以考虑通过内置的 master/slave 机制来扩展。具体的配置方法见 Config

每个 skynet 进程都是一个 slave 节点。但其中一个 slave 节点可以通过配置 standalone 来多启动一个 cmaster 服务,用来协调 salve 组网。对于每个 slave 节点,都内置一个 harbor 服务用于和其它 slave 节点通讯。

每个 skynet 服务都有一个全网唯一的地址,这个地址是一个 32bit 数字,其高 8bit 标识着它所属 slave 的号码。即 harbor id 。在 master/slave 网络中,id 为 0 是保留的。所以最多可以有 255 个 slave 节点。

在 master/slave 模式中,节点内的消息通讯和节点间的通讯是透明的。skynet 核心会根据目的地址的 harbor id 来决定是直接投递消息,还是把消息转发给 harbor 服务。但是,两种方式的成本大为不同(可靠性也有所区别),在设计你的系统构架时,应充分考虑两者的性能差异,不应视为相同的行为。

这种模式的缺点也非常明显:它被设计为对单台物理机计算能力不足情况下的补充。所以忽略了系统一部分故障的处理机制,而把整个网络视为一体。即,整个网络中任意一个节点都必须正常工作,节点间的联系也不可断开。这就好比你一台物理机上如果插了多块 CPU ,任意一个损坏都会导致整台机器不能正常工作一样。

所以,不要把这个模式用于跨机房的组网。所有 slave 节点都应该在同一局域网内(最好在同一交换机下)。不应该把系统设计成可以任意上线或下线 slave 的模式。

slave 的组网机制也限制了这一点。如果一个 slave 意外退出网络,这个 harbor id 就被废弃,不可再使用。这样是为了防止网络中其它服务还持有这个断开的 slave 上的服务地址;而一个新的进程以相同的 harbor id 接入时,是无法保证旧地址和新地址不重复的。


如果你非要用 master/slave 模式来实现有一定弹性的集群。skynet 还是提供了非常有限的支持:

local harbor = require "skynet.harbor"
  • harbor.link(id) 用来监控一个 slave 是否断开。如果 harbor id 对应的 slave 正常,这个 api 将阻塞。当 slave 断开时,会立刻返回。

  • harbor.connect(id) 和 harbor.link 相反。如果 harbor id 对应的 slave 没有连接,这个 api 将阻塞,一直到它连上来才返回。

  • harbor.queryname(name) 可以用来查询全局名字或本地名字对应的服务地址。它是一个阻塞调用。

  • harbor.globalname(name, handle) 注册一个全局名字。如果 handle 为空,则注册自己。skynet.name 和 skynet.register 是用其实现的。

你可以利用这组 api 来解决做一次跨节点远程调用,因为节点断开而无非收到回应的问题。

对于 harbor id 不可复用的问题。你可以在 Config 中将 harbor 配置为引用一个系统环境变量。然后给 skynet 编写一个启动脚本,利用一个额外的程序去某个管理器中获得尚未使用过的 harbor id ,设入环境变量,再启动 skynet 进程。这些 skynet 没有给出现成的解决方案,需要你自己来实现。

cluster 模式

skynet 提供了更具弹性的集群方案。它可以和 master/slave 共存。也就是说,你可以部署多组 master/slave 网络,然后再用 cluster 将它们联系起来。当然,比较简单的结构是,每个集群中每个节点都配置为单节点模式(将 harbor id 设置为 0)。

要使用它之前,你需要编写一个 cluster 配置文件,配置集群内所有节点的名字和对应的监听端口。并将这个文件事先部署到所有节点,并写在 Config 中。这个配置文件的范例见 examples/clustername.lua :

db = "127.0.0.1:2528"

这表示,集群中定义有一台叫做 db 的节点,通讯端口为 127.0.0.1:2528 。

接下来,你需要在 db 的启动脚本里写上 cluster.open "db" 。示例见 examples/cluster1.lua 。

local skynet = require "skynet"
local cluster = require "cluster"

skynet.start(function()
	local sdb = skynet.newservice("simpledb")
	skynet.name(".simpledb", sdb)
	print(skynet.call(".simpledb", "lua", "SET", "a", "foobar"))
	print(skynet.call(".simpledb", "lua", "GET", "a"))
	cluster.open "db"
end)

它启动了 simpledb 这个服务,并起了一个本地名字 .simpledb ,然后打开了 db 节点的监听端口。

在 examples/cluster2.lua 中示范了如何调用 db 上的 .simpledb 服务。( .simpledb 原本是一个本地服务,但通过 cluster 接口,其它节点也可以访问到它。)

local skynet = require "skynet"
local cluster = require "cluster"

skynet.start(function()
	local proxy = cluster.proxy("db", ".simpledb")
	print(skynet.call(proxy, "lua", "GET", "a"))
	print(cluster.ncall("db.simpledb","GET", "a"))
	print(cluster.call("db", ".simpledb", "GET", "a"))
end)

有两种方式可以访问到 db.simpledb :

  1. 可以通过 cluster.call(nodename, service, ...) 提起请求。这里 nodename 就是在配置表中给出的节点名。service 可以是一个字符串,或者直接是一个数字地址(如果你能从其它渠道获得地址的话)。当 service 是一个字符串时,只需要是那个节点可以见到的服务别名,可以是全局名或本地名。但更推荐是 . 开头的本地名,因为使用 cluster 模式时,似乎没有特别的理由还需要在那个节点上使用 master/slave 的架构(全局名也就没有特别的意义)。

  2. 可以通过 cluster.proxy(nodename, service) 生成一个本地代理。之后,就可以像访问一个本地服务一样,和这个远程服务通讯。不过还是要遵循 cluster 的要求:远程服务必须使用请求回应模式(不可以没有返回值);必须使用 lua 协议。

Clone this wiki locally