初识Go语言 | 重归混沌的BLOG

其实严格来讲也不算初识，大概在15年时，就学过一次Go语言的语法。

由于当时Go语言GC的名声不太好，也就没太认真研究，只是大致把语法学习了一下。

对Go的印象除了语法有点怪，也就没有其他特别的印象了。

这一次，我仔细学习了一下Go语言（到目前为止已经学习了4周了)。

有了一些不太一样的感受，还发现了一些令人耳目一新的点。

首先就是GC。

我仔细回忆了一下，Go竟然是我知道的第一门编译型带GC的语言(IL2CPP不算），这里的编译不是将代码编译成字节码然后解释的那种，是真正编译成能在CPU上执行的native code。

编译成native代码运行肯定会更快，但同时也会有一些潜在的问题。

Go编译器在编译代码时，会在代码的各处插入GC相关的代码。

在进行源码级调试时，一般不会有太大的问题，调试器会智能跳过编译器插入的代码。

但是，当想看某一行代码在汇编级是怎么执行时（这是从C语言时代就养成的习惯，一般写一行C语法，基本上都能预测出生成的非优化汇编代码), 我发现代码中到处充斥着Go插入的代码，让代码的可读性差很多。

而一些使用虚拟机的语言如Lua,Java等。OpCode和逻辑代码是一一对应的，GC相关的细节被封装在虚拟机内部。

这种分层会让底层的OpCode非常清晰，对底层调优很有帮助。

当然，这也许正是Go想要的也说不定，可能他不希望你做这么底层的优化:D

然后就是汇编。

是的，当我知道Go反汇编出来的是Plan9汇编时，我震惊了。

这就意味着，即使我能突破编译器插入代码这个障碍，我依然看不到最终执行的X86指令，我依然不知道代码最终在CPU上是如何执行的。

举个最简单的例子，所有人都说goroutine的切换开销比线程小，其实我一直对这个观点保持怀疑态度。

按照我X86汇编的经验，在编译器的优化阶段，总是尽可能的将栈上变量，优化到寄存器上去，甚至前几个参数都是通过寄存器来传递的。

来随便看段简单的C代码和相应的汇编。

int foo(int a, int b)  {
    int e = a / b;
    return a * b * e;
}

foo:
.LFB0:
    .cfi_startproc
    mov eax, edi
    cdq
    idiv    esi
    imul    edi, esi
    imul    eax, edi
    ret
    .cfi_endproc

可以看到foo函数中的e变量并没有在栈上，而是直接分配了一个寄存器。

这就导致一个问题，当一个线程被抢占时，他当前的整个callstack的上下文中，被使用的寄存器是不确定的。

因此在linux中的，Thread被换出时，需要保存全套的寄存器（EAX,EBX….)。

但是所有的Go文章都说goroutine切换代价很小，他需要保存更少的寄存器，有些人甚至说他只需要保存3个寄存器。

我对这个说法最开始是相信的，如果goroutine的切换点总是在函数调用时进行，他完全可以做到把ABI的"callee saved registers"的个数减少到3个。

但是，后来我看到了goroutine是可以在任意时机被抢占的。

这我就不太能理解了，不管是不是Plan9汇编，最终只要跑在x86指令集的机器上，他们的优化思路都应该是尽可能多的使用寄存器，而不是栈。

那么，只要我整个函数使用的寄存器超过3个，想要在for {}语句中抢占一个goroutine，就势必要保存整套寄存器，那所谓的轻量切换也就不存在了，最多就是栈的空间消耗会少一些。

当我想进一步寻找答案时，Plan9成了阻碍。

我很难确定，是不是在Plan9的ABI中，每个函数只有三个寄存器可用。

在从Plan9生成X86汇编时，会把栈上的变量尽可能多地转移到x86寄存器上。

除非我将最终的二进制文件反汇编成x86，显然我还没有对go熟悉到这种程度，这个问题就只能暂时搁置了。

而且我不得不说，相关的资料真的很少，不管是中文的还是英文的。

Go的slice是一个很有意思的数据结构。

多个slice，有时会共享内存，有时不会。会不会共享取决于当时的代码执行情况，但结果可以预测。

我理解下来，这基本上是对性能妥协的结果。

总的来讲我认为这个妥协是正向的，因为共享不共享是有明确规则的，只要留心一点，一般问题不大。

我比较好奇的是，slice和GC交互的部分。

先看一小段代码：

type slice struct {
    array unsafe.Pointer
    len   int
    cap   int
}
func foo() []int {
    a := make([]int, 5)
    b := a[3:4]
    return b
}

在这段代码中，我把slice的数据结构和示例代码放在一起了。

可以从go的任意一本参考书上可知，上面代码约等于下面这段C代码：

struct slice {
    int *array;
    int len;
    int cap;
}

func foo() slice {
    struct slice a, b;
    a.array = malloc(5 * sizeof(int));
    a.cap = 5;
    a.len = 5;
    b.array = &a.array[3];
    b.cap = a.cap - 3;
    b.len = 4 - 3;
    return b;
}

所有的资料都提到，Go语言的GC是并发三色垃圾回收。

现在问题来了，由于b.array做了指针计算（所有带垃圾回收功能的语言，都会避免支持指针运算，因为这会让GC变得很难）。

当GC模块去Mark变量b时，它该如何找到这块内存的首地址呢，这一点我一直没有想通。

相关的文档没有找到，而且似乎大家也不是很关心这个事情 ^_^!

上面都是一些实现细节，下面谈谈语言层面上的设计。

Go语言的接口机制和CSP同步机制，着实让人耳目一新。

Go语言作为一门静态语言，竟然实现了DuckType, 这一点我挺意外的。

更意外的是，他的接口机制还有一种很奇特的机制。

下面展示一段代码看看效果：

package main

import "fmt"

type FooBar interface {
    foo()
    bar()
}

type st1 struct {
    FooBar
    n int
}

type st2 struct {
    FooBar
    m int
}

func (s *st1) foo() {
    fmt.Println("st1.foo", s.n)
}

func (s *st1) bar() {
    fmt.Println("st1.bar", s.n)
}

func (s *st2) foo() {
    fmt.Println("st2.foo", s.m)
}

func test(fb FooBar) {
    fb.foo()
    fb.bar()
}

func main() {
    v1 := &st1{n: 1}
    v3 := &st2{
        m:      3,
        FooBar: v1,
    }
    test(v1)
    test(v3)
}
/*输出结果：
st1.foo 1
st1.bar 1
st2.foo 3
st1.bar 1
*/

对于前两行的输入，其实在我知道了Go支持DuckType时，就已经可以预见了。

但是后两行的输出，真的是让人惊艳。

这种组合方式，不仅粘合了两个struct, 还粘合了两个变量。

如果用得好，也许会有出其不意的威力

当然，天下没有白吃的午餐。

整个interface机制是有运行时开销的，这个开销会发生在由具体的struct到相应的interface对象转换时。

具体的开销，可能要等我熟悉了Plan9汇编和runtime库之后，才能破解谜题了。

再来看看Go的CSP编程，Go是通过channel来实现CSP编程的。

同样，先来看一小段代码：

package main

import (
    "fmt"
    "time"
)

func main() {
    ch1 := make(chan int)
    ch2 := make(chan int)
    go func() {
        n := <-ch1
        fmt.Println(n)
        ch2 <- (n + 1)
    }()
    go func() {
        fmt.Println("0")
        ch1 <- 1
        n := <-ch2
        fmt.Println(n)
    }()
    time.Sleep(1 * time.Second)
}

无论执行多少次，这段代码都会严格按照“0，1，2”的顺序打印。

如果在C语言中，用线程和一般的消息队列来写类似的代码，并不会有此效果。

每次程序运行都有可能会输出不一样的结果。

我认为这就是CSP(Communicating Sequential Process)的本质。

channel不仅仅是用来通信的，它还是一种同步手段。

channel会协调两端的goroutine在某一个点进行对接，然后再各自并发。

在这个对接点上，channel两端的goroutine是同步的。

用Go语言文档上的话说，在channel的一端没有取走数据之前，发送端的goroutine是不会被唤醒的。

当然Go语言还提供一种有缓冲的channel, 这种就更像是一个消息队列。

我理解下来，有缓冲的channel更适合于一些非常规场合，CSP则推荐使用无缓冲channel。

几乎所有的Go的参考书都会给我们强调说：并发属于代码；井行属于一个运行中的程序。

这句话结合CSP的概念，让我有了一种不一样的感觉。

仍以上面的代码为例，当13行的fmt.Println被换成更具体而繁重的任务时，两个goroutine不可能有机会并行执行。

并发属于代码；井行属于一个运行中的程序这句话似乎在隐隐告诉我：不要害怕CSP导致并行度下降，只要你开足够多的goroutine，并行度在运行时很快就上去了，这也是为什么Go语言一直不停的鼓励我们写并发结构程序的原因。

想象一下，我们有64个CPU核心，有1W个goroutine。

就算每156个goroutine被channel粘合到一起，不得不串行执行，64个CPU核心依然会被跑满。

在CSP的模式下，整个系统的负载会更加均衡，不会出现生产者撑爆内存，或者消费者饿死的情况。

同时，理论上，由于隐式同步的存在，并发的Bug也会更少。

最后提一下Go的逃逸分析。

Go在堆上分配内存的机制，和一般的带GC的面向对象语言稍有不同。

以C#为例，他把对象分为值类型和引用类型。struct对象就是值类型，class就是引用类型。

因此，C#在new struct时会直接在栈上分配，在new class时会直接在堆上分配。

在Go语言中，对象是否分配在栈上，规则稍有不同。他取决于你是否向接口转换，或者这个变量的作用域是否超出的定义他域。

下面看一段很有意思的代码：

package main

func main() {
    m := make(map[int]int, 5)
    m[3] = 5
}

如果按照C#的经验，这个m变量肯定要分配到堆上的，因为map/dictionary是一个引用类型。

但是Go可以通过逃逸分析发现，这个m变量只在当前作用域使用，所以分配到栈上就足够了。

这不得不说是一个很大的优化。

发表评论 取消回复

发表评论取消回复