• Ribbon的重试机制

    • 设置

      1
      2
      3
      4
      5
      6
      7
      ribbon:
      // 同一台实例最大重试次数,不包括首次调用
      MaxAutoRetries: 1
      // 重试负载均衡其他的实例最大重试次数,不包括首次server
      MaxAutoRetriesNextServer: 1
      // 是否所有操作都重试
      OkToRetryOnAllOperations: false
    • 根据上面的参数计算重试的次数:MaxAutoRetries + MaxAutoRetriesNextServer + (MaxAutoRetries * MaxAutoRetriesNextServer)即重试3次,加上本次重试 则一共产生4次调用

    • 如果在重试期间,时间超过了hystrix的超时时间,便会立即执行熔断,fallback。所以要根据上面配置的参数计算hystrix的超时时间,使得在重试期间不能达到hystrix的超时时间,不然重试机制就会没有意义

      • hystrix超时时间的计算

        • 不要用下面这种公式来配置hystrix的超时时间,不要,不要,重要的事情说3次:(1 + MaxAutoRetries + MaxAutoRetriesNextServer) * ReadTimeout = (1+1+1) * 3 = 9
        • 正确的计算公式:ReadTimeout+(MaxAutoRetries * ReadTimeout),如果配置的有:MaxAutoRetriesNextServer这个属性,看下面例子:
        • 先算出所有Ribbon的超时时间+重试时间的总和,那么hystrix的超时时间大于总和,就可以保证Ribbon在重试过程中不会被hystrix熔断。
          1
          2
          3
          4
          5
          6
          7
          8
          9
          10
          11
          12
          13
          14
          15
          16
          17
          18
          19
          20
          ribbon:
          MaxAutoRetries: 1 #最大重试次数,当Eureka中可以找到服务,但是服务连不上时将会重试
          MaxAutoRetriesNextServer: 1 #切换实例的重试次数
          OkToRetryOnAllOperations: true # 对所有的操作请求都进行重试,如果是get则可以,如果是post,put等操作没有实现幂等的情况下是很危险的
          ConnectTimeout: 250 #请求连接的超时时间
          ReadTimeout: 1000 #请求处理的超时时间

          这个hystrix的超时时间怎么配置:

          ReadTimeout+(MaxAutoRetries * ReadTimeout)+ ReadTimeout+(MaxAutoRetries * ReadTimeout)= 4000ms

          那么hystrix的超时时间为:>4000ms

          如果MaxAutoRetriesNextServer=1,就加1个:

          ReadTimeout+(MaxAutoRetries * ReadTimeout)+ ReadTimeout+(MaxAutoRetries * ReadTimeout)= 4000ms

          如果MaxAutoRetriesNextServer=2,就加2个:

          ReadTimeout+(MaxAutoRetries * ReadTimeout)+ ReadTimeout+(MaxAutoRetries * ReadTimeout)+ ReadTimeout+(MaxAutoRetries * ReadTimeout)= 6000ms
      • 正确配置

        1
        2
        3
        4
        5
        6
        7
        8
        9
        10
        11
        12
        13
        14
        15
        16
        # hystrix的超时时间
        hystrix:
        command:
        default:
        execution:
        timeout:
        enabled: true
        isolation:
        thread:
        timeoutInMilliseconds: 9000
        ribbon:
        ReadTimeout: 3000
        ConnectTimeout: 3000
        MaxAutoRetries: 1 #同一台实例最大重试次数,不包括首次调用
        MaxAutoRetriesNextServer: 1 #重试负载均衡其他的实例最大重试次数,不包括首次调用
        OkToRetryOnAllOperations: false #是否所有操作都重试
    • 默认情况下,GET方式请求无论是连接异常还是读取异常,都会进行重试,非GET方式请求,只有连接异常时,才会进行重试

    • OkToRetryOnAllOperations设置为false时,只会对get请求进行重试。如果设置为true,便会对所有的请求进行重试,如果是putpost等写操作,如果服务器接口没做幂等性,会产生不好的结果,所以OkToRetryOnAllOperations慎用。
    • 如果不配置ribbon的重试次数,默认会重试一次
    • 默认值在com.netflix.client.config.DefaultClientConfigImpl有定义

      1
      2
      public static final int DEFAULT_MAX_AUTO_RETRIES_NEXT_SERVER = 1;
      public static final int DEFAULT_MAX_AUTO_RETRIES = 0;
    • 因为Ribbon的重试机制和Feign的重试机制有冲突,所以源码中是默认关闭Feign的重试机制

  • 超时时间设置

    • 设置

      1
      2
      3
      4
      5
      ribbon:
      // http建立socket超时时间,毫秒
      ReadTimeout: 60000
      // http读取响应socket超时时间,毫秒
      ConnectTimeout: 60000
    • 默认值在

      1
      2
      public static final int DEFAULT_CONNECT_TIMEOUT = 1000;
      public static final int DEFAULT_READ_TIMEOUT = 1000;
  • 支持对不同Ribbon clients进行属性配置

    • 之前配置的参数都是全局配置,但在微服务环境下不是对所有服务都适用

      1
      2
      3
      4
      5
      ribbon:
      ReadTimeout: 60000
      ConnectTimeout: 60000
      MaxAutoRetries: 0
      MaxAutoRetriesNextServer: 1
    • 1.2.0版本开始,Spring Cloud Netflix支持对不同Ribbon clients进行属性配置,按照<clientName>.ribbon.格式进行配置

    • 比如我们有个服务是users,那么我们就针对这个服务这么配置:
      1
      2
      3
      4
      5
      6
      users:
      ribbon:
      ReadTimeout: 60000
      ConnectTimeout: 60000
      MaxAutoRetries: 0
      MaxAutoRetriesNextServer: 1

参考