专栏名称: 高可用架构

高可用架构公众号。

一行代码改进：Logtail的多行日志采集性能提升7倍的奥秘

高可用架构 · 公众号 · 架构 · 2024-12-16 11:38

正文

请到「今天看啥」查看全文

void BM_Regex_Match ( int batchSize) {


   
    
     std
    
    ::
    
     string
    
    buffer =
    
     "cnt:"
    
    ;


   
    
     std
    
    ::
    
     string
    
    regStr =
    
     "cnt.*"
    
    ;


   
    boost::
    
     regex
     
      reg
     
     
      (regStr)
     
    
    ;


   
    
     std
    
    ::
    
     ofstream
     
      outFile
     
     
      (
      
       "BM_Regex_Match.txt"
      
      ,
      
       std
      
      ::ios::trunc)
     
    
    ;


   
    outFile.close();


   
    
     std
    
    ::
    
     ofstream
     
      outFile
     
     
      (
      
       "BM_Regex_Match.txt"
      
      ,
      
       std
      
      ::ios::app)
     
    
    ;


   
    buffer +=
    
     "a"
    
    ;


   
    
     uint64_t
    
    durationTime =
    
     0
    
    ;


   
    
     for
    
    (
    
     int
    
    i =
    
     0
    
    ; i < batchSize; i++) {


   
    count++;


   
    
     uint64_t
    
    startTime = GetCurrentTimeInMicroSeconds();


   
    
     if
    
    (!boost::regex_match(buffer, reg)) {


   
    
     std
    
    ::
    
     cout
    
    <<
    
     "error"
    
    <<
    
     std
    
    ::
    
     endl
    
    ;


   
    durationTime += GetCurrentTimeInMicroSeconds() - startTime;


   
    outFile << i <<
    
     '\t'
    
    <<
    
     "durationTime: "
    
    << durationTime <<
    
     std
    
    ::
    
     endl
    
    ;


   
    outFile << i <<
    
     '\t'
    
    <<
    
     "process: "
    
    << formatSize(buffer.size() * (
    
     uint64_t
    
    )count *
    
     1000000
    
    / durationTime)


   
    outFile.close();


   
    logtail::Logger::Instance().InitGlobalLoggers();


   
    
     std
    
    ::
    
     cout
    
    <<
    
     "BM_Regex_Match"
    
    <<
    
     std
    
    ::
    
     endl
    
    ;


   
    BM_Regex_Match(
    
     10000
    
    );

这时候我们就需要注意了，我们使用行首正则时，其实往往只需要匹配单行日志开头的一部分，例如这个日志就是cnt，我们并不需要整个 .* 部分，因为匹配这部分会消耗不必要的性能。特别是当日志非常长时，这种影响尤为明显。

请到「今天看啥」查看全文

推荐文章

字节跳动技术团队 · 基于LLM的AI应急：多模态信息智能化分析整合助力字节事故处置效率提升30%

15 小时前

字节跳动技术团队 · 远程访问代理+内网穿透：火山引擎边缘网关助力自部署模型公网调用与全链路管控

昨天

字节跳动技术团队 · 稀土掘金 x Trae 夏日寻宝之旅开启：做任务得积分兑大疆pocket3、Apple watch等豪礼

昨天

韩国me2day · 2016年的最后一周，这里有最新7天穿搭~

8 年前

中国新闻周刊 · 2017全球大数据传播大会圆满落幕，你get到多少知识点？

7 年前

济宁7890后 · 借钱见人心，还钱见人品！

7 年前

早安晚安心语 · 记住这10句话，心静了，人就不会累了

7 年前

IT之家 · 一个视频，让你看懂特斯拉电动汽车工作原理

7 年前