系统技术非业余研究Yu Feng | 系统技术非业余研究

Oprofile 系统层面的性能微调工具

November 15th, 2010 Yu Feng Comments off

Oprofile linux

Categories: Linux, 工具介绍 Tags: linux, oprofile

Systemtap的另类用法

November 10th, 2010 Yu Feng 17 comments

通常我们在做内核编程的时候，会用到内核的数据结构，比如说textsearch提供了几种算法用于支付串查找。在用于正式的项目前，我们会希望考察下他的用法以及想体验下。最通常的做法是自己写个module,写个makefile,编译，运行，然后去dmesg里面看printk的结果。这个过程没啥问题，就是太罗嗦。好了，现在我们有更方便的方法了：systemtap.

Systemtap是个脚本，先翻译成c kernel模块代码，然后编译，插入到内核运行，同时提供最基本的内核和应用模块的通讯管道，在应用模块这里收集信息。它还支持guru模式，让用户直接插入c代码。这样我们就可以利用stap的这一特性来做我们的实验。
Read more…

Categories: Erlang探索, Linux, 工具介绍 Tags: compile, module, systemtap, 头文件, 编译

如何在TILEPro64多核心板卡上编译和运行Erlang

November 2nd, 2010 Yu Feng 21 comments

参考文章：
1. https://groups.google.com/group/erlang-programming/msg/2d61b1083a10a7b6

2. http://erlang.2086793.n4.nabble.com/How-to-Cross-compile-Erlang-OTP-R13B04-for-TileraPro64-td2119304.html

美国Tilera公司的众核服务器，单颗内核包含64颗CPU。硬件架构图：

卡长这样的：

Erlang已经可以在这款CPU上成功运行，我们可以参考Ulf Wiger在Multicore ☺ Message-passing Concurrency 文档中关于Erlang在Tilera上的性能图.

Erlang系统前2年就开始正式支持Tilera，一直用这个CPU来调整他的调度器，所以性能和基础的编译运行支持都很到位。

Linux内核2.6.36起就开始支持Tilera的CPU架构了，看起来前途不错。

最近上海泛腾电子科技开始在国内销售 Tilera机器，我公司也得到一台样机，使得我有机会把玩下这个高科技！

该测试机是PCI-e的形式，是单板机，直接安装在PC机或者是服务器里,好处是可以通过主机的VGA口接显示器直接调试。当然也可以作为智能网卡来使用。构成一个与Host的异构结构，通过PCI-e总线进行通讯。

还需要相应的配套SDK: 目前有TileraMDE-2.1.2.112814 和 TileraMDE-3.0.alpha3.116173 二个版本, 来负责和板卡的通信。推荐用2.0的，好像不容易出问题。

废话少说，让我们开始享受64核心快乐旅程吧！
Read more…

Categories: Erlang探索, Linux, 工具介绍 Tags: 64, compile, Erlang探索, install, kernel, otp, Tilera, 并发，并行

在做多线程程序的时候,为了避免使用锁,我们通常会采用这样的数据结构:根据线程的数目,安排一个数组, 每个线程一个项,互相不冲突. 从逻辑上看这样的设计无懈可击,但是实践的过程我们会发现这样并没有提高速度. 问题在于cpu的cache line. 我们在读主存的时候,数据同时被读到L1,L2中去,而且在L1中是以cache line(通常64)字节为单位的. 每个Core都有自己的L1,L2,所以每个线程在读取自己的项的时候, 也把别人的项读进去, 所以在更新的时候,为了保持数据的一致性, core之间cache要进行同步, 这个会导致严重的性能问题. 这就是所谓的False sharing问题, 有兴趣的同学可以wiki下.

具体的参考文章: http://software.intel.com/en-us/articles/avoiding-and-identifying-false-sharing-among-threads/

解决方法很简单:
把每个项凑齐cache line的长度,实现隔离.

typedef union {
    erts_smp_rwmtx_t rwmtx;
    byte cache_line_align__[ERTS_ALC_CACHE_LINE_ALIGN_SIZE(
				sizeof(erts_smp_rwmtx_t))];
} erts_meta_main_tab_lock_t;
或者 
_declspec (align(64)) int thread1_global_variable;
__declspec (align(64)) int thread2_global_variable;

这就是为什么在高性能服务器中到处看到cache_line_align, 号称是避免cache的trash.

类似valgrind和intel vtune的工具可以做这个层次的性能微调.

Categories: Linux Tags: align, cache line, false sharing

ECUG2010分享：C1000K高性能服务器构架技术

October 18th, 2010 Yu Feng 3 comments

C1000K高性能服务器构建技术

View more presentations from Feng Yu.

LMbench 实用的微观性能分析工具

October 9th, 2010 Yu Feng 8 comments

我们在做高性能服务的时候，通常需要避免7宗罪，比如说内存拷贝，昂贵的系统调用等等。但是这些罪的代价是多少，我们并不清楚。在设计的时候，我们会需要根据数据去做方案的取舍。但是这些测量数据哪里来呢？ google大神是个很好的地方，但是有很多缺点，首先你需要的知识是分散的，第二你需要的知识是二手的。这时候LMbench来救助了。

LMbench – Tools for Performance Analysis
官方网站： http://www.bitmover.com/lmbench/

What is LMbench? Read more…

Categories: Erlang探索 Tags: lmbench, 带宽, 延时

计算机各系统组件的吞吐量和延迟看图不说话

October 8th, 2010 Yu Feng 3 comments

看图不说话

参考：图片来源

Categories: Linux Tags: 内存, 北桥, 带宽，南桥

Newer Entries Older Entries

系统技术非业余研究

Archive

Oprofile 系统层面的性能微调工具

Systemtap的另类用法

如何在TILEPro64多核心板卡上编译和运行Erlang

False sharing问题及其解决方法

ECUG2010分享：C1000K高性能服务器构架技术

LMbench 实用的微观性能分析工具

计算机各系统组件的吞吐量和延迟看图不说话

buy me a coffee.

Recent Posts

Recent Comments

Categories

Blogroll

Archives

Meta