35-Numba是如何解决Python的三大性能瓶颈的

为什么python这么慢

1、动态变量：

在c中我们编写一些功能性代码，需要严格定义变量的类型，比如进行加法计算，需要定义我们的数据是int、float还是其它类型，而python中则不需要，这是我在实践中发现影响python运行速度最大的因素之一，具体的原因在于：

在python中，所有的变量都是对象，例如：

我们可以看到一个简单的a中，有这么多的methods。。。python的变量定义的便利性也给python的效率带来了很大的问题，

Python等动态类型语言之所以慢，就是因为每一个简单的操作都需要大量的指令才能完成。他们的虚拟机拥有很强的优化器，却是为静态语言设计的。对Python几乎没有效果。举一个例子。对于整数加法，C语言很简单，只要一个机器指令ADD就可以了，最多不过再加一些内存读写。但是，对于Python来说，a+b这样的简单二元运算，可就真的很麻烦了。Python是动态语言，变量只是对象的引用，变量a和b本身都没有类型，而它们的值有类型。所以，在相“加”之前，必须先判断类型。

2、大量重复的编译

前面提到过了，编译型语言，可以一次编译，下次使用直接运行，而python这种解释性语言，每次运行的时候都要重新将源代码通过解释器转化为机器码；

3、gil锁

在理解gil锁之前需要理解一下基本概念

GIL：Global Interpreter Lock又称全局解释器锁。简单来说是一个互斥锁，每个线程在执行的过程中都需要先获取GIL，作用就是限制多线程同时执行，使得在同一进程内任何时刻仅有一个线程在执行。

由于GIL的存在，在Python上开启多个线程时，每个单独线程都会在竞争到GIL后才运行，因此在我们的Python语言中多线程其实是假的多线程，它只会在一个CPU上运行。即使在具有多核CPU中，Python的多线程也是串行执行的，并不会同一时间多个线程分布在多个CPU上运行。

GIL的优缺点
优点：线程是非独立的，所以同一进程里线程是数据共享，当各个线程访问数据资源时会出现“竞争”状态，即数据可能会同时被多个线程占用，造成数据混乱，这就是线程的不安全。所以引进了互斥锁，确保某段关键代码、共享数据只能由一个线程从头到尾完整地执行。

缺点：单个进程下，开启多个线程，无法实现并行，只能实现并发，牺牲执行效率。

由于GIL锁的限制，所以多线程不适合计算密集型任务，更适合IO密集型任务

常见IO密集型任务：网络IO（抓取网页数据）、磁盘操作（读写文件）、键盘输入

面试常见

描述Python GIL的概念，以及它对Python多线程的影响？
编写一个多线程抓取网页的程序，并阐明多线程抓取程序是否可比单线程性能有提升，并解释原因。

参考答案：

GIL：全局解释器锁。每个线程在执行的过程都需要先获取GIL，保证同一时刻只有一个线程可以执行代码。
Python语言和GIL没有任何关系。仅仅是由于历史原因在Cpython虚拟机（解释器），难以移除GIL。
线程释放GIL锁的情况： 在IO操作等可能会引起阻塞的system call之前,可以暂时释放GIL,但在执行完毕后,必须重新获取GIL
Python使用多进程是可以利用多核的CPU资源的。
多线程爬取比单线程性能有提升，因为遇到IO阻塞会自动释放GIL锁。

numba是如何解决python的三大问题的

1、动态变量问题

使用过numba的用户应该知道，如果在jit装饰的时候，nopython设置为True，则numba几乎不会提速甚至反而会更慢一点，numba在nopython模式下不适用python 定义的动态变量，而是使用静态变量定义，因此有效的避免了python动态变量的一大堆复杂的检查，但是这也意味着nopython模型下，编程的灵活性变低，你额能无法像python环境中一样自由地进行字符的四则运算；

2、编译问题

这里要写了解什么是jit 编译：

即时编译（英语：Just-in-time compilation），又译及时编译、实时编译[3]，动态编译的一种形式，是一种提高程序运行效率的方法。通常，程序有两种运行方式：静态编译与动态编译。静态编译的程序在执行前全部被翻译为机器码，而动态编译执行的则是一句一句边运行边翻译。即时编译器则混合了这二者，一句一句编译源代码，但是会将翻译过的代码缓存起来以降低性能损耗。相对于静态编译代码，即时编译的代码可以处理延迟绑定并增强安全性。