python tiktoken的简介、安装、使用方法

 更新时间:2023年10月20日 14:28:21   作者:一个处女座的程序猿  
tiktoken是OpenAI于近期开源的Python第三方模块,该模块主要实现了tokenizer的BPE(Byte pair encoding)算法,并对运行性能做了极大的优化,本文将介绍python tiktoken的简介、安装、使用方法,感兴趣的朋友跟随小编一起看看吧

tiktoken的简介

tiktoken是一个用于OpenAI模型的快速BPE标记器。

1、性能:tiktoken比一个类似的开源分词器快3到6倍

tiktoken的安装

pip install tiktoken
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tiktoken
C:\Windows\system32>pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tiktoken
Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting tiktoken
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/91/cf/7f3b821152f7abb240950133c60c394f7421a5791b020cedb190ff7a61b4/tiktoken-0.5.1-cp39-cp39-win_amd64.whl (760 kB)
     |████████████████████████████████| 760 kB 726 kB/s
Requirement already satisfied: regex>=2022.1.18 in d:\programdata\anaconda3\lib\site-packages (from tiktoken) (2022.3.15)
Requirement already satisfied: requests>=2.26.0 in d:\programdata\anaconda3\lib\site-packages (from tiktoken) (2.31.0)
Requirement already satisfied: charset-normalizer<4,>=2 in d:\programdata\anaconda3\lib\site-packages (from requests>=2.26.0->tiktoken) (2.0.12)
Requirement already satisfied: urllib3<3,>=1.21.1 in d:\programdata\anaconda3\lib\site-packages (from requests>=2.26.0->tiktoken) (1.26.9)
Requirement already satisfied: idna<4,>=2.5 in d:\programdata\anaconda3\lib\site-packages (from requests>=2.26.0->tiktoken) (3.3)
Requirement already satisfied: certifi>=2017.4.17 in d:\programdata\anaconda3\lib\site-packages (from requests>=2.26.0->tiktoken) (2021.10.8)
Installing collected packages: tiktoken
Successfully installed tiktoken-0.5.1

tiktoken的使用方法

1、基础用法

(1)、用于OpenAI模型的快速BPE标记器

import tiktoken
enc = tiktoken.get_encoding("cl100k_base")
assert enc.decode(enc.encode("hello world")) == "hello world"
# To get the tokeniser corresponding to a specific model in the OpenAI API:
enc = tiktoken.encoding_for_model("gpt-4")

(2)、帮助可视化BPE过程的代码

from tiktoken._educational import *
# Train a BPE tokeniser on a small amount of text
enc = train_simple_encoding()
# Visualise how the GPT-4 encoder encodes text
enc = SimpleBytePairEncoding.from_tiktoken("cl100k_base")
enc.encode("hello world aaaaaaaaaaaa")

到此这篇关于python tiktoken的简介、安装、使用方法的文章就介绍到这了,更多相关python tiktoken安装使用内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python DataFrame Rank详解

    Python DataFrame Rank详解

    在数据分析中,pandas库的DataFrame对象的rank()方法可用于计算数据排名,处理重复值并支持多种参数定制排名规则,如ascending、axis、numeric_only等,是数据分析和竞赛中的有力工具
    2024-09-09
  • Python+Pygame实现海洋之神大冒险游戏

    Python+Pygame实现海洋之神大冒险游戏

    这篇文章主要介绍了如何利用Python+Pygame自制一个海洋之神大冒险游戏。规则是在海里收集鱼骨头,有些鱼骨头可以转化为武器,用来攻击敌人,感兴趣的可以了解一下
    2022-08-08
  • python调用cmd命令行制作刷博器

    python调用cmd命令行制作刷博器

    这篇文章主要介绍了Python制作一个简单的刷博器,可以学习Python线程、调用cmd命令行、打开网页的知识点,大家参考使用吧
    2014-01-01
  • 详解Python中__str__和__repr__方法的区别

    详解Python中__str__和__repr__方法的区别

    这篇文章主要介绍了__str__和__repr__方法的区别 ,__str__和__repr__是基本的内置方法,使用时的区别也是Python学习当中的基础,需要的朋友可以参考下
    2015-04-04
  • pywinauto自动化测试使用经验

    pywinauto自动化测试使用经验

    本文主要介绍了pywinauto自动化测试使用经验,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-03-03
  • Python利用Selenium实现简单的中英互译功能

    Python利用Selenium实现简单的中英互译功能

    Selenium 是一个用于 Web 应用程序测试的工具,最初是为网站自动化测试而开发的,可以直接运行在浏览器上,是 Python 的一个第三方库,对外提供的接口能够操作浏览器,从而让浏览器完成自动化的操作,本文介绍了如何利用Python中的Selenium实现简单的中英互译
    2024-08-08
  • python tkinter GUI绘制,以及点击更新显示图片代码

    python tkinter GUI绘制,以及点击更新显示图片代码

    这篇文章主要介绍了python tkinter GUI绘制,以及点击更新显示图片代码,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-03-03
  • Python中的__new__与__init__魔术方法理解笔记

    Python中的__new__与__init__魔术方法理解笔记

    这篇文章主要介绍了Python中的__new__与__init__魔术方法理解笔记,需要的朋友可以参考下
    2014-11-11
  • Pytest+Allure使用示例教程

    Pytest+Allure使用示例教程

    Allure是开源的免费的自动化测试报告,支持Java,Python,我们来看看如何使用Python pytest与Allure整合,输出漂亮的测试报告,这篇文章主要介绍了Pytest+Allure使用教程,需要的朋友可以参考下
    2023-12-12
  • python实现IOU计算案例

    python实现IOU计算案例

    这篇文章主要介绍了python实现IOU计算案例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04

最新评论