ChatGPT

本文最后更新于:2024年6月21日 凌晨

OpenAI模型

模型 token 编码
gpt-35-turbo cl100k_base
text-similarity-ada-001
ttext-davinci-003 4097 p50k_base
text-davinci-002
text-embedding-ada-002

可以像下面这样使用tiktoken.encoding_for_model()来查询某个模型使用的编码。

pip install --upgrade tiktoken
import tiktoken
encoding = tiktoken.encoding_for_model('gpt-3.5-turbo')

通过encoding.encode()将文本变成token

    def num_tokens_from_string(self, string: str, encoding_name: str) -> int:
        """Returns the number of tokens in a text string."""
        encoding = tiktoken.get_encoding(encoding_name)
        num_tokens = len(encoding.encode(string))
        return num_tokens
num_tokens_from_string(prompt, "p50k_base")

推荐:text-embedding-ada-002 (Version 2)

  • 若要使用不同的模型,请将 text-davinci-002 替换为另一个部署的 ID。 请记住,部署 ID 不一定与模型名称相同。 你是在 Azure OpenAI Studio 中创建部署时为其命名的。

ChatGPT
https://junyyds.top/2023/05/17/ChatGPT/
作者
Phils
发布于
2023年5月17日
更新于
2024年6月21日
许可协议