support Aquila-7B model series #2487

ftgreat · 2023-08-02T07:00:05Z

We released Aquila-7B model seriesrelated issue, which based on Chinese and English knowledge.
And also open-sourced them in HuggingFace and FlagAI.

Because of using the BPE tokenizer, our pull request of support BPE tokenizer has been merged.

Could add Aquila-7B models into llama.cpp? Thanks for your review.

Signed-off-by: ldwang <ftgreat@gmail.com>

goerch · 2023-08-06T07:23:56Z

I'm trying to convert Aquila-7B with

python.exe convert.py models\Aquila-7B --vocabtype bpe

First problem I ran into was the missing encoding in

        if self.vocabtype == "bpe":
          self.sentencepiece_tokenizer = json.loads(open(str(fname_tokenizer), encoding='utf-8').read())

Now I'm stuck with

Exception: Vocab size mismatch (model has 100008, but models\Aquila-7B\vocab.json has 100000).  Most likely you are missing added_tokens.json (should be in models\Aquila-7B).

Edit: is UTF-8 the correct encoding?

goerch · 2023-08-06T08:12:43Z

OK, I found the missing added_tokens in tokenizer.json:

  "added_tokens": [
    {
      "id": 0,
      "content": "<|endoftext|>",
      "single_word": false,
      "lstrip": false,
      "rstrip": false,
      "normalized": false,
      "special": true
    },
    {
      "id": 100000,
      "content": "<|startofpiece|>",
      "single_word": false,
      "lstrip": false,
      "rstrip": false,
      "normalized": true,
      "special": false
    },
    {
      "id": 100001,
      "content": "<|endofpiece|>",
      "single_word": false,
      "lstrip": false,
      "rstrip": false,
      "normalized": true,
      "special": false
    },
    {
      "id": 100002,
      "content": "<|LDWANG|>",
      "single_word": false,
      "lstrip": false,
      "rstrip": false,
      "normalized": true,
      "special": false
    },
    {
      "id": 100003,
      "content": "[MASK]",
      "single_word": false,
      "lstrip": false,
      "rstrip": false,
      "normalized": true,
      "special": false
    },
    {
      "id": 100004,
      "content": "[gMASK]",
      "single_word": false,
      "lstrip": false,
      "rstrip": false,
      "normalized": true,
      "special": false
    },
    {
      "id": 100005,
      "content": "[sMASK]",
      "single_word": false,
      "lstrip": false,
      "rstrip": false,
      "normalized": true,
      "special": false
    },
    {
      "id": 100006,
      "content": "[CLS]",
      "single_word": false,
      "lstrip": false,
      "rstrip": false,
      "normalized": true,
      "special": false
    },
    {
      "id": 100007,
      "content": "</s>",
      "single_word": false,
      "lstrip": false,
      "rstrip": false,
      "normalized": true,
      "special": false
    }
  ],

Now I'm missing how to incorporate them?

goerch · 2023-08-06T08:27:08Z

Manually generating 'added_tokens.json' with content

{
  "<|endoftext|>": 0,
  "<|startofpiece|>": 100000,
  "<|endofpiece|>": 100001,
  "<|LDWANG|>": 100002,
  "[MASK]": 100003,
  "[gMASK]": 100004,
  "[sMASK]": 100005,
  "[CLS]": 100006,
  "</s>": 100007
}

results in

Exception: Expected added token IDs to be sequential and start at 9; got [0, 100000, 100001, 100002, 100003, 100004, 100005, 100006, 100007]

Edit: removing the entry for "<|endoftext|>" seems to fix the problem.

ldwang and others added 6 commits July 15, 2023 14:12

support bpe tokenizer in convert

d7aab2e

Signed-off-by: ldwang <ftgreat@gmail.com>

support bpe tokenizer in convert

ee6bc14

Signed-off-by: ldwang <ftgreat@gmail.com>

support bpe tokenizer in convert, fix

64b8aaf

Signed-off-by: ldwang <ftgreat@gmail.com>

Merge branch 'ggerganov:master' into master

128b2f1

Add Aquila-7B models in README.md

35ed27b

Signed-off-by: ldwang <ftgreat@gmail.com>

Up Aquila-7B models in README.md

803c2ff

Signed-off-by: ldwang <ftgreat@gmail.com>

ggerganov approved these changes Aug 2, 2023

View reviewed changes

monatis approved these changes Aug 2, 2023

View reviewed changes

monatis merged commit 220d931 into ggml-org:master Aug 2, 2023

goerch mentioned this pull request Aug 6, 2023

supporting more diverse tokenizers #2420

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

support Aquila-7B model series #2487

support Aquila-7B model series #2487

ftgreat commented Aug 2, 2023

goerch commented Aug 6, 2023 •

edited

Loading

goerch commented Aug 6, 2023

goerch commented Aug 6, 2023 •

edited

Loading

support Aquila-7B model series #2487

support Aquila-7B model series #2487

Conversation

ftgreat commented Aug 2, 2023

goerch commented Aug 6, 2023 • edited Loading

goerch commented Aug 6, 2023

goerch commented Aug 6, 2023 • edited Loading

goerch commented Aug 6, 2023 •

edited

Loading

goerch commented Aug 6, 2023 •

edited

Loading