国产午夜三级一区二区三区,日韩免费AV一区,亚洲区视频,日本美女无遮挡,干屄网站,国产在线一区不卡,久久综合99,国产精品扒开腿做爽爽爽A片唱戏

Sentence Transformers 是一個 Python 庫，用于使用和訓(xùn)練各種應(yīng)用的嵌入模型，例如檢索增強生成 (RAG)、語義搜索、語義文本相似度、釋義挖掘 (paraphrase mining) 等等。其 3.0 版本的更新是該工程自創(chuàng)建以來最大的一次，引入了一種新的訓(xùn)練方法。在這篇博客中，我將向你展示如何使用它來微調(diào) Sentence Transformer 模型，以提高它們在特定任務(wù)上的性能。你也可以使用這種方法從頭開始訓(xùn)練新的 Sentence Transformer 模型。

Sentence Transformers https://sbert.net/

現(xiàn)在，微調(diào) Sentence Transformers 涉及幾個組成部分，包括數(shù)據(jù)集、損失函數(shù)、訓(xùn)練參數(shù)、評估器以及新的訓(xùn)練器本身。我將詳細講解每個組成部分，并提供如何使用它們來訓(xùn)練有效模型的示例。

為什么進行微調(diào)？

微調(diào) Sentence Transformer 模型可以顯著提高它們在特定任務(wù)上的性能。這是因為每個任務(wù)都需要獨特的相似性概念。讓我們以幾個新聞文章標題為例:

“Apple 發(fā)布新款 iPad”
“NVIDIA 正在為下一代 GPU 做準備 “

根據(jù)用例的不同，我們可能希望這些文本具有相似或不相似的嵌入。例如，一個針對新聞文章的分類模型可能會將這些文本視為相似，因為它們都屬于技術(shù)類別。另一方面，一個語義文本相似度或檢索模型應(yīng)該將它們視為不相似，因為它們具有不同的含義。

訓(xùn)練組件

訓(xùn)練 Sentence Transformer 模型涉及以下組件:

數(shù)據(jù)集 : 用于訓(xùn)練和評估的數(shù)據(jù)。
損失函數(shù) : 一個量化模型性能并指導(dǎo)優(yōu)化過程的函數(shù)。
訓(xùn)練參數(shù) (可選): 影響訓(xùn)練性能和跟蹤/調(diào)試的參數(shù)。
評估器 (可選): 一個在訓(xùn)練前、中或后評估模型的工具。
訓(xùn)練器 : 將模型、數(shù)據(jù)集、損失函數(shù)和其他組件整合在一起進行訓(xùn)練。

現(xiàn)在，讓我們更詳細地了解這些組件。

數(shù)據(jù)集

SentenceTransformerTrainer 使用 datasets.Dataset 或 datasets.DatasetDict 實例進行訓(xùn)練和評估。你可以從 Hugging Face 數(shù)據(jù)集中心加載數(shù)據(jù)，或使用各種格式的本地數(shù)據(jù)，如 CSV、JSON、Parquet、Arrow 或 SQL。

SentenceTransformerTrainer https://sbert.net/docs/packagereference/sentencetransformer/SentenceTransformer.html#sentencetransformers.SentenceTransformer
datasets.Dataset https://hf.co/docs/datasets/main/en/packagereference/mainclasses#datasets.Dataset
datasets.DatasetDict https://hf.co/docs/datasets/main/en/packagereference/mainclasses#datasets.DatasetDict

注意: 許多開箱即用的 Sentence Transformers 的 Hugging Face 數(shù)據(jù)集已經(jīng)標記為 sentence-transformers ，你可以通過瀏覽 https://hf.co/datasets?other=sentence-transformers 輕松找到它們。我們強烈建議你瀏覽這些數(shù)據(jù)集，以找到可能對你任務(wù)有用的訓(xùn)練數(shù)據(jù)集。

https://hf.co/datasets?other=sentence-transformers https://hf.co/datasets?other=sentence-transformers

Hugging Face Hub 上的數(shù)據(jù)

要從 Hugging Face Hub 中的數(shù)據(jù)集加載數(shù)據(jù)，請使用 loaddataset 函數(shù):

loaddataset https://hf.co/docs/datasets/main/en/packagereference/loadingmethods#datasets.loaddataset

from datasets import load_dataset

train_dataset = load_dataset("sentence-transformers/all-nli", "pair-class", split="train")
eval_dataset = load_dataset("sentence-transformers/all-nli", "pair-class", split="dev")

print(train_dataset)
"""
Dataset({
    features: ['premise', 'hypothesis', 'label'],
    num_rows: 942069
})
"""

一些數(shù)據(jù)集，如 sentence-transformers/all-nli ，具有多個子集，不同的數(shù)據(jù)格式。你需要指定子集名稱以及數(shù)據(jù)集名稱。

sentence-transformers/all-nli https://hf.co/datasets/sentence-transformers/all-nli

本地數(shù)據(jù) (CSV, JSON, Parquet, Arrow, SQL)

如果你有常見文件格式的本地數(shù)據(jù)，你也可以使用 loaddataset 輕松加載:

loaddataset https://hf.co/docs/datasets/main/en/packagereference/loadingmethods#datasets.loaddataset

from datasets import load_dataset

dataset = load_dataset("csv", data_files="my_file.csv")
# or
dataset = load_dataset("json", data_files="my_file.json")

需要預(yù)處理的本地數(shù)據(jù)

如果你的本地數(shù)據(jù)需要預(yù)處理，你可以使用 datasets.Dataset.fromdict 用列表字典初始化你的數(shù)據(jù)集:

datasets.Dataset.fromdict https://hf.co/docs/datasets/main/en/packagereference/mainclasses#datasets.Dataset.fromdict

from datasets import Dataset

anchors = []
positives = []
# Open a file, perform preprocessing, filtering, cleaning, etc.
# and append to the lists

dataset = Dataset.from_dict({
    "anchor": anchors,
    "positive": positives,
})

字典中的每個鍵都成為結(jié)果數(shù)據(jù)集中的列。

數(shù)據(jù)集格式

確保你的數(shù)據(jù)集格式與你選擇的損失函數(shù) 相匹配至關(guān)重要。這包括檢查兩件事:

如果你的損失函數(shù)需要標簽 (如損失概覽表中所指示)，你的數(shù)據(jù)集必須有一個名為“l(fā)abel” 或“score”的列。 https://sbert.net/docs/sentencetransformer/lossoverview.html
除 “l(fā)abel” 或 “score” 之外的所有列都被視為輸入 (如損失概覽表中所指示)。這些列的數(shù)量必須與你選擇的損失函數(shù)的有效輸入數(shù)量相匹配。列的名稱無關(guān)緊要，只有它們的順序重要。 https://sbert.net/docs/sentencetransformer/lossoverview.html

例如，如果你的損失函數(shù)接受 (anchor, positive, negative) 三元組，那么你的數(shù)據(jù)集的第一、第二和第三列分別對應(yīng)于 anchor 、 positive 和 negative 。這意味著你的第一和第二列必須包含應(yīng)該緊密嵌入的文本，而你的第一和第三列必須包含應(yīng)該遠距離嵌入的文本。這就是為什么根據(jù)你的損失函數(shù)，你的數(shù)據(jù)集列順序很重要的原因。考慮一個帶有 ["text1", "text2", "label"] 列的數(shù)據(jù)集，其中 "label" 列包含浮點數(shù)相似性得分。這個數(shù)據(jù)集可以用 CoSENTLoss 、 AnglELoss 和 CosineSimilarityLoss ，因為:

數(shù)據(jù)集有一個“l(fā)abel”列，這是這些損失函數(shù)所必需的。
數(shù)據(jù)集有 2 個非標簽列，與這些損失函數(shù)所需的輸入數(shù)量相匹配。

如果你的數(shù)據(jù)集中的列沒有正確排序，請使用 Dataset.selectcolumns 來重新排序。此外，使用 Dataset.removecolumns 移除任何多余的列 (例如， sampleid 、 metadata 、 source 、 type )，因為否則它們將被視為輸入。

Dataset.selectcolumns https://hf.co/docs/datasets/main/en/packagereference/mainclasses#datasets.Dataset.selectcolumns
Dataset.removecolumns https://hf.co/docs/datasets/main/en/packagereference/mainclasses#datasets.Dataset.removecolumns

損失函數(shù)

損失函數(shù)衡量模型在給定數(shù)據(jù)批次上的表現(xiàn)，并指導(dǎo)優(yōu)化過程。損失函數(shù)的選擇取決于你可用的數(shù)據(jù)和目標任務(wù)。請參閱損失概覽以獲取完整的選擇列表。

損失概覽 https://sbert.net/docs/sentencetransformer/lossoverview.html

大多數(shù)損失函數(shù)可以使用你正在訓(xùn)練的 SentenceTransformer model 來初始化:

from datasets import load_dataset
from sentence_transformers import SentenceTransformer
from sentence_transformers.losses import CoSENTLoss

# Load a model to train/finetune
model = SentenceTransformer("FacebookAI/xlm-roberta-base")

# Initialize the CoSENTLoss
# This loss requires pairs of text and a floating point similarity score as a label
loss = CoSENTLoss(model)

# Load an example training dataset that works with our loss function:
train_dataset = load_dataset("sentence-transformers/all-nli", "pair-score", split="train")
"""
Dataset({
    features: ['sentence1', 'sentence2', 'label'],
    num_rows: 942069
})
"""

訓(xùn)練參數(shù)

SentenceTransformersTrainingArguments 類允許你指定影響訓(xùn)練性能和跟蹤/調(diào)試的參數(shù)。雖然這些參數(shù)是可選的，但實驗這些參數(shù)可以幫助提高訓(xùn)練效率，并為訓(xùn)練過程提供洞察。

SentenceTransformersTrainingArguments https://sbert.net/docs/packagereference/sentencetransformer/trainingargs.html#sentencetransformertrainingarguments

在 Sentence Transformers 的文檔中，我概述了一些最有用的訓(xùn)練參數(shù)。我建議你閱讀訓(xùn)練概覽 > 訓(xùn)練參數(shù) 部分。

訓(xùn)練概覽 > 訓(xùn)練參數(shù) https://sbert.net/docs/sentencetransformer/trainingoverview.html#training-arguments

以下是如何初始化 SentenceTransformersTrainingArguments 的示例:

SentenceTransformersTrainingArguments https://sbert.net/docs/packagereference/sentencetransformer/trainingargs.html#sentencetransformertrainingarguments

from sentence_transformers.training_args import SentenceTransformerTrainingArguments

args = SentenceTransformerTrainingArguments(
    # Required parameter:
    output_dir="models/mpnet-base-all-nli-triplet",
    # Optional training parameters:
    num_train_epochs=1,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    warmup_ratio=0.1,
    fp16=True, # Set to False if your GPU can't handle FP16
    bf16=False, # Set to True if your GPU supports BF16
    batch_sampler=BatchSamplers.NO_DUPLICATES, # Losses using "in-batch negatives" benefit from no duplicates
    # Optional tracking/debugging parameters:
    eval_strategy="steps",
    eval_steps=100,
    save_strategy="steps",
    save_steps=100,
    save_total_limit=2,
    logging_steps=100,
    run_name="mpnet-base-all-nli-triplet", # Used in W&B if `wandb` is installed
)

注意 evalstrategy 是在 transformers 版本 4.41.0 中引入的。之前的版本應(yīng)該使用 evaluationstrategy 代替。

評估器

你可以為 SentenceTransformerTrainer 提供一個 evaldataset 以便在訓(xùn)練過程中獲取評估損失，但在訓(xùn)練過程中獲取更具體的指標也可能很有用。為此，你可以使用評估器來在訓(xùn)練前、中或后評估模型的性能，并使用有用的指標。你可以同時使用 evaldataset 和評估器，或者只使用其中一個，或者都不使用。它們根據(jù) evalstrategy 和 evalsteps 進行評估。

SentenceTransformerTrainer https://sbert.net/docs/packagereference/sentencetransformer/SentenceTransformer.html#sentencetransformers.SentenceTransformer

以下是 Sentence Tranformers 隨附的已實現(xiàn)的評估器:

評估器	所需數(shù)據(jù)
BinaryClassificationEvaluator	帶有類別標簽的句子對
EmbeddingSimilarityEvaluator	帶有相似性得分的句子對
InformationRetrievalEvaluator	查詢 (qid => 問題) ，語料庫 (cid => 文檔)，以及相關(guān)文檔 (qid => 集合[cid])
MSEEvaluator	需要由教師模型嵌入的源句子和需要由學(xué)生模型嵌入的目標句子?？梢允窍嗤奈谋尽?/td>
ParaphraseMiningEvaluator	ID 到句子的映射以及帶有重復(fù)句子 ID 的句子對。
RerankingEvaluator	{'query': '..', 'positive': [...], 'negative': [...]} 字典的列表。
TranslationEvaluator	兩種不同語言的句子對。
TripletEvaluator	(錨點，正面，負面) 三元組。

BinaryClassificationEvaluator https://sbert.net/docs/packagereference/sentencetransformer/evaluation.html#binaryclassificationevaluator
EmbeddingSimilarityEvaluator https://sbert.net/docs/packagereference/sentencetransformer/evaluation.html#embeddingsimilarityevaluator
InformationRetrievalEvaluator https://sbert.net/docs/packagereference/sentencetransformer/evaluation.html#informationretrievalevaluator
MSEEvaluator https://sbert.net/docs/packagereference/sentencetransformer/evaluation.html#mseevaluator
ParaphraseMiningEvaluator https://sbert.net/docs/packagereference/sentencetransformer/evaluation.html#paraphraseminingevaluator
RerankingEvaluator https://sbert.net/docs/packagereference/sentencetransformer/evaluation.html#rerankingevaluator
TranslationEvaluator https://sbert.net/docs/packagereference/sentencetransformer/evaluation.html#translationevaluator
TripletEvaluator https://sbert.net/docs/packagereference/sentencetransformer/evaluation.html#tripletevaluator

此外，你可以使用 SequentialEvaluator 將多個評估器組合成一個，然后將其傳遞給 SentenceTransformerTrainer 。

SequentialEvaluator https://sbert.net/docs/packagereference/sentencetransformer/evaluation.html#sequentialevaluator
SentenceTransformerTrainer https://sbert.net/docs/packagereference/sentencetransformer/SentenceTransformer.html#sentencetransformers.SentenceTransformer

如果你沒有必要的評估數(shù)據(jù)但仍然想跟蹤模型在常見基準上的性能，你可以使用 Hugging Face 上的數(shù)據(jù)與這些評估器一起使用。

使用 STSb 的 Embedding Similarity Evaluator

STS 基準測試 (也稱為 STSb) 是一種常用的基準數(shù)據(jù)集，用于衡量模型對短文本 (如 “A man is feeding a mouse to a snake.”) 的語義文本相似性的理解。

你可以自由瀏覽 Hugging Face 上的 sentence-transformers/stsb 數(shù)據(jù)集。

sentence-transformers/stsb https://hf.co/datasets/sentence-transformers/stsb

from datasets import load_dataset
from sentence_transformers.evaluation import EmbeddingSimilarityEvaluator, SimilarityFunction

# Load the STSB dataset
eval_dataset = load_dataset("sentence-transformers/stsb", split="validation")

# Initialize the evaluator
dev_evaluator = EmbeddingSimilarityEvaluator(
    sentences1=eval_dataset["sentence1"],
    sentences2=eval_dataset["sentence2"],
    scores=eval_dataset["score"],
    main_similarity=SimilarityFunction.COSINE,
    name="sts-dev",
)
# Run evaluation manually:
# print(dev_evaluator(model))

# Later, you can provide this evaluator to the trainer to get results during training

使用 AllNLI 的 Triplet Evaluator

AllNLI 是 SNLI 和 MultiNLI 數(shù)據(jù)集的合并，這兩個數(shù)據(jù)集都是用于自然語言推理的。這個任務(wù)的傳統(tǒng)目的是確定兩段文本是否是蘊含、矛盾還是兩者都不是。它后來被采用用于訓(xùn)練嵌入模型，因為蘊含和矛盾的句子構(gòu)成了有用的 (anchor, positive, negative) 三元組: 這是訓(xùn)練嵌入模型的一種常見格式。

SNLI https://hf.co/datasets/stanfordnlp/snli
MultiNLI https://hf.co/datasets/nyu-mll/multinli

在這個片段中，它被用來評估模型認為錨文本和蘊含文本比錨文本和矛盾文本更相似的頻率。一個示例文本是 “An older man is drinking orange juice at a restaurant.”。

你可以自由瀏覽 Hugging Face 上的 sentence-transformers/all-nli 數(shù)據(jù)集。

sentence-transformers/all-nli https://hf.co/datasets/sentence-transformers/all-nli

from datasets import load_dataset
from sentence_transformers.evaluation import TripletEvaluator, SimilarityFunction

# Load triplets from the AllNLI dataset
max_samples = 1000
eval_dataset = load_dataset("sentence-transformers/all-nli", "triplet", split=f"dev[:{max_samples}]")

# Initialize the evaluator
dev_evaluator = TripletEvaluator(
    anchors=eval_dataset["anchor"],
    positives=eval_dataset["positive"],
    negatives=eval_dataset["negative"],
    main_distance_function=SimilarityFunction.COSINE,
    name=f"all-nli-{max_samples}-dev",
)
# Run evaluation manually:
# print(dev_evaluator(model))

# Later, you can provide this evaluator to the trainer to get results during training

訓(xùn)練器

SentenceTransformerTrainer 將模型、數(shù)據(jù)集、損失函數(shù)和其他組件整合在一起進行訓(xùn)練:

SentenceTransformerTrainer https://sbert.net/docs/packagereference/sentencetransformer/SentenceTransformer.html#sentencetransformers.SentenceTransformer

from datasets import load_dataset
from sentence_transformers import (
    SentenceTransformer,
    SentenceTransformerTrainer,
    SentenceTransformerTrainingArguments,
    SentenceTransformerModelCardData,
)
from sentence_transformers.losses import MultipleNegativesRankingLoss
from sentence_transformers.training_args import BatchSamplers
from sentence_transformers.evaluation import TripletEvaluator

# 1. Load a model to finetune with 2. (Optional) model card data
model = SentenceTransformer(
    "microsoft/mpnet-base",
    model_card_data=SentenceTransformerModelCardData(
        language="en",
        license="apache-2.0",
        model_name="MPNet base trained on AllNLI triplets",
    )
)

# 3. Load a dataset to finetune on
dataset = load_dataset("sentence-transformers/all-nli", "triplet")
train_dataset = dataset["train"].select(range(100_000))
eval_dataset = dataset["dev"]
test_dataset = dataset["test"]

# 4. Define a loss function
loss = MultipleNegativesRankingLoss(model)

# 5. (Optional) Specify training arguments
args = SentenceTransformerTrainingArguments(
    # Required parameter:
    output_dir="models/mpnet-base-all-nli-triplet",
    # Optional training parameters:
    num_train_epochs=1,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    warmup_ratio=0.1,
    fp16=True, # Set to False if GPU can't handle FP16
    bf16=False, # Set to True if GPU supports BF16
    batch_sampler=BatchSamplers.NO_DUPLICATES, # MultipleNegativesRankingLoss benefits from no duplicates
    # Optional tracking/debugging parameters:
    eval_strategy="steps",
    eval_steps=100,
    save_strategy="steps",
    save_steps=100,
    save_total_limit=2,
    logging_steps=100,
    run_name="mpnet-base-all-nli-triplet", # Used in W&B if `wandb` is installed
)

# 6. (Optional) Create an evaluator & evaluate the base model
dev_evaluator = TripletEvaluator(
    anchors=eval_dataset["anchor"],
    positives=eval_dataset["positive"],
    negatives=eval_dataset["negative"],
    name="all-nli-dev",
)
dev_evaluator(model)

# 7. Create a trainer & train
trainer = SentenceTransformerTrainer(
    model=model,
    args=args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    loss=loss,
    evaluator=dev_evaluator,
)
trainer.train()

# (Optional) Evaluate the trained model on the test set, after training completes
test_evaluator = TripletEvaluator(
    anchors=test_dataset["anchor"],
    positives=test_dataset["positive"],
    negatives=test_dataset["negative"],
    name="all-nli-test",
)
test_evaluator(model)

# 8. Save the trained model
model.save_pretrained("models/mpnet-base-all-nli-triplet/final")

# 9. (Optional) Push it to the Hugging Face Hub
model.push_to_hub("mpnet-base-all-nli-triplet")

在這個示例中，我從一個尚未成為 Sentence Transformer 模型的基礎(chǔ)模型 microsoft/mpnet-base 開始進行微調(diào)。這需要比微調(diào)現(xiàn)有的 Sentence Transformer 模型，如 all-mpnet-base-v2 ，更多的訓(xùn)練數(shù)據(jù)。

microsoft/mpnet-base https://hf.co/microsoft/mpnet-base
all-mpnet-base-v2 https://hf.co/sentence-transformers/all-mpnet-base-v2

運行此腳本后， tomaarsen/mpnet-base-all-nli-triplet 模型被上傳了。使用余弦相似度的三元組準確性，即 cosinesimilarity(anchor, positive) > cosinesimilarity(anchor, negative) 的百分比為開發(fā)集上的 90.04% 和測試集上的 91.5% ！作為參考， microsoft/mpnet-base 模型在訓(xùn)練前在開發(fā)集上的得分為 68.32%。

tomaarsen/mpnet-base-all-nli-triplet https://hf.co/tomaarsen/mpnet-base-all-nli-triplet
microsoft/mpnet-base https://hf.co/microsoft/mpnet-base

所有這些信息都被自動生成的模型卡存儲，包括基礎(chǔ)模型、語言、許可證、評估結(jié)果、訓(xùn)練和評估數(shù)據(jù)集信息、超參數(shù)、訓(xùn)練日志等。無需任何努力，你上傳的模型應(yīng)該包含潛在用戶判斷你的模型是否適合他們的所有信息。

回調(diào)函數(shù)

Sentence Transformers 訓(xùn)練器支持各種 transformers.TrainerCallback 子類，包括:

transformers.TrainerCallback https://hf.co/docs/transformers/mainclasses/callback#transformers.TrainerCallback
WandbCallback : 如果已安裝 wandb ，則將訓(xùn)練指標記錄到 W&B https://hf.co/docs/transformers/en/mainclasses/callback#transformers.integrations.WandbCallback
TensorBoardCallback : 如果可訪問 tensorboard ，則將訓(xùn)練指標記錄到 TensorBoard https://hf.co/docs/transformers/en/mainclasses/callback#transformers.integrations.TensorBoardCallback
CodeCarbonCallback : 如果已安裝 codecarbon ，則跟蹤訓(xùn)練期間的碳排放 https://hf.co/docs/transformers/en/mainclasses/callback#transformers.integrations.CodeCarbonCallback

這些回調(diào)函數(shù)會自動使用，無需你進行任何指定，只要安裝了所需的依賴項即可。

有關(guān)這些回調(diào)函數(shù)的更多信息以及如何創(chuàng)建你自己的回調(diào)函數(shù)，請參閱 Transformers 回調(diào)文檔。

Transformers 回調(diào)文檔 https://hf.co/docs/transformers/en/mainclasses/callback

多數(shù)據(jù)集訓(xùn)練

通常情況下，表現(xiàn)最好的模型是通過同時使用多個數(shù)據(jù)集進行訓(xùn)練的。 SentenceTransformerTrainer 通過允許你使用多個數(shù)據(jù)集進行訓(xùn)練，而不需要將它們轉(zhuǎn)換為相同的格式，簡化了這一過程。你甚至可以為每個數(shù)據(jù)集應(yīng)用不同的損失函數(shù)。以下是多數(shù)據(jù)集訓(xùn)練的步驟:

SentenceTransformerTrainer https://sbert.net/docs/packagereference/sentencetransformer/SentenceTransformer.html#sentencetransformers.SentenceTransformer

使用一個 datasets.Dataset https://hf.co/docs/datasets/main/en/packagereference/mainclasses#datasets.Dataset 實例的字典 (或 datasets.DatasetDict https://hf.co/docs/datasets/main/en/packagereference/mainclasses#datasets.DatasetDict ) 作為 traindataset 和 evaldataset 。
(可選) 如果你希望為不同的數(shù)據(jù)集使用不同的損失函數(shù)，請使用一個損失函數(shù)的字典，其中數(shù)據(jù)集名稱映射到損失。

每個訓(xùn)練/評估批次將僅包含來自一個數(shù)據(jù)集的樣本。從多個數(shù)據(jù)集中采樣批次的順序由 MultiDatasetBatchSamplers 枚舉確定，該枚舉可以通過 multidatasetbatchsampler 傳遞給 SentenceTransformersTrainingArguments 。有效的選項包括:

MultiDatasetBatchSamplers https://sbert.net/docs/packagereference/sentencetransformer/trainingargs.html#sentencetransformers.trainingargs.MultiDatasetBatchSamplers
SentenceTransformersTrainingArguments https://sbert.net/docs/packagereference/sentencetransformer/trainingargs.html#sentencetransformertrainingarguments
MultiDatasetBatchSamplers.ROUNDROBIN : 以輪詢方式從每個數(shù)據(jù)集采樣，直到一個數(shù)據(jù)集用盡。這種策略可能不會使用每個數(shù)據(jù)集中的所有樣本，但它確保了每個數(shù)據(jù)集的平等采樣。
MultiDatasetBatchSamplers.PROPORTIONAL (默認): 按比例從每個數(shù)據(jù)集采樣。這種策略確保了每個數(shù)據(jù)集中的所有樣本都被使用，并且較大的數(shù)據(jù)集被更頻繁地采樣。

多任務(wù)訓(xùn)練已被證明是高度有效的。例如， Huang et al. 2024 使用了 MultipleNegativesRankingLoss 、 CoSENTLoss 和 MultipleNegativesRankingLoss 的一個變體 (不包含批次內(nèi)的負樣本，僅包含硬負樣本)，以在中國取得最先進的表現(xiàn)。他們還應(yīng)用了 MatryoshkaLoss 以使模型能夠產(chǎn)生 Matryoshka Embeddings 。

Huang et al. 2024 https://arxiv.org/pdf/2405.06932
MultipleNegativesRankingLoss https://sbert.net/docs/packagereference/sentencetransformer/losses.html#multiplenegativesrankingloss
CoSENTLoss https://sbert.net/docs/packagereference/sentencetransformer/losses.html#cosentloss
MultipleNegativesRankingLoss https://sbert.net/docs/packagereference/sentencetransformer/losses.html#multiplenegativesrankingloss
MatryoshkaLoss https://sbert.net/docs/packagereference/sentencetransformer/losses.html#matryoshkaloss
Matryoshka Embeddings https://hf.co/blog/matryoshka

以下是多數(shù)據(jù)集訓(xùn)練的一個示例:

from datasets import load_dataset
from sentence_transformers import SentenceTransformer, SentenceTransformerTrainer
from sentence_transformers.losses import CoSENTLoss, MultipleNegativesRankingLoss, SoftmaxLoss

# 1. Load a model to finetune
model = SentenceTransformer("bert-base-uncased")

# 2. Loadseveral Datasets to train with
# (anchor, positive)
all_nli_pair_train = load_dataset("sentence-transformers/all-nli", "pair", split="train[:10000]")
# (premise, hypothesis) + label
all_nli_pair_class_train = load_dataset("sentence-transformers/all-nli", "pair-class", split="train[:10000]")
# (sentence1, sentence2) + score
all_nli_pair_score_train = load_dataset("sentence-transformers/all-nli", "pair-score", split="train[:10000]")
# (anchor, positive, negative)
all_nli_triplet_train = load_dataset("sentence-transformers/all-nli", "triplet", split="train[:10000]")
# (sentence1, sentence2) + score
stsb_pair_score_train = load_dataset("sentence-transformers/stsb", split="train[:10000]")
# (anchor, positive)
quora_pair_train = load_dataset("sentence-transformers/quora-duplicates", "pair", split="train[:10000]")
# (query, answer)
natural_questions_train = load_dataset("sentence-transformers/natural-questions", split="train[:10000]")

# Combine all datasets into a dictionary with dataset names to datasets
train_dataset = {
    "all-nli-pair": all_nli_pair_train,
    "all-nli-pair-class": all_nli_pair_class_train,
    "all-nli-pair-score": all_nli_pair_score_train,
    "all-nli-triplet": all_nli_triplet_train,
    "stsb": stsb_pair_score_train,
    "quora": quora_pair_train,
    "natural-questions": natural_questions_train,
}

# 3. Load several Datasets to evaluate with
# (anchor, positive, negative)
all_nli_triplet_dev = load_dataset("sentence-transformers/all-nli", "triplet", split="dev")
# (sentence1, sentence2, score)
stsb_pair_score_dev = load_dataset("sentence-transformers/stsb", split="validation")
# (anchor, positive)
quora_pair_dev = load_dataset("sentence-transformers/quora-duplicates", "pair", split="train[10000:11000]")
# (query, answer)
natural_questions_dev = load_dataset("sentence-transformers/natural-questions", split="train[10000:11000]")

# Use a dictionary for the evaluation dataset too, or just use one dataset or none at all
eval_dataset = {
    "all-nli-triplet": all_nli_triplet_dev,
    "stsb": stsb_pair_score_dev,
    "quora": quora_pair_dev,
    "natural-questions": natural_questions_dev,
}

# 4. Load several loss functions to train with
# (anchor, positive), (anchor, positive, negative)
mnrl_loss = MultipleNegativesRankingLoss(model)
# (sentence_A, sentence_B) + class
softmax_loss = SoftmaxLoss(model)
# (sentence_A, sentence_B) + score
cosent_loss = CoSENTLoss(model)

# Create a mapping with dataset names to loss functions, so the trainer knows which loss to apply where
# Note: You can also just use one loss if all your training/evaluation datasets use the same loss
losses = {
    "all-nli-pair": mnrl_loss,
    "all-nli-pair-class": softmax_loss,
    "all-nli-pair-score": cosent_loss,
    "all-nli-triplet": mnrl_loss,
    "stsb": cosent_loss,
    "quora": mnrl_loss,
    "natural-questions": mnrl_loss,
}

# 5. Define a simple trainer, although it's recommended to use one with args & evaluators
trainer = SentenceTransformerTrainer(
    model=model,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    loss=losses,
)
trainer.train()

# 6. Save the trained model and optionally push it to the Hugging Face Hub
model.save_pretrained("bert-base-all-nli-stsb-quora-nq")
model.push_to_hub("bert-base-all-nli-stsb-quora-nq")

棄用

在 Sentence Transformer v3 發(fā)布之前，所有模型都會使用 SentenceTransformer.fit 方法進行訓(xùn)練。從 v3.0 開始，該方法將使用 SentenceTransformerTrainer 作為后端。這意味著你的舊訓(xùn)練代碼仍然應(yīng)該可以工作，甚至可以升級到新的特性，如多 GPU 訓(xùn)練、損失記錄等。然而，新的訓(xùn)練方法更加強大，因此建議使用新的方法編寫新的訓(xùn)練腳本。

SentenceTransformer.fit https://sbert.net/docs/packagereference/sentencetransformer/SentenceTransformer.html#sentencetransformers.SentenceTransformer.fit
SentenceTransformerTrainer https://sbert.net/docs/packagereference/sentencetransformer/trainer.html#sentencetransformers.trainer.SentenceTransformerTrainer

附加資源

訓(xùn)練示例

以下頁面包含帶有解釋的訓(xùn)練示例以及代碼鏈接。我們建議你瀏覽這些頁面以熟悉訓(xùn)練循環(huán):

語義文本相似度 https://sbert.net/examples/training/sts/README.html
自然語言推理 https://sbert.net/examples/training/nli/README.html
釋義 https://sbert.net/examples/training/paraphrases/README.html
Quora 重復(fù)問題 https://sbert.net/examples/training/quoraduplicatequestions/README.html
Matryoshka Embeddings https://sbert.net/examples/training/matryoshka/README.html
自適應(yīng)層模型 https://sbert.net/examples/training/adaptivelayer/README.html
多語言模型 https://sbert.net/examples/training/multilingual/README.html
模型蒸餾 https://sbert.net/examples/training/distillation/README.html
增強的句子轉(zhuǎn)換器 https://sbert.net/examples/training/dataaugmentation/README.html

文檔

此外，以下頁面可能有助于你了解 Sentence Transformers 的更多信息:

安裝 https://sbert.net/docs/installation.html
快速入門 https://sbert.net/docs/quickstart.html
使用 https://sbert.net/docs/sentencetransformer/usage/usage.html
預(yù)訓(xùn)練模型 https://sbert.net/docs/sentencetransformer/pretrainedmodels.html
訓(xùn)練概覽 (本博客是訓(xùn)練概覽文檔的提煉) https://sbert.net/docs/sentencetransformer/trainingoverview.html
數(shù)據(jù)集概覽 https://sbert.net/docs/sentencetransformer/datasetoverview.html
損失概覽 https://sbert.net/docs/sentencetransformer/lossoverview.html
API 參考 https://sbert.net/docs/packagereference/sentencetransformer/index.html

最后，以下是一些高級頁面，你可能會感興趣:

超參數(shù)優(yōu)化 https://sbert.net/examples/training/hpo/README.html
分布式訓(xùn)練 https://sbert.net/docs/sentencetransformer/training/distributed.html

英文原文: https://hf.co/blog/train-sentence-transformers

原文作者: Tom Aarsen

譯者: innovation64

国产秋霞理论久久久电影-婷婷色九月综合激情丁香-欧美在线观看乱妇视频-精品国avA久久久久久久-国产乱码精品一区二区三区亚洲人-欧美熟妇一区二区三区蜜桃视频

用 Sentence Transformers v3 訓(xùn)練和微調(diào)嵌入模型