[
  {
    "50.00 percentile latency (ns)": 78654501,
    "90.00 percentile latency (ns)": 94108275,
    "95.00 percentile latency (ns)": 102931931,
    "97.00 percentile latency (ns)": 111744585,
    "99.00 percentile latency (ns)": 121831461,
    "99.90 percentile latency (ns)": 130637310,
    "Completed samples per second": 13749.98,
    "Max latency (ns)": 142208486,
    "Mean latency (ns)": 78462527,
    "Min duration satisfied": "Yes",
    "Min latency (ns)": 4355735,
    "Min queries satisfied": "Yes",
    "Mode": "PerformanceOnly",
    "Performance constraints satisfied": "Yes",
    "Result is": "VALID",
    "SUT name": "BERT SERVER",
    "Scenario": "server",
    "Scheduled samples per second": 13751.63,
    "accelerator_frequency": "",
    "accelerator_host_interconnect": "",
    "accelerator_interconnect": "",
    "accelerator_interconnect_topology": "",
    "accelerator_memory_capacity": "40 GB",
    "accelerator_memory_configuration": "HBM2",
    "accelerator_model_name": "NVIDIA A100-SXM-80GB-500W",
    "accelerator_on-chip_memories": "",
    "accelerators_per_node": 4,
    "accuracy_log_probability": 0,
    "accuracy_log_rng_seed": 0,
    "accuracy_log_sampling_target": 0,
    "boot_firmware_version": "",
    "characteristics.scheduled_queries_per_second": 13751.63,
    "characteristics.scheduled_queries_per_second.normalized_per_core": 3437.9075,
    "characteristics.scheduled_queries_per_second.normalized_per_processor": 3437.9075,
    "ck_system": "Lenovo-SD650v2-N-A100_A100-SXM-80GBx4_TRT",
    "ck_used": false,
    "cooling": "",
    "dataset": "SQuAD v1.1",
    "dataset_link": "",
    "dim_x_default": "seq_number",
    "dim_y_default": "characteristics.scheduled_queries_per_second",
    "dim_y_maximize": false,
    "disk_controllers": "",
    "disk_drives": "",
    "division": "closed",
    "filesystem": "",
    "formal_model": "bert",
    "formal_model_accuracy": 99.0,
    "formal_model_link": "",
    "framework": "TensorRT 8.0.2, CUDA 11.3",
    "host_memory_capacity": "768 GB",
    "host_memory_configuration": "",
    "host_networking": "",
    "host_networking_topology": "",
    "host_processor_caches": "",
    "host_processor_core_count": 28,
    "host_processor_frequency": "",
    "host_processor_interconnect": "",
    "host_processor_model_name": "Intel(R) Xeon(R) Platinum 8360Y CPU @ 2.60GHz",
    "host_processors_per_node": 2,
    "host_storage_capacity": "2 TB",
    "host_storage_type": "SSD",
    "hw_notes": "",
    "informal_model": "bert-99",
    "input_data_types": "int32",
    "management_firmware_version": "",
    "max_async_queries": 0,
    "max_duration (ms)": 0,
    "max_query_count": 0,
    "min_duration (ms)": 600000,
    "min_query_count": 270336,
    "mlperf_version": 1.1,
    "network_speed_mbit": "",
    "nics_enabled_connected": "",
    "nics_enabled_firmware": "",
    "nics_enabled_os": "",
    "normalize_cores": 4,
    "normalize_processors": 4,
    "note_code": "https://github.com/mlcommons/inference_results_v1.1/tree/master/closed/Lenovo/code",
    "note_details": "https://github.com/mlcommons/inference_results_v1.1/tree/master/closed/Lenovo/results/Lenovo-SD650v2-N-A100_A100-SXM-80GBx4_TRT",
    "number_of_nodes": 1,
    "number_of_type_nics_installed": "",
    "operating_system": "Centos 8.4",
    "other_hardware": "",
    "other_software_stack": "TensorRT 8.0.2, CUDA 11.3, cuDNN 8.2.1, Driver 470.57.02",
    "performance_issue_same": 0,
    "performance_issue_same_index": 0,
    "performance_issue_unique": 0,
    "performance_sample_count": 10833,
    "power_management": "",
    "power_supply_details": "",
    "power_supply_quantity_and_rating_watts": "",
    "print_timestamps": 0,
    "problem": false,
    "qsl_rng_seed": 1624344308455410291,
    "retraining": "N",
    "sample_index_rng_seed": 517984244576520566,
    "samples_per_query": 1,
    "schedule_rng_seed": 10051496985653635065,
    "starting_weights_filename": "bert_large_v1_1_fake_quant.onnx",
    "status": "available",
    "submitter": "Lenovo",
    "submitter_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.submitter/Lenovo",
    "sw_notes": "",
    "system_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.system/Lenovo-SD650v2-N-A100_A100-SXM-80GBx4_TRT",
    "system_name": "Lenovo ThinkSystem SD650N-v2 Server",
    "system_type": "datacenter",
    "target_latency (ns)": 130000000,
    "target_qps": 13750,
    "task": "NLP",
    "task2": "nlp",
    "total_cores": 56,
    "uid": "ecd89c47c28de974",
    "use_accelerator": true,
    "weight_data_types": "int8",
    "weight_transformations": "quantization, affine fusion"
  },
  {
    "50.00 percentile latency (ns)": 65385714,
    "90.00 percentile latency (ns)": 95555127,
    "95.00 percentile latency (ns)": 104152387,
    "97.00 percentile latency (ns)": 109765144,
    "99.00 percentile latency (ns)": 120437678,
    "99.90 percentile latency (ns)": 138805326,
    "Completed samples per second": 6751.22,
    "Max latency (ns)": 160524718,
    "Mean latency (ns)": 66418997,
    "Min duration satisfied": "Yes",
    "Min latency (ns)": 4375581,
    "Min queries satisfied": "Yes",
    "Mode": "PerformanceOnly",
    "Performance constraints satisfied": "Yes",
    "Result is": "VALID",
    "SUT name": "BERT SERVER",
    "Scenario": "server",
    "Scheduled samples per second": 6751.92,
    "accelerator_frequency": "",
    "accelerator_host_interconnect": "",
    "accelerator_interconnect": "",
    "accelerator_interconnect_topology": "",
    "accelerator_memory_capacity": "40 GB",
    "accelerator_memory_configuration": "HBM2",
    "accelerator_model_name": "NVIDIA A100-SXM-80GB-500W",
    "accelerator_on-chip_memories": "",
    "accelerators_per_node": 4,
    "accuracy_log_probability": 0,
    "accuracy_log_rng_seed": 0,
    "accuracy_log_sampling_target": 0,
    "boot_firmware_version": "",
    "characteristics.scheduled_queries_per_second": 6751.92,
    "characteristics.scheduled_queries_per_second.normalized_per_core": 1687.98,
    "characteristics.scheduled_queries_per_second.normalized_per_processor": 1687.98,
    "ck_system": "Lenovo-SD650v2-N-A100_A100-SXM-80GBx4_TRT",
    "ck_used": false,
    "cooling": "",
    "dataset": "SQuAD v1.1",
    "dataset_link": "",
    "dim_x_default": "seq_number",
    "dim_y_default": "characteristics.scheduled_queries_per_second",
    "dim_y_maximize": false,
    "disk_controllers": "",
    "disk_drives": "",
    "division": "closed",
    "filesystem": "",
    "formal_model": "bert",
    "formal_model_accuracy": 99.9,
    "formal_model_link": "",
    "framework": "TensorRT 8.0.2, CUDA 11.3",
    "host_memory_capacity": "768 GB",
    "host_memory_configuration": "",
    "host_networking": "",
    "host_networking_topology": "",
    "host_processor_caches": "",
    "host_processor_core_count": 28,
    "host_processor_frequency": "",
    "host_processor_interconnect": "",
    "host_processor_model_name": "Intel(R) Xeon(R) Platinum 8360Y CPU @ 2.60GHz",
    "host_processors_per_node": 2,
    "host_storage_capacity": "2 TB",
    "host_storage_type": "SSD",
    "hw_notes": "",
    "informal_model": "bert-99.9",
    "input_data_types": "int32",
    "management_firmware_version": "",
    "max_async_queries": 0,
    "max_duration (ms)": 0,
    "max_query_count": 0,
    "min_duration (ms)": 600000,
    "min_query_count": 270336,
    "mlperf_version": 1.1,
    "network_speed_mbit": "",
    "nics_enabled_connected": "",
    "nics_enabled_firmware": "",
    "nics_enabled_os": "",
    "normalize_cores": 4,
    "normalize_processors": 4,
    "note_code": "https://github.com/mlcommons/inference_results_v1.1/tree/master/closed/Lenovo/code",
    "note_details": "https://github.com/mlcommons/inference_results_v1.1/tree/master/closed/Lenovo/results/Lenovo-SD650v2-N-A100_A100-SXM-80GBx4_TRT",
    "number_of_nodes": 1,
    "number_of_type_nics_installed": "",
    "operating_system": "Centos 8.4",
    "other_hardware": "",
    "other_software_stack": "TensorRT 8.0.2, CUDA 11.3, cuDNN 8.2.1, Driver 470.57.02",
    "performance_issue_same": 0,
    "performance_issue_same_index": 0,
    "performance_issue_unique": 0,
    "performance_sample_count": 10833,
    "power_management": "",
    "power_supply_details": "",
    "power_supply_quantity_and_rating_watts": "",
    "print_timestamps": 0,
    "problem": false,
    "qsl_rng_seed": 1624344308455410291,
    "retraining": "N",
    "sample_index_rng_seed": 517984244576520566,
    "samples_per_query": 1,
    "schedule_rng_seed": 10051496985653635065,
    "starting_weights_filename": "bert_large_v1_1_fake_quant.onnx",
    "status": "available",
    "submitter": "Lenovo",
    "submitter_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.submitter/Lenovo",
    "sw_notes": "",
    "system_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.system/Lenovo-SD650v2-N-A100_A100-SXM-80GBx4_TRT",
    "system_name": "Lenovo ThinkSystem SD650N-v2 Server",
    "system_type": "datacenter",
    "target_latency (ns)": 130000000,
    "target_qps": 6750,
    "task": "NLP",
    "task2": "nlp",
    "total_cores": 56,
    "uid": "b117e4c04241aa34",
    "use_accelerator": true,
    "weight_data_types": "fp16",
    "weight_transformations": "quantization, affine fusion"
  },
  {
    "50.00 percentile latency (ns)": 67571456,
    "90.00 percentile latency (ns)": 96764872,
    "95.00 percentile latency (ns)": 105589601,
    "97.00 percentile latency (ns)": 111775344,
    "99.00 percentile latency (ns)": 128957071,
    "99.90 percentile latency (ns)": 519743211040,
    "Completed samples per second": 6051.52,
    "Max latency (ns)": 604347951184,
    "Mean latency (ns)": 2331183328,
    "Min duration satisfied": "Yes",
    "Min latency (ns)": 7128470,
    "Min queries satisfied": "Yes",
    "Mode": "PerformanceOnly",
    "Performance constraints satisfied": "Yes",
    "Result is": "VALID",
    "SUT name": "BERT SERVER",
    "Scenario": "server",
    "Scheduled samples per second": 6052.36,
    "accelerator_frequency": "",
    "accelerator_host_interconnect": "",
    "accelerator_interconnect": "",
    "accelerator_interconnect_topology": "",
    "accelerator_memory_capacity": "48 GB",
    "accelerator_memory_configuration": "GDDR6",
    "accelerator_model_name": "NVIDIA A30",
    "accelerator_on-chip_memories": "",
    "accelerators_per_node": 4,
    "accuracy_log_probability": 0,
    "accuracy_log_rng_seed": 0,
    "accuracy_log_sampling_target": 0,
    "boot_firmware_version": "",
    "characteristics.scheduled_queries_per_second": 6052.36,
    "characteristics.scheduled_queries_per_second.normalized_per_core": 1513.09,
    "characteristics.scheduled_queries_per_second.normalized_per_processor": 1513.09,
    "ck_system": "A30x4_TRT",
    "ck_used": false,
    "cooling": "",
    "dataset": "SQuAD v1.1",
    "dataset_link": "",
    "dim_x_default": "seq_number",
    "dim_y_default": "characteristics.scheduled_queries_per_second",
    "dim_y_maximize": false,
    "disk_controllers": "",
    "disk_drives": "",
    "division": "closed",
    "filesystem": "",
    "formal_model": "bert",
    "formal_model_accuracy": 99.0,
    "formal_model_link": "",
    "framework": "TensorRT 8.0.2, CUDA 11.3",
    "host_memory_capacity": "704 GB",
    "host_memory_configuration": "",
    "host_networking": "",
    "host_networking_topology": "",
    "host_processor_caches": "",
    "host_processor_core_count": 28,
    "host_processor_frequency": "",
    "host_processor_interconnect": "",
    "host_processor_model_name": "Intel(R) Xeon(R) Platinum 8280 CPU @ 2.60GHz",
    "host_processors_per_node": 2,
    "host_storage_capacity": "2 TB",
    "host_storage_type": "SSD",
    "hw_notes": "",
    "informal_model": "bert-99",
    "input_data_types": "int32",
    "management_firmware_version": "",
    "max_async_queries": 0,
    "max_duration (ms)": 0,
    "max_query_count": 0,
    "min_duration (ms)": 600000,
    "min_query_count": 270336,
    "mlperf_version": 1.1,
    "network_speed_mbit": "",
    "nics_enabled_connected": "",
    "nics_enabled_firmware": "",
    "nics_enabled_os": "",
    "normalize_cores": 4,
    "normalize_processors": 4,
    "note_code": "https://github.com/mlcommons/inference_results_v1.1/tree/master/closed/Lenovo/code",
    "note_details": "https://github.com/mlcommons/inference_results_v1.1/tree/master/closed/Lenovo/results/A30x4_TRT",
    "number_of_nodes": 1,
    "number_of_type_nics_installed": "",
    "operating_system": "Ubuntu 20.04.4",
    "other_hardware": "",
    "other_software_stack": "TensorRT 8.0.2, CUDA 11.3, cuDNN 8.2.1, Driver 470.57.02",
    "performance_issue_same": 0,
    "performance_issue_same_index": 0,
    "performance_issue_unique": 0,
    "performance_sample_count": 10833,
    "power_management": "",
    "power_supply_details": "",
    "power_supply_quantity_and_rating_watts": "",
    "print_timestamps": 0,
    "problem": false,
    "qsl_rng_seed": 1624344308455410291,
    "retraining": "N",
    "sample_index_rng_seed": 517984244576520566,
    "samples_per_query": 1,
    "schedule_rng_seed": 10051496985653635065,
    "starting_weights_filename": "bert_large_v1_1_fake_quant.onnx",
    "status": "available",
    "submitter": "Lenovo",
    "submitter_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.submitter/Lenovo",
    "sw_notes": "",
    "system_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.system/A30x4_TRT",
    "system_name": "Lenovo ThinkSystem SR670 Server",
    "system_type": "datacenter",
    "target_latency (ns)": 130000000,
    "target_qps": 6050,
    "task": "NLP",
    "task2": "nlp",
    "total_cores": 56,
    "uid": "6c110e57a7a74047",
    "use_accelerator": true,
    "weight_data_types": "int8",
    "weight_transformations": "quantization, affine fusion"
  },
  {
    "50.00 percentile latency (ns)": 55909636,
    "90.00 percentile latency (ns)": 88042679,
    "95.00 percentile latency (ns)": 98565728,
    "97.00 percentile latency (ns)": 106243866,
    "99.00 percentile latency (ns)": 127163262,
    "99.90 percentile latency (ns)": 528656608405,
    "Completed samples per second": 2695.73,
    "Max latency (ns)": 603833740985,
    "Mean latency (ns)": 2373473554,
    "Min duration satisfied": "Yes",
    "Min latency (ns)": 5727419,
    "Min queries satisfied": "Yes",
    "Mode": "PerformanceOnly",
    "Performance constraints satisfied": "Yes",
    "Result is": "VALID",
    "SUT name": "BERT SERVER",
    "Scenario": "server",
    "Scheduled samples per second": 2696.17,
    "accelerator_frequency": "",
    "accelerator_host_interconnect": "",
    "accelerator_interconnect": "",
    "accelerator_interconnect_topology": "",
    "accelerator_memory_capacity": "48 GB",
    "accelerator_memory_configuration": "GDDR6",
    "accelerator_model_name": "NVIDIA A30",
    "accelerator_on-chip_memories": "",
    "accelerators_per_node": 4,
    "accuracy_log_probability": 0,
    "accuracy_log_rng_seed": 0,
    "accuracy_log_sampling_target": 0,
    "boot_firmware_version": "",
    "characteristics.scheduled_queries_per_second": 2696.17,
    "characteristics.scheduled_queries_per_second.normalized_per_core": 674.0425,
    "characteristics.scheduled_queries_per_second.normalized_per_processor": 674.0425,
    "ck_system": "A30x4_TRT",
    "ck_used": false,
    "cooling": "",
    "dataset": "SQuAD v1.1",
    "dataset_link": "",
    "dim_x_default": "seq_number",
    "dim_y_default": "characteristics.scheduled_queries_per_second",
    "dim_y_maximize": false,
    "disk_controllers": "",
    "disk_drives": "",
    "division": "closed",
    "filesystem": "",
    "formal_model": "bert",
    "formal_model_accuracy": 99.9,
    "formal_model_link": "",
    "framework": "TensorRT 8.0.2, CUDA 11.3",
    "host_memory_capacity": "704 GB",
    "host_memory_configuration": "",
    "host_networking": "",
    "host_networking_topology": "",
    "host_processor_caches": "",
    "host_processor_core_count": 28,
    "host_processor_frequency": "",
    "host_processor_interconnect": "",
    "host_processor_model_name": "Intel(R) Xeon(R) Platinum 8280 CPU @ 2.60GHz",
    "host_processors_per_node": 2,
    "host_storage_capacity": "2 TB",
    "host_storage_type": "SSD",
    "hw_notes": "",
    "informal_model": "bert-99.9",
    "input_data_types": "int32",
    "management_firmware_version": "",
    "max_async_queries": 0,
    "max_duration (ms)": 0,
    "max_query_count": 0,
    "min_duration (ms)": 600000,
    "min_query_count": 270336,
    "mlperf_version": 1.1,
    "network_speed_mbit": "",
    "nics_enabled_connected": "",
    "nics_enabled_firmware": "",
    "nics_enabled_os": "",
    "normalize_cores": 4,
    "normalize_processors": 4,
    "note_code": "https://github.com/mlcommons/inference_results_v1.1/tree/master/closed/Lenovo/code",
    "note_details": "https://github.com/mlcommons/inference_results_v1.1/tree/master/closed/Lenovo/results/A30x4_TRT",
    "number_of_nodes": 1,
    "number_of_type_nics_installed": "",
    "operating_system": "Ubuntu 20.04.4",
    "other_hardware": "",
    "other_software_stack": "TensorRT 8.0.2, CUDA 11.3, cuDNN 8.2.1, Driver 470.57.02",
    "performance_issue_same": 0,
    "performance_issue_same_index": 0,
    "performance_issue_unique": 0,
    "performance_sample_count": 10833,
    "power_management": "",
    "power_supply_details": "",
    "power_supply_quantity_and_rating_watts": "",
    "print_timestamps": 0,
    "problem": false,
    "qsl_rng_seed": 1624344308455410291,
    "retraining": "N",
    "sample_index_rng_seed": 517984244576520566,
    "samples_per_query": 1,
    "schedule_rng_seed": 10051496985653635065,
    "starting_weights_filename": "bert_large_v1_1_fake_quant.onnx",
    "status": "available",
    "submitter": "Lenovo",
    "submitter_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.submitter/Lenovo",
    "sw_notes": "",
    "system_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.system/A30x4_TRT",
    "system_name": "Lenovo ThinkSystem SR670 Server",
    "system_type": "datacenter",
    "target_latency (ns)": 130000000,
    "target_qps": 2695,
    "task": "NLP",
    "task2": "nlp",
    "total_cores": 56,
    "uid": "4d8a828552e713cf",
    "use_accelerator": true,
    "weight_data_types": "fp16",
    "weight_transformations": "quantization, affine fusion"
  },
  {
    "50.00 percentile latency (ns)": 83219261,
    "90.00 percentile latency (ns)": 87808222,
    "95.00 percentile latency (ns)": 93271836,
    "97.00 percentile latency (ns)": 104900065,
    "99.00 percentile latency (ns)": 125708395,
    "99.90 percentile latency (ns)": 153235386,
    "Completed samples per second": 17.0,
    "Max latency (ns)": 398215735,
    "Mean latency (ns)": 84569198,
    "Min duration satisfied": "Yes",
    "Min latency (ns)": 78750498,
    "Min queries satisfied": "Yes",
    "Mode": "PerformanceOnly",
    "Performance constraints satisfied": "Yes",
    "Result is": "VALID",
    "SUT name": "Triton_Server",
    "Scenario": "server",
    "Scheduled samples per second": 17.0,
    "accelerator_frequency": "",
    "accelerator_host_interconnect": "",
    "accelerator_interconnect": "",
    "accelerator_interconnect_topology": "",
    "accelerator_memory_capacity": "N/A",
    "accelerator_memory_configuration": "",
    "accelerator_model_name": "N/A",
    "accelerator_on-chip_memories": "",
    "accelerators_per_node": 0,
    "accuracy_log_probability": 0,
    "accuracy_log_rng_seed": 0,
    "accuracy_log_sampling_target": 0,
    "boot_firmware_version": "",
    "characteristics.scheduled_queries_per_second": 17.0,
    "characteristics.scheduled_queries_per_second.normalized_per_core": 0.2125,
    "characteristics.scheduled_queries_per_second.normalized_per_processor": 8.5,
    "ck_system": "Triton_CPU_2S_8380x1",
    "ck_used": false,
    "cooling": "Liquid - Lenovo Neptune liquid cooling",
    "dataset": "SQuAD v1.1",
    "dataset_link": "",
    "dim_x_default": "seq_number",
    "dim_y_default": "characteristics.scheduled_queries_per_second",
    "dim_y_maximize": false,
    "disk_controllers": "",
    "disk_drives": "",
    "division": "closed",
    "filesystem": "",
    "formal_model": "bert",
    "formal_model_accuracy": 99.0,
    "formal_model_link": "",
    "framework": "OpenVino 2021",
    "host_memory_capacity": "",
    "host_memory_configuration": "",
    "host_networking": "",
    "host_networking_topology": "",
    "host_processor_caches": "",
    "host_processor_core_count": 40,
    "host_processor_frequency": "",
    "host_processor_interconnect": "",
    "host_processor_model_name": "Intel(R) Xeon(R) Platinum 8380 CPU @ 2.20GHz",
    "host_processors_per_node": 2,
    "host_storage_capacity": "1 TB",
    "host_storage_type": "",
    "hw_notes": "",
    "informal_model": "bert-99",
    "input_data_types": "fp32",
    "management_firmware_version": "",
    "max_async_queries": 0,
    "max_duration (ms)": 0,
    "max_query_count": 0,
    "min_duration (ms)": 600000,
    "min_query_count": 270336,
    "mlperf_version": 1.1,
    "network_speed_mbit": "",
    "nics_enabled_connected": "",
    "nics_enabled_firmware": "",
    "nics_enabled_os": "",
    "normalize_cores": 80,
    "normalize_processors": 2,
    "note_code": "https://github.com/mlcommons/inference_results_v1.1/tree/master/closed/Lenovo/code",
    "note_details": "https://github.com/mlcommons/inference_results_v1.1/tree/master/closed/Lenovo/results/Triton_CPU_2S_8380x1",
    "number_of_nodes": 1,
    "number_of_type_nics_installed": "",
    "operating_system": "Ubuntu 20.04.2 LTS",
    "other_hardware": "",
    "other_software_stack": "OpenVino 2021, Triton 21.07",
    "performance_issue_same": 0,
    "performance_issue_same_index": 0,
    "performance_issue_unique": 0,
    "performance_sample_count": 10833,
    "power_management": "",
    "power_supply_details": "",
    "power_supply_quantity_and_rating_watts": "",
    "print_timestamps": 0,
    "problem": false,
    "qsl_rng_seed": 1624344308455410291,
    "retraining": "N",
    "sample_index_rng_seed": 517984244576520566,
    "samples_per_query": 1,
    "schedule_rng_seed": 10051496985653635065,
    "starting_weights_filename": "bert_large_v1_1_fake_quant.onnx",
    "status": "available",
    "submitter": "Lenovo",
    "submitter_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.submitter/Lenovo",
    "sw_notes": "CPU Inference on Triton Inference Server",
    "system_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.system/Triton_CPU_2S_8380x1",
    "system_name": "Lenovo ThinkSystem SD650-v2 (Ice Lake running Triton)",
    "system_type": "datacenter",
    "target_latency (ns)": 130000000,
    "target_qps": 17,
    "task": "NLP",
    "task2": "nlp",
    "total_cores": 80,
    "uid": "06a91304005839fc",
    "use_accelerator": false,
    "weight_data_types": "fp32",
    "weight_transformations": "quantization, affine fusion"
  },
  {
    "50.00 percentile latency (ns)": 62665037,
    "90.00 percentile latency (ns)": 82590024,
    "95.00 percentile latency (ns)": 87804614,
    "97.00 percentile latency (ns)": 91072970,
    "99.00 percentile latency (ns)": 96245460,
    "99.90 percentile latency (ns)": 102636809,
    "Completed samples per second": 20793.89,
    "Max latency (ns)": 124224436,
    "Mean latency (ns)": 62366363,
    "Min duration satisfied": "Yes",
    "Min latency (ns)": 5392086,
    "Min queries satisfied": "Yes",
    "Mode": "PerformanceOnly",
    "Performance constraints satisfied": "Yes",
    "Result is": "VALID",
    "SUT name": "BERT SERVER",
    "Scenario": "server",
    "Scheduled samples per second": 20796.88,
    "accelerator_frequency": "",
    "accelerator_host_interconnect": "",
    "accelerator_interconnect": "",
    "accelerator_interconnect_topology": "",
    "accelerator_memory_capacity": "40 GB",
    "accelerator_memory_configuration": "HBM2",
    "accelerator_model_name": "NVIDIA A100-PCIe-40GB",
    "accelerator_on-chip_memories": "",
    "accelerators_per_node": 8,
    "accuracy_log_probability": 0,
    "accuracy_log_rng_seed": 0,
    "accuracy_log_sampling_target": 0,
    "boot_firmware_version": "",
    "characteristics.scheduled_queries_per_second": 20796.88,
    "characteristics.scheduled_queries_per_second.normalized_per_core": 2599.61,
    "characteristics.scheduled_queries_per_second.normalized_per_processor": 2599.61,
    "ck_system": "A100-PCIex8_TRT",
    "ck_used": false,
    "cooling": "",
    "dataset": "SQuAD v1.1",
    "dataset_link": "",
    "dim_x_default": "seq_number",
    "dim_y_default": "characteristics.scheduled_queries_per_second",
    "dim_y_maximize": false,
    "disk_controllers": "",
    "disk_drives": "",
    "division": "closed",
    "filesystem": "",
    "formal_model": "bert",
    "formal_model_accuracy": 99.0,
    "formal_model_link": "",
    "framework": "TensorRT 8.0.2, CUDA 11.3",
    "host_memory_capacity": "768 GB",
    "host_memory_configuration": "",
    "host_networking": "",
    "host_networking_topology": "",
    "host_processor_caches": "",
    "host_processor_core_count": 28,
    "host_processor_frequency": "",
    "host_processor_interconnect": "",
    "host_processor_model_name": "Intel(R) Xeon(R) Platinum 8280 CPU @ 2.60GHz",
    "host_processors_per_node": 2,
    "host_storage_capacity": "2 TB",
    "host_storage_type": "SSD",
    "hw_notes": "",
    "informal_model": "bert-99",
    "input_data_types": "int32",
    "management_firmware_version": "",
    "max_async_queries": 0,
    "max_duration (ms)": 0,
    "max_query_count": 0,
    "min_duration (ms)": 600000,
    "min_query_count": 270336,
    "mlperf_version": 1.1,
    "network_speed_mbit": "",
    "nics_enabled_connected": "",
    "nics_enabled_firmware": "",
    "nics_enabled_os": "",
    "normalize_cores": 8,
    "normalize_processors": 8,
    "note_code": "https://github.com/mlcommons/inference_results_v1.1/tree/master/closed/Lenovo/code",
    "note_details": "https://github.com/mlcommons/inference_results_v1.1/tree/master/closed/Lenovo/results/A100-PCIex8_TRT",
    "number_of_nodes": 1,
    "number_of_type_nics_installed": "",
    "operating_system": "Ubuntu 20.04.2",
    "other_hardware": "",
    "other_software_stack": "TensorRT 8.0.2, CUDA 11.3, cuDNN 8.2.1, Driver 470.57.02",
    "performance_issue_same": 0,
    "performance_issue_same_index": 0,
    "performance_issue_unique": 0,
    "performance_sample_count": 10833,
    "power_management": "",
    "power_supply_details": "",
    "power_supply_quantity_and_rating_watts": "",
    "print_timestamps": 0,
    "problem": false,
    "qsl_rng_seed": 1624344308455410291,
    "retraining": "N",
    "sample_index_rng_seed": 517984244576520566,
    "samples_per_query": 1,
    "schedule_rng_seed": 10051496985653635065,
    "starting_weights_filename": "bert_large_v1_1_fake_quant.onnx",
    "status": "available",
    "submitter": "Lenovo",
    "submitter_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.submitter/Lenovo",
    "sw_notes": "",
    "system_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.system/A100-PCIex8_TRT",
    "system_name": "Lenovo ThinkSystem SR670-v2 Server",
    "system_type": "datacenter",
    "target_latency (ns)": 130000000,
    "target_qps": 20800,
    "task": "NLP",
    "task2": "nlp",
    "total_cores": 56,
    "uid": "e593ba67274ca1b7",
    "use_accelerator": true,
    "weight_data_types": "int8",
    "weight_transformations": "quantization, affine fusion"
  },
  {
    "50.00 percentile latency (ns)": 32410369,
    "90.00 percentile latency (ns)": 50184480,
    "95.00 percentile latency (ns)": 56249139,
    "97.00 percentile latency (ns)": 60435694,
    "99.00 percentile latency (ns)": 68781520,
    "99.90 percentile latency (ns)": 85096335,
    "Completed samples per second": 9601.35,
    "Max latency (ns)": 128243676,
    "Mean latency (ns)": 34069163,
    "Min duration satisfied": "Yes",
    "Min latency (ns)": 7432274,
    "Min queries satisfied": "Yes",
    "Mode": "PerformanceOnly",
    "Performance constraints satisfied": "Yes",
    "Result is": "VALID",
    "SUT name": "BERT SERVER",
    "Scenario": "server",
    "Scheduled samples per second": 9601.56,
    "accelerator_frequency": "",
    "accelerator_host_interconnect": "",
    "accelerator_interconnect": "",
    "accelerator_interconnect_topology": "",
    "accelerator_memory_capacity": "40 GB",
    "accelerator_memory_configuration": "HBM2",
    "accelerator_model_name": "NVIDIA A100-PCIe-40GB",
    "accelerator_on-chip_memories": "",
    "accelerators_per_node": 8,
    "accuracy_log_probability": 0,
    "accuracy_log_rng_seed": 0,
    "accuracy_log_sampling_target": 0,
    "boot_firmware_version": "",
    "characteristics.scheduled_queries_per_second": 9601.56,
    "characteristics.scheduled_queries_per_second.normalized_per_core": 1200.195,
    "characteristics.scheduled_queries_per_second.normalized_per_processor": 1200.195,
    "ck_system": "A100-PCIex8_TRT",
    "ck_used": false,
    "cooling": "",
    "dataset": "SQuAD v1.1",
    "dataset_link": "",
    "dim_x_default": "seq_number",
    "dim_y_default": "characteristics.scheduled_queries_per_second",
    "dim_y_maximize": false,
    "disk_controllers": "",
    "disk_drives": "",
    "division": "closed",
    "filesystem": "",
    "formal_model": "bert",
    "formal_model_accuracy": 99.9,
    "formal_model_link": "",
    "framework": "TensorRT 8.0.2, CUDA 11.3",
    "host_memory_capacity": "768 GB",
    "host_memory_configuration": "",
    "host_networking": "",
    "host_networking_topology": "",
    "host_processor_caches": "",
    "host_processor_core_count": 28,
    "host_processor_frequency": "",
    "host_processor_interconnect": "",
    "host_processor_model_name": "Intel(R) Xeon(R) Platinum 8280 CPU @ 2.60GHz",
    "host_processors_per_node": 2,
    "host_storage_capacity": "2 TB",
    "host_storage_type": "SSD",
    "hw_notes": "",
    "informal_model": "bert-99.9",
    "input_data_types": "int32",
    "management_firmware_version": "",
    "max_async_queries": 0,
    "max_duration (ms)": 0,
    "max_query_count": 0,
    "min_duration (ms)": 600000,
    "min_query_count": 270336,
    "mlperf_version": 1.1,
    "network_speed_mbit": "",
    "nics_enabled_connected": "",
    "nics_enabled_firmware": "",
    "nics_enabled_os": "",
    "normalize_cores": 8,
    "normalize_processors": 8,
    "note_code": "https://github.com/mlcommons/inference_results_v1.1/tree/master/closed/Lenovo/code",
    "note_details": "https://github.com/mlcommons/inference_results_v1.1/tree/master/closed/Lenovo/results/A100-PCIex8_TRT",
    "number_of_nodes": 1,
    "number_of_type_nics_installed": "",
    "operating_system": "Ubuntu 20.04.2",
    "other_hardware": "",
    "other_software_stack": "TensorRT 8.0.2, CUDA 11.3, cuDNN 8.2.1, Driver 470.57.02",
    "performance_issue_same": 0,
    "performance_issue_same_index": 0,
    "performance_issue_unique": 0,
    "performance_sample_count": 10833,
    "power_management": "",
    "power_supply_details": "",
    "power_supply_quantity_and_rating_watts": "",
    "print_timestamps": 0,
    "problem": false,
    "qsl_rng_seed": 1624344308455410291,
    "retraining": "N",
    "sample_index_rng_seed": 517984244576520566,
    "samples_per_query": 1,
    "schedule_rng_seed": 10051496985653635065,
    "starting_weights_filename": "bert_large_v1_1_fake_quant.onnx",
    "status": "available",
    "submitter": "Lenovo",
    "submitter_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.submitter/Lenovo",
    "sw_notes": "",
    "system_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.system/A100-PCIex8_TRT",
    "system_name": "Lenovo ThinkSystem SR670-v2 Server",
    "system_type": "datacenter",
    "target_latency (ns)": 130000000,
    "target_qps": 9600,
    "task": "NLP",
    "task2": "nlp",
    "total_cores": 56,
    "uid": "f46482fef40a8b33",
    "use_accelerator": true,
    "weight_data_types": "fp16",
    "weight_transformations": "quantization, affine fusion"
  },
  {
    "50.00 percentile latency (ns)": 89196058,
    "90.00 percentile latency (ns)": 95472419,
    "95.00 percentile latency (ns)": 96938385,
    "97.00 percentile latency (ns)": 101426105,
    "99.00 percentile latency (ns)": 127050517,
    "99.90 percentile latency (ns)": 158733659,
    "Completed samples per second": 13.5,
    "Max latency (ns)": 450615645,
    "Mean latency (ns)": 90602541,
    "Min duration satisfied": "Yes",
    "Min latency (ns)": 83259704,
    "Min queries satisfied": "Yes",
    "Mode": "PerformanceOnly",
    "Performance constraints satisfied": "Yes",
    "Result is": "VALID",
    "SUT name": "Triton_Server",
    "Scenario": "server",
    "Scheduled samples per second": 13.5,
    "accelerator_frequency": "",
    "accelerator_host_interconnect": "",
    "accelerator_interconnect": "",
    "accelerator_interconnect_topology": "",
    "accelerator_memory_capacity": "N/A",
    "accelerator_memory_configuration": "",
    "accelerator_model_name": "N/A",
    "accelerator_on-chip_memories": "",
    "accelerators_per_node": 0,
    "accuracy_log_probability": 0,
    "accuracy_log_rng_seed": 0,
    "accuracy_log_sampling_target": 0,
    "boot_firmware_version": "",
    "characteristics.scheduled_queries_per_second": 13.5,
    "characteristics.scheduled_queries_per_second.normalized_per_core": 0.1875,
    "characteristics.scheduled_queries_per_second.normalized_per_processor": 6.75,
    "ck_system": "Triton_CPU_2S_8360Yx1",
    "ck_used": false,
    "cooling": "",
    "dataset": "SQuAD v1.1",
    "dataset_link": "",
    "dim_x_default": "seq_number",
    "dim_y_default": "characteristics.scheduled_queries_per_second",
    "dim_y_maximize": false,
    "disk_controllers": "",
    "disk_drives": "",
    "division": "closed",
    "filesystem": "",
    "formal_model": "bert",
    "formal_model_accuracy": 99.0,
    "formal_model_link": "",
    "framework": "OpenVino 2021",
    "host_memory_capacity": "256 GB",
    "host_memory_configuration": "8 slots / 16GB each / 2666 MT/s per socket",
    "host_networking": "",
    "host_networking_topology": "",
    "host_processor_caches": "",
    "host_processor_core_count": 36,
    "host_processor_frequency": "",
    "host_processor_interconnect": "",
    "host_processor_model_name": "Intel(R) Xeon(R) Platinum 8360Y CPU @ 2.40GHz",
    "host_processors_per_node": 2,
    "host_storage_capacity": "4 TB",
    "host_storage_type": "NVMe SSD",
    "hw_notes": "",
    "informal_model": "bert-99",
    "input_data_types": "fp32",
    "management_firmware_version": "",
    "max_async_queries": 0,
    "max_duration (ms)": 0,
    "max_query_count": 0,
    "min_duration (ms)": 600000,
    "min_query_count": 270336,
    "mlperf_version": 1.1,
    "network_speed_mbit": "",
    "nics_enabled_connected": "",
    "nics_enabled_firmware": "",
    "nics_enabled_os": "",
    "normalize_cores": 72,
    "normalize_processors": 2,
    "note_code": "https://github.com/mlcommons/inference_results_v1.1/tree/master/closed/Lenovo/code",
    "note_details": "https://github.com/mlcommons/inference_results_v1.1/tree/master/closed/Lenovo/results/Triton_CPU_2S_8360Yx1",
    "number_of_nodes": 1,
    "number_of_type_nics_installed": "",
    "operating_system": "Ubuntu 20.04.2 LTS",
    "other_hardware": "",
    "other_software_stack": "OpenVino 2021, Triton 21.07",
    "performance_issue_same": 0,
    "performance_issue_same_index": 0,
    "performance_issue_unique": 0,
    "performance_sample_count": 10833,
    "power_management": "",
    "power_supply_details": "",
    "power_supply_quantity_and_rating_watts": "",
    "print_timestamps": 0,
    "problem": false,
    "qsl_rng_seed": 1624344308455410291,
    "retraining": "N",
    "sample_index_rng_seed": 517984244576520566,
    "samples_per_query": 1,
    "schedule_rng_seed": 10051496985653635065,
    "starting_weights_filename": "bert_large_v1_1_fake_quant.onnx",
    "status": "available",
    "submitter": "Lenovo",
    "submitter_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.submitter/Lenovo",
    "sw_notes": "CPU Inference on Triton Inference Server",
    "system_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.system/Triton_CPU_2S_8360Yx1",
    "system_name": "Lenovo ThinkSystem SR650 v2 (Ice Lake running Triton)",
    "system_type": "datacenter",
    "target_latency (ns)": 130000000,
    "target_qps": 13.5,
    "task": "NLP",
    "task2": "nlp",
    "total_cores": 72,
    "uid": "16342d6889dde242",
    "use_accelerator": false,
    "weight_data_types": "fp32",
    "weight_transformations": "quantization, affine fusion"
  },
  {
    "50.00 percentile latency (ns)": 61192760,
    "90.00 percentile latency (ns)": 88233431,
    "95.00 percentile latency (ns)": 96651685,
    "97.00 percentile latency (ns)": 102517392,
    "99.00 percentile latency (ns)": 119758335,
    "99.90 percentile latency (ns)": 524496539323,
    "Completed samples per second": 6100.54,
    "Max latency (ns)": 604460186234,
    "Mean latency (ns)": 2387344869,
    "Min duration satisfied": "Yes",
    "Min latency (ns)": 5571247,
    "Min queries satisfied": "Yes",
    "Mode": "PerformanceOnly",
    "Performance constraints satisfied": "Yes",
    "Result is": "VALID",
    "SUT name": "BERT SERVER",
    "Scenario": "server",
    "Scheduled samples per second": 6101.33,
    "accelerator_frequency": "",
    "accelerator_host_interconnect": "",
    "accelerator_interconnect": "",
    "accelerator_interconnect_topology": "",
    "accelerator_memory_capacity": "48 GB",
    "accelerator_memory_configuration": "GDDR6",
    "accelerator_model_name": "NVIDIA A40",
    "accelerator_on-chip_memories": "",
    "accelerators_per_node": 4,
    "accuracy_log_probability": 0,
    "accuracy_log_rng_seed": 0,
    "accuracy_log_sampling_target": 0,
    "boot_firmware_version": "",
    "characteristics.scheduled_queries_per_second": 6101.33,
    "characteristics.scheduled_queries_per_second.normalized_per_core": 1525.3325,
    "characteristics.scheduled_queries_per_second.normalized_per_processor": 1525.3325,
    "ck_system": "A40x4_TRT",
    "ck_used": true,
    "cooling": "",
    "dataset": "SQuAD v1.1",
    "dataset_link": "",
    "dim_x_default": "seq_number",
    "dim_y_default": "characteristics.scheduled_queries_per_second",
    "dim_y_maximize": false,
    "disk_controllers": "",
    "disk_drives": "",
    "division": "closed",
    "filesystem": "",
    "formal_model": "bert",
    "formal_model_accuracy": 99.0,
    "formal_model_link": "",
    "framework": "TensorRT 7.2.3, CUDA 11.1",
    "host_memory_capacity": "704 GB",
    "host_memory_configuration": "",
    "host_networking": "",
    "host_networking_topology": "",
    "host_processor_caches": "",
    "host_processor_core_count": 120,
    "host_processor_frequency": "",
    "host_processor_interconnect": "",
    "host_processor_model_name": "AMD EPYC 7V13 64-Core Processor",
    "host_processors_per_node": 2,
    "host_storage_capacity": "2 TB",
    "host_storage_type": "SSD",
    "hw_notes": "",
    "informal_model": "bert-99",
    "input_data_types": "int32",
    "management_firmware_version": "",
    "max_async_queries": 0,
    "max_duration (ms)": 0,
    "max_query_count": 0,
    "min_duration (ms)": 600000,
    "min_query_count": 270336,
    "mlperf_version": 1.0,
    "network_speed_mbit": "",
    "nics_enabled_connected": "",
    "nics_enabled_firmware": "",
    "nics_enabled_os": "",
    "normalize_cores": 4,
    "normalize_processors": 4,
    "note_code": "https://github.com/mlcommons/inference_results_v1.0/tree/master/closed/Lenovo/code",
    "note_details": "https://github.com/mlcommons/inference_results_v1.0/tree/master/closed/Lenovo/results/A40x4_TRT",
    "number_of_nodes": 1,
    "number_of_type_nics_installed": "",
    "operating_system": "Ubuntu 18.04.5 LTS (Linux-5.4.0-1055-azure-x86_64-with-Ubuntu-18.04-bionic)",
    "other_hardware": "",
    "other_software_stack": "TensorRT 7.2.3, CUDA 11.1, cuDNN 8.1.1, Driver 460.39; GCC 7.5.0; Python 3.7.10",
    "performance_issue_same": 0,
    "performance_issue_same_index": 0,
    "performance_issue_unique": 0,
    "performance_sample_count": 10833,
    "power_management": "",
    "power_supply_details": "",
    "power_supply_quantity_and_rating_watts": "",
    "print_timestamps": 0,
    "problem": false,
    "qsl_rng_seed": 7322528924094909334,
    "retraining": "N",
    "sample_index_rng_seed": 1570999273408051088,
    "samples_per_query": 1,
    "schedule_rng_seed": 3507442325620259414,
    "starting_weights_filename": "bert_large_v1_1_fake_quant.onnx",
    "status": "available",
    "submitter": "Lenovo",
    "submitter_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.submitter/Lenovo",
    "sw_notes": "Powered by CK v2.5.8 (https://github.com/ctuning/ck)",
    "system_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.system/A40x4_TRT",
    "system_name": "Microsoft Corporation 7.0 (Virtual Machine)",
    "system_type": "datacenter",
    "target_latency (ns)": 130000000,
    "target_qps": 6100,
    "task": "NLP",
    "task2": "nlp",
    "total_cores": 240,
    "uid": "e6402d84ca681ccf",
    "use_accelerator": true,
    "weight_data_types": "int8",
    "weight_transformations": "quantization, affine fusion"
  },
  {
    "50.00 percentile latency (ns)": 55075930,
    "90.00 percentile latency (ns)": 82768804,
    "95.00 percentile latency (ns)": 91847353,
    "97.00 percentile latency (ns)": 98323598,
    "99.00 percentile latency (ns)": 118500443,
    "99.90 percentile latency (ns)": 529692984329,
    "Completed samples per second": 2841.18,
    "Max latency (ns)": 603863896991,
    "Mean latency (ns)": 2508984594,
    "Min duration satisfied": "Yes",
    "Min latency (ns)": 7571788,
    "Min queries satisfied": "Yes",
    "Mode": "PerformanceOnly",
    "Performance constraints satisfied": "Yes",
    "Result is": "VALID",
    "SUT name": "BERT SERVER",
    "Scenario": "server",
    "Scheduled samples per second": 2841.71,
    "accelerator_frequency": "",
    "accelerator_host_interconnect": "",
    "accelerator_interconnect": "",
    "accelerator_interconnect_topology": "",
    "accelerator_memory_capacity": "48 GB",
    "accelerator_memory_configuration": "GDDR6",
    "accelerator_model_name": "NVIDIA A40",
    "accelerator_on-chip_memories": "",
    "accelerators_per_node": 4,
    "accuracy_log_probability": 0,
    "accuracy_log_rng_seed": 0,
    "accuracy_log_sampling_target": 0,
    "boot_firmware_version": "",
    "characteristics.scheduled_queries_per_second": 2841.71,
    "characteristics.scheduled_queries_per_second.normalized_per_core": 710.4275,
    "characteristics.scheduled_queries_per_second.normalized_per_processor": 710.4275,
    "ck_system": "A40x4_TRT",
    "ck_used": true,
    "cooling": "",
    "dataset": "SQuAD v1.1",
    "dataset_link": "",
    "dim_x_default": "seq_number",
    "dim_y_default": "characteristics.scheduled_queries_per_second",
    "dim_y_maximize": false,
    "disk_controllers": "",
    "disk_drives": "",
    "division": "closed",
    "filesystem": "",
    "formal_model": "bert",
    "formal_model_accuracy": 99.9,
    "formal_model_link": "",
    "framework": "TensorRT 7.2.3, CUDA 11.1",
    "host_memory_capacity": "704 GB",
    "host_memory_configuration": "",
    "host_networking": "",
    "host_networking_topology": "",
    "host_processor_caches": "",
    "host_processor_core_count": 120,
    "host_processor_frequency": "",
    "host_processor_interconnect": "",
    "host_processor_model_name": "AMD EPYC 7V13 64-Core Processor",
    "host_processors_per_node": 2,
    "host_storage_capacity": "2 TB",
    "host_storage_type": "SSD",
    "hw_notes": "",
    "informal_model": "bert-99.9",
    "input_data_types": "int32",
    "management_firmware_version": "",
    "max_async_queries": 0,
    "max_duration (ms)": 0,
    "max_query_count": 0,
    "min_duration (ms)": 600000,
    "min_query_count": 270336,
    "mlperf_version": 1.0,
    "network_speed_mbit": "",
    "nics_enabled_connected": "",
    "nics_enabled_firmware": "",
    "nics_enabled_os": "",
    "normalize_cores": 4,
    "normalize_processors": 4,
    "note_code": "https://github.com/mlcommons/inference_results_v1.0/tree/master/closed/Lenovo/code",
    "note_details": "https://github.com/mlcommons/inference_results_v1.0/tree/master/closed/Lenovo/results/A40x4_TRT",
    "number_of_nodes": 1,
    "number_of_type_nics_installed": "",
    "operating_system": "Ubuntu 18.04.5 LTS (Linux-5.4.0-1055-azure-x86_64-with-Ubuntu-18.04-bionic)",
    "other_hardware": "",
    "other_software_stack": "TensorRT 7.2.3, CUDA 11.1, cuDNN 8.1.1, Driver 460.39; GCC 7.5.0; Python 3.7.10",
    "performance_issue_same": 0,
    "performance_issue_same_index": 0,
    "performance_issue_unique": 0,
    "performance_sample_count": 10833,
    "power_management": "",
    "power_supply_details": "",
    "power_supply_quantity_and_rating_watts": "",
    "print_timestamps": 0,
    "problem": false,
    "qsl_rng_seed": 7322528924094909334,
    "retraining": "N",
    "sample_index_rng_seed": 1570999273408051088,
    "samples_per_query": 1,
    "schedule_rng_seed": 3507442325620259414,
    "starting_weights_filename": "bert_large_v1_1_fake_quant.onnx",
    "status": "available",
    "submitter": "Lenovo",
    "submitter_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.submitter/Lenovo",
    "sw_notes": "Powered by CK v2.5.8 (https://github.com/ctuning/ck)",
    "system_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.system/A40x4_TRT",
    "system_name": "Microsoft Corporation 7.0 (Virtual Machine)",
    "system_type": "datacenter",
    "target_latency (ns)": 130000000,
    "target_qps": 2840,
    "task": "NLP",
    "task2": "nlp",
    "total_cores": 240,
    "uid": "c78093c3c45aa914",
    "use_accelerator": true,
    "weight_data_types": "fp16",
    "weight_transformations": "quantization, affine fusion"
  },
  {
    "50.00 percentile latency (ns)": 77556247,
    "90.00 percentile latency (ns)": 97850952,
    "95.00 percentile latency (ns)": 103170884,
    "97.00 percentile latency (ns)": 106500007,
    "99.00 percentile latency (ns)": 112625805,
    "99.90 percentile latency (ns)": 122502311,
    "Completed samples per second": 10899.35,
    "Max latency (ns)": 138451852,
    "Mean latency (ns)": 77502292,
    "Min duration satisfied": "Yes",
    "Min latency (ns)": 7498629,
    "Min queries satisfied": "Yes",
    "Mode": "PerformanceOnly",
    "Performance constraints satisfied": "Yes",
    "Result is": "VALID",
    "SUT name": "BERT SERVER",
    "Scenario": "server",
    "Scheduled samples per second": 10900.72,
    "accelerator_frequency": "",
    "accelerator_host_interconnect": "",
    "accelerator_interconnect": "",
    "accelerator_interconnect_topology": "",
    "accelerator_memory_capacity": "40 GB",
    "accelerator_memory_configuration": "HBM2",
    "accelerator_model_name": "NVIDIA A100-PCIe-40GB",
    "accelerator_on-chip_memories": "",
    "accelerators_per_node": 4,
    "accuracy_log_probability": 0,
    "accuracy_log_rng_seed": 0,
    "accuracy_log_sampling_target": 0,
    "boot_firmware_version": "",
    "characteristics.scheduled_queries_per_second": 10900.72,
    "characteristics.scheduled_queries_per_second.normalized_per_core": 2725.18,
    "characteristics.scheduled_queries_per_second.normalized_per_processor": 2725.18,
    "ck_system": "A100-PCIex4_TRT",
    "ck_used": true,
    "cooling": "",
    "dataset": "SQuAD v1.1",
    "dataset_link": "",
    "dim_x_default": "seq_number",
    "dim_y_default": "characteristics.scheduled_queries_per_second",
    "dim_y_maximize": false,
    "disk_controllers": "",
    "disk_drives": "",
    "division": "closed",
    "filesystem": "",
    "formal_model": "bert",
    "formal_model_accuracy": 99.0,
    "formal_model_link": "",
    "framework": "TensorRT 7.2.3, CUDA 11.1",
    "host_memory_capacity": "768 GB",
    "host_memory_configuration": "",
    "host_networking": "",
    "host_networking_topology": "",
    "host_processor_caches": "",
    "host_processor_core_count": 120,
    "host_processor_frequency": "",
    "host_processor_interconnect": "",
    "host_processor_model_name": "AMD EPYC 7V13 64-Core Processor",
    "host_processors_per_node": 2,
    "host_storage_capacity": "2 TB",
    "host_storage_type": "SSD",
    "hw_notes": "",
    "informal_model": "bert-99",
    "input_data_types": "int32",
    "management_firmware_version": "",
    "max_async_queries": 0,
    "max_duration (ms)": 0,
    "max_query_count": 0,
    "min_duration (ms)": 600000,
    "min_query_count": 270336,
    "mlperf_version": 1.0,
    "network_speed_mbit": "",
    "nics_enabled_connected": "",
    "nics_enabled_firmware": "",
    "nics_enabled_os": "",
    "normalize_cores": 4,
    "normalize_processors": 4,
    "note_code": "https://github.com/mlcommons/inference_results_v1.0/tree/master/closed/Lenovo/code",
    "note_details": "https://github.com/mlcommons/inference_results_v1.0/tree/master/closed/Lenovo/results/A100-PCIex4_TRT",
    "number_of_nodes": 1,
    "number_of_type_nics_installed": "",
    "operating_system": "Ubuntu 18.04.5 LTS (Linux-5.4.0-1055-azure-x86_64-with-Ubuntu-18.04-bionic)",
    "other_hardware": "",
    "other_software_stack": "TensorRT 7.2.3, CUDA 11.1, cuDNN 8.1.1, Driver 460.32.03, DALI 0.30.0; GCC 7.5.0; Python 3.7.10",
    "performance_issue_same": 0,
    "performance_issue_same_index": 0,
    "performance_issue_unique": 0,
    "performance_sample_count": 10833,
    "power_management": "",
    "power_supply_details": "",
    "power_supply_quantity_and_rating_watts": "",
    "print_timestamps": 0,
    "problem": false,
    "qsl_rng_seed": 7322528924094909334,
    "retraining": "N",
    "sample_index_rng_seed": 1570999273408051088,
    "samples_per_query": 1,
    "schedule_rng_seed": 3507442325620259414,
    "starting_weights_filename": "bert_large_v1_1_fake_quant.onnx",
    "status": "available",
    "submitter": "Lenovo",
    "submitter_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.submitter/Lenovo",
    "sw_notes": "Powered by CK v2.5.8 (https://github.com/ctuning/ck)",
    "system_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.system/A100-PCIex4_TRT",
    "system_name": "Microsoft Corporation 7.0 (Virtual Machine)",
    "system_type": "datacenter",
    "target_latency (ns)": 130000000,
    "target_qps": 10900,
    "task": "NLP",
    "task2": "nlp",
    "total_cores": 240,
    "uid": "74224e64c35a6836",
    "use_accelerator": true,
    "weight_data_types": "int8",
    "weight_transformations": "quantization, affine fusion"
  },
  {
    "50.00 percentile latency (ns)": 66711952,
    "90.00 percentile latency (ns)": 99328978,
    "95.00 percentile latency (ns)": 109664625,
    "97.00 percentile latency (ns)": 116388238,
    "99.00 percentile latency (ns)": 129406732,
    "99.90 percentile latency (ns)": 154227794,
    "Completed samples per second": 5084.45,
    "Max latency (ns)": 194356749,
    "Mean latency (ns)": 68878071,
    "Min duration satisfied": "Yes",
    "Min latency (ns)": 7911135,
    "Min queries satisfied": "Yes",
    "Mode": "PerformanceOnly",
    "Performance constraints satisfied": "Yes",
    "Result is": "VALID",
    "SUT name": "BERT SERVER",
    "Scenario": "server",
    "Scheduled samples per second": 5084.74,
    "accelerator_frequency": "",
    "accelerator_host_interconnect": "",
    "accelerator_interconnect": "",
    "accelerator_interconnect_topology": "",
    "accelerator_memory_capacity": "40 GB",
    "accelerator_memory_configuration": "HBM2",
    "accelerator_model_name": "NVIDIA A100-PCIe-40GB",
    "accelerator_on-chip_memories": "",
    "accelerators_per_node": 4,
    "accuracy_log_probability": 0,
    "accuracy_log_rng_seed": 0,
    "accuracy_log_sampling_target": 0,
    "boot_firmware_version": "",
    "characteristics.scheduled_queries_per_second": 5084.74,
    "characteristics.scheduled_queries_per_second.normalized_per_core": 1271.185,
    "characteristics.scheduled_queries_per_second.normalized_per_processor": 1271.185,
    "ck_system": "A100-PCIex4_TRT",
    "ck_used": true,
    "cooling": "",
    "dataset": "SQuAD v1.1",
    "dataset_link": "",
    "dim_x_default": "seq_number",
    "dim_y_default": "characteristics.scheduled_queries_per_second",
    "dim_y_maximize": false,
    "disk_controllers": "",
    "disk_drives": "",
    "division": "closed",
    "filesystem": "",
    "formal_model": "bert",
    "formal_model_accuracy": 99.9,
    "formal_model_link": "",
    "framework": "TensorRT 7.2.3, CUDA 11.1",
    "host_memory_capacity": "768 GB",
    "host_memory_configuration": "",
    "host_networking": "",
    "host_networking_topology": "",
    "host_processor_caches": "",
    "host_processor_core_count": 120,
    "host_processor_frequency": "",
    "host_processor_interconnect": "",
    "host_processor_model_name": "AMD EPYC 7V13 64-Core Processor",
    "host_processors_per_node": 2,
    "host_storage_capacity": "2 TB",
    "host_storage_type": "SSD",
    "hw_notes": "",
    "informal_model": "bert-99.9",
    "input_data_types": "int32",
    "management_firmware_version": "",
    "max_async_queries": 0,
    "max_duration (ms)": 0,
    "max_query_count": 0,
    "min_duration (ms)": 600000,
    "min_query_count": 270336,
    "mlperf_version": 1.0,
    "network_speed_mbit": "",
    "nics_enabled_connected": "",
    "nics_enabled_firmware": "",
    "nics_enabled_os": "",
    "normalize_cores": 4,
    "normalize_processors": 4,
    "note_code": "https://github.com/mlcommons/inference_results_v1.0/tree/master/closed/Lenovo/code",
    "note_details": "https://github.com/mlcommons/inference_results_v1.0/tree/master/closed/Lenovo/results/A100-PCIex4_TRT",
    "number_of_nodes": 1,
    "number_of_type_nics_installed": "",
    "operating_system": "Ubuntu 18.04.5 LTS (Linux-5.4.0-1055-azure-x86_64-with-Ubuntu-18.04-bionic)",
    "other_hardware": "",
    "other_software_stack": "TensorRT 7.2.3, CUDA 11.1, cuDNN 8.1.1, Driver 460.32.03, DALI 0.30.0; GCC 7.5.0; Python 3.7.10",
    "performance_issue_same": 0,
    "performance_issue_same_index": 0,
    "performance_issue_unique": 0,
    "performance_sample_count": 10833,
    "power_management": "",
    "power_supply_details": "",
    "power_supply_quantity_and_rating_watts": "",
    "print_timestamps": 0,
    "problem": false,
    "qsl_rng_seed": 7322528924094909334,
    "retraining": "N",
    "sample_index_rng_seed": 1570999273408051088,
    "samples_per_query": 1,
    "schedule_rng_seed": 3507442325620259414,
    "starting_weights_filename": "bert_large_v1_1_fake_quant.onnx",
    "status": "available",
    "submitter": "Lenovo",
    "submitter_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.submitter/Lenovo",
    "sw_notes": "Powered by CK v2.5.8 (https://github.com/ctuning/ck)",
    "system_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.system/A100-PCIex4_TRT",
    "system_name": "Microsoft Corporation 7.0 (Virtual Machine)",
    "system_type": "datacenter",
    "target_latency (ns)": 130000000,
    "target_qps": 5084,
    "task": "NLP",
    "task2": "nlp",
    "total_cores": 240,
    "uid": "43d31021014dd8be",
    "use_accelerator": true,
    "weight_data_types": "fp16",
    "weight_transformations": "quantization, affine fusion"
  },
  {
    "50.00 percentile latency (ns)": 75516034,
    "90.00 percentile latency (ns)": 102852334,
    "95.00 percentile latency (ns)": 111825545,
    "97.00 percentile latency (ns)": 117616607,
    "99.00 percentile latency (ns)": 127029246,
    "99.90 percentile latency (ns)": 138801133,
    "Completed samples per second": 10643.19,
    "Max latency (ns)": 148334542,
    "Mean latency (ns)": 77566717,
    "Min duration satisfied": "Yes",
    "Min latency (ns)": 3013118,
    "Min queries satisfied": "Yes",
    "Mode": "Performance",
    "Performance constraints satisfied": "Yes",
    "Result is": "VALID",
    "SUT name": "BERT SERVER",
    "Scenario": "server",
    "Scheduled samples per second": 10653.37,
    "accelerator_frequency": "",
    "accelerator_host_interconnect": "",
    "accelerator_interconnect": "",
    "accelerator_interconnect_topology": "",
    "accelerator_memory_capacity": "40GB",
    "accelerator_memory_configuration": "HBM2",
    "accelerator_model_name": "NVIDIA A100-PCIe",
    "accelerator_on-chip_memories": "",
    "accelerators_per_node": 4,
    "accuracy_log_probability": 0,
    "accuracy_log_rng_seed": 0,
    "accuracy_log_sampling_target": 0,
    "characteristics.scheduled_queries_per_second": 10653.37,
    "characteristics.scheduled_queries_per_second.normalized_per_core": 2663.3425,
    "characteristics.scheduled_queries_per_second.normalized_per_processor": 2663.3425,
    "ck_system": "A100-PCIex4_TRT72",
    "ck_used": true,
    "cooling": "",
    "dataset": "SQuAD v1.1",
    "dataset_link": "",
    "dim_x_default": "seq_number",
    "dim_y_default": "characteristics.scheduled_queries_per_second",
    "dim_y_maximize": false,
    "division": "closed",
    "formal_model": "bert",
    "formal_model_accuracy": 99.0,
    "formal_model_link": "",
    "framework": "TensorRT 7.2, CUDA 11.0 Update 1",
    "host_memory_capacity": "770 GB",
    "host_memory_configuration": "",
    "host_networking": "",
    "host_networking_topology": "",
    "host_processor_caches": "",
    "host_processor_core_count": 120,
    "host_processor_frequency": "",
    "host_processor_interconnect": "",
    "host_processor_model_name": "AMD EPYC 7V13 64-Core Processor",
    "host_processors_per_node": 2,
    "host_storage_capacity": "25.6 TB",
    "host_storage_type": "SAS 2.5 SSD",
    "hw_notes": "ECC off",
    "informal_model": "bert-99",
    "input_data_types": "int32",
    "max_async_queries": 0,
    "max_duration (ms)": 0,
    "max_query_count": 0,
    "min_duration (ms)": 60000,
    "min_query_count": 270336,
    "mlperf_version": 0.7,
    "normalize_cores": 4,
    "normalize_processors": 4,
    "note_code": "https://github.com/mlcommons/inference_results_v0.7/tree/master/closed/Lenovo/code",
    "note_details": "https://github.com/mlcommons/inference_results_v0.7/tree/master/closed/Lenovo/results/A100-PCIex4_TRT72",
    "number_of_nodes": 1,
    "operating_system": "Ubuntu 18.04.5 LTS (Linux-5.4.0-1055-azure-x86_64-with-Ubuntu-18.04-bionic)",
    "other_software_stack": "TensorRT 7.2, CUDA 11.0 Update 1, cuDNN 8.0.2, DALI 0.25.0; GCC 7.5.0; Python 3.7.10",
    "performance_issue_same": true,
    "performance_issue_same_index": 0,
    "performance_issue_unique": true,
    "performance_sample_count": 10833,
    "print_timestamps": true,
    "problem": false,
    "qsl_rng_seed": 12786827339337101903,
    "retraining": "N",
    "sample_index_rng_seed": 12640797754436136668,
    "samples_per_query": 1,
    "schedule_rng_seed": 3135815929913719677,
    "starting_weights_filename": "bert_large_v1_1_fake_quant.onnx",
    "status": "available",
    "submitter": "Lenovo",
    "submitter_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.submitter/Lenovo",
    "sw_notes": "Powered by CK v2.5.8 (https://github.com/ctuning/ck)",
    "system_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.system/A100-PCIex4_TRT72",
    "system_name": "Microsoft Corporation 7.0 (Virtual Machine)",
    "system_type": "datacenter",
    "target_latency (ns)": 130000000,
    "target_qps": 10650,
    "task": "NLP",
    "task2": "nlp",
    "total_cores": 240,
    "uid": "67b9446e90f086c2",
    "use_accelerator": true,
    "weight_data_types": "int8,fp16",
    "weight_transformations": "quantization, affine fusion"
  },
  {
    "50.00 percentile latency (ns)": 68683534,
    "90.00 percentile latency (ns)": 97770951,
    "95.00 percentile latency (ns)": 107801394,
    "97.00 percentile latency (ns)": 114675520,
    "99.00 percentile latency (ns)": 126693115,
    "99.90 percentile latency (ns)": 142058700,
    "Completed samples per second": 5193.79,
    "Max latency (ns)": 159299420,
    "Mean latency (ns)": 70679312,
    "Min duration satisfied": "Yes",
    "Min latency (ns)": 4308105,
    "Min queries satisfied": "Yes",
    "Mode": "Performance",
    "Performance constraints satisfied": "Yes",
    "Result is": "VALID",
    "SUT name": "BERT SERVER",
    "Scenario": "server",
    "Scheduled samples per second": 5199.74,
    "accelerator_frequency": "",
    "accelerator_host_interconnect": "",
    "accelerator_interconnect": "",
    "accelerator_interconnect_topology": "",
    "accelerator_memory_capacity": "40GB",
    "accelerator_memory_configuration": "HBM2",
    "accelerator_model_name": "NVIDIA A100-PCIe",
    "accelerator_on-chip_memories": "",
    "accelerators_per_node": 4,
    "accuracy_log_probability": 0,
    "accuracy_log_rng_seed": 0,
    "accuracy_log_sampling_target": 0,
    "characteristics.scheduled_queries_per_second": 5199.74,
    "characteristics.scheduled_queries_per_second.normalized_per_core": 1299.935,
    "characteristics.scheduled_queries_per_second.normalized_per_processor": 1299.935,
    "ck_system": "A100-PCIex4_TRT72",
    "ck_used": true,
    "cooling": "",
    "dataset": "SQuAD v1.1",
    "dataset_link": "",
    "dim_x_default": "seq_number",
    "dim_y_default": "characteristics.scheduled_queries_per_second",
    "dim_y_maximize": false,
    "division": "closed",
    "formal_model": "bert",
    "formal_model_accuracy": 99.9,
    "formal_model_link": "",
    "framework": "TensorRT 7.2, CUDA 11.0 Update 1",
    "host_memory_capacity": "770 GB",
    "host_memory_configuration": "",
    "host_networking": "",
    "host_networking_topology": "",
    "host_processor_caches": "",
    "host_processor_core_count": 120,
    "host_processor_frequency": "",
    "host_processor_interconnect": "",
    "host_processor_model_name": "AMD EPYC 7V13 64-Core Processor",
    "host_processors_per_node": 2,
    "host_storage_capacity": "25.6 TB",
    "host_storage_type": "SAS 2.5 SSD",
    "hw_notes": "ECC off",
    "informal_model": "bert-99.9",
    "input_data_types": "int32",
    "max_async_queries": 0,
    "max_duration (ms)": 0,
    "max_query_count": 0,
    "min_duration (ms)": 60000,
    "min_query_count": 270336,
    "mlperf_version": 0.7,
    "normalize_cores": 4,
    "normalize_processors": 4,
    "note_code": "https://github.com/mlcommons/inference_results_v0.7/tree/master/closed/Lenovo/code",
    "note_details": "https://github.com/mlcommons/inference_results_v0.7/tree/master/closed/Lenovo/results/A100-PCIex4_TRT72",
    "number_of_nodes": 1,
    "operating_system": "Ubuntu 18.04.5 LTS (Linux-5.4.0-1055-azure-x86_64-with-Ubuntu-18.04-bionic)",
    "other_software_stack": "TensorRT 7.2, CUDA 11.0 Update 1, cuDNN 8.0.2, DALI 0.25.0; GCC 7.5.0; Python 3.7.10",
    "performance_issue_same": true,
    "performance_issue_same_index": 0,
    "performance_issue_unique": true,
    "performance_sample_count": 10833,
    "print_timestamps": true,
    "problem": false,
    "qsl_rng_seed": 12786827339337101903,
    "retraining": "N",
    "sample_index_rng_seed": 12640797754436136668,
    "samples_per_query": 1,
    "schedule_rng_seed": 3135815929913719677,
    "starting_weights_filename": "bert_large_v1_1_fake_quant.onnx",
    "status": "available",
    "submitter": "Lenovo",
    "submitter_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.submitter/Lenovo",
    "sw_notes": "Powered by CK v2.5.8 (https://github.com/ctuning/ck)",
    "system_link": "https://github.com/ctuning/ck-mlperf-inference/tree/main/bench.mlperf.system/A100-PCIex4_TRT72",
    "system_name": "Microsoft Corporation 7.0 (Virtual Machine)",
    "system_type": "datacenter",
    "target_latency (ns)": 130000000,
    "target_qps": 5200,
    "task": "NLP",
    "task2": "nlp",
    "total_cores": 240,
    "uid": "f11364b9cc44f595",
    "use_accelerator": true,
    "weight_data_types": "int8,fp16",
    "weight_transformations": "quantization, affine fusion"
  }
]