TestAffineQuantizedTensorParallel fails on H100 #1000

jainapurva · 2024-10-03T01:58:00Z

The TestAffineQuantizedTensorParallel fails on H100 for bfloat16, float16 and float32 dtypes. Need to debug the reason and fix for it.

Error:

ERROR: test_tp_float32 (torchao.testing.utils.TorchAOTensorParallelTestCase)
----------------------------------------------------------------------
Traceback (most recent call last):
  File "/home/appy/.conda/envs/dev_ao/lib/python3.9/site-packages/torch/testing/_internal/common_distributed.py", line 541, in wrapper
    self._join_processes(fn)
  File "/home/appy/.conda/envs/dev_ao/lib/python3.9/site-packages/torch/testing/_internal/common_distributed.py", line 767, in _join_processes
    self._check_return_codes(elapsed_time)
  File "/home/appy/.conda/envs/dev_ao/lib/python3.9/site-packages/torch/testing/_internal/common_distributed.py", line 821, in _check_return_codes
    raise RuntimeError(
RuntimeError: Process 0 terminated or timed out after 300.0712020397186 seconds

----------------------------------------------------------------------
Ran 9 tests in 2701.009s

FAILED (errors=9)
/home/appy/.conda/envs/dev_ao/lib/python3.9/multiprocessing/resource_tracker.py:216: UserWarning: resource_tracker: There appear to be 36 leaked semaphore objects to clean up at shutdown
  warnings.warn('resource_tracker: There appear to be %d

The text was updated successfully, but these errors were encountered:

jainapurva · 2024-10-16T04:32:10Z

The issue was caused due to pytorch version.

* Add warning comments referring to unimplemented functionality * JSON formatted response using OpenAI API types for server completion requests * Add models endpoint (pytorch#1000)

jainapurva mentioned this issue Oct 3, 2024

Temporary Fix: Skip TestAffineQuantizedTensorParallel on H100 #1001

Closed

jainapurva closed this as completed Oct 16, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

TestAffineQuantizedTensorParallel fails on H100 #1000

TestAffineQuantizedTensorParallel fails on H100 #1000

jainapurva commented Oct 3, 2024

jainapurva commented Oct 16, 2024

TestAffineQuantizedTensorParallel fails on H100 #1000

TestAffineQuantizedTensorParallel fails on H100 #1000

Comments

jainapurva commented Oct 3, 2024

jainapurva commented Oct 16, 2024